Aprendizagem de reforço inverso em escala mundial no Google Maps

13 de setembro de 2023 385

A política de RHIP fornece uma elevação de 15,9% e 24,1% na taxa de correspondência global de rota para dirigir e duas rodas (por exemplo, scooters, motocicletas, ciclistas) em relação à linha de base dos mapas bem ajustados, respectivamente.Ao introduzir avanços de escalabilidade nos algoritmos IRL clássicos, agora podemos treinar modelos de recompensa sobre problemas com centenas de milhões de estados, trajetórias de demonstração e parâmetros de modelo, respectivamente.Também gostaríamos de agradecer a Arno Eigenwillig, Jacob Moorman, Jonathan Spencer, Remi Munos, Michael Bloesch e Arun Ahuja por discussões e sugestões valiosas.Em seguida, aplicamos algoritmos IRL clássicos para resolver os MDPs locais, estimar a perda e enviar gradientes de volta ao MOE.Isso contrasta com as abordagens que aprendem diretamente uma política, que normalmente exige um fator extra de parâmetros S, onde S é o número de estados do MDP.

Fonte: https://blog.research.google/2023/09/world-scale-inverse-reinforcement.html

linux-BR.org

Aprendizagem de reforço inverso em escala mundial no Google Maps

Trending posts dos últimos 30 dias

À medida que a IA se torna mais complexa, os construtores de modelos confiam na Nvidia

Uma revisão do Curl 2025

Google Tradutor ganha novos modelos de tradução Gemini AI

A Verizon se recusou a desbloquear o iPhone do homem, então ele processou a operadora e ganhou

Assinar ou não assinar: vulnerabilidades práticas no GPG e amigos

Comentários