A política de RHIP fornece uma elevação de 15,9% e 24,1% na taxa de correspondência global de rota para dirigir e duas rodas (por exemplo, scooters, motocicletas, ciclistas) em relação à linha de base dos mapas bem ajustados, respectivamente.Ao introduzir avanços de escalabilidade nos algoritmos IRL clássicos, agora podemos treinar modelos de recompensa sobre problemas com centenas de milhões de estados, trajetórias de demonstração e parâmetros de modelo, respectivamente.Também gostaríamos de agradecer a Arno Eigenwillig, Jacob Moorman, Jonathan Spencer, Remi Munos, Michael Bloesch e Arun Ahuja por discussões e sugestões valiosas.Em seguida, aplicamos algoritmos IRL clássicos para resolver os MDPs locais, estimar a perda e enviar gradientes de volta ao MOE.Isso contrasta com as abordagens que aprendem diretamente uma política, que normalmente exige um fator extra de parâmetros S, onde S é o número de estados do MDP.
Fonte: https://blog.research.google/2023/09/world-scale-inverse-reinforcement.html