Para o algoritmo RL, fizemos vários avanços algorítmicos, usando uma otimização de política relativa de grupo (GRPO) personalizada de acordo com a política.Empregamos um regime de treinamento estritamente de acordo com a política, garantindo que o sinal de aprendizagem seja sempre relevante para as capacidades atuais do modelo.O objetivo do treinamento é otimizado usando uma perda de gradiente de política em nível de token.Em segundo lugar, para reduzir ainda mais a variação na estimativa de vantagem, adotamos uma estratégia de deixar um de fora.Além disso, empregamos uma estratégia conservadora para amostras negativas, tendo observado que um conjunto não filtrado de trajetórias negativas degrada significativamente a estabilidade do treinamento.Isso pode se manifestar como um fenômeno de “colapso de formato” após treinamento prolongado.Para mitigar isso, excluímos seletivamente certas amostras negativas do cálculo de perda , por exemplo, aquelas que não produzem uma resposta final porque excedem um limite de comprimento.Por uma questão de eficiência, não empregamos amostragem dinâmica.Em vez disso, aproveitamos lotes e grupos de tamanhos maiores, que servem para manter variações menores e fornecer supervisão adequada.Além do modelo, compartilhamos uma metodologia completa e testada em batalha para criar esses agentes avançados.Nossa contribuição detalha uma nova solução de síntese de dados aplicada em todo o pipeline de treinamento, desde o pré-treinamento contínuo da Agentic (CPT) e o ajuste fino supervisionado (SFT) para partida a frio até o estágio final de aprendizado por reforço (RL).Para RL, fornecemos uma solução completa, incluindo inovações algorítmicas, curadoria automatizada de dados e infraestrutura robusta.Para inferência, a estrutura ReAct básica mostra as poderosas capacidades intrínsecas do modelo sem qualquer engenharia imediata, enquanto o Modo Pesado avançado (escalonamento do tempo de teste) demonstra os limites superiores de seu potencial complexo de raciocínio e planejamento.Além disso, desenvolvemos um mecanismo de dados automatizado para ampliar a criação de questões de pesquisa em nível de doutorado.Esse mecanismo começa com uma base de conhecimento multidisciplinar, gerando pares de controle de qualidade “semente” que exigem raciocínio de várias fontes.Cada semente entra em um ciclo autoguiado de “atualizações de complexidade iterativa”, onde um agente de elaboração de perguntas é equipado com um poderoso conjunto de ferramentas, incluindo pesquisa na Web, recuperação acadêmica e um ambiente de execução em Python.Em cada iteração, o agente expande os limites do conhecimento, aprofunda a abstração conceitual e até constrói tarefas computacionais, criando um ambiente virtuoso.ciclo onde o resultado de uma rodada se torna a entrada mais complexa para a próxima, garantindo um escalamento controlável e sistemático da dificuldade da tarefa.Reorganização de dados e construção de perguntas.Coletamos continuamente dados de diversas fontes, incluindo documentos, dados rastreados publicamente disponíveis, gráficos de conhecimento e trajetórias históricas e registros de invocação de ferramentas (por exemplo, resultados de pesquisa com links).Como mostrado na figura, essas diversas fontes de dados são reestruturadas em uma memória de conhecimento de mundo aberto ancorada na entidade.Com base em entidades amostradas aleatoriamente e em seu conhecimento correspondente, geramos pares de vários estilos (pergunta, resposta).Tongyi DeepResearch não é apenas uma vitrine de pesquisa;ele já está potencializando aplicativos reais dentro do Alibaba e além, demonstrando seu valor em cenários práticos:
Nosso trabalho futuro abordará três principais limitações.Primeiro, o comprimento atual de 128k de contexto ainda é insuficiente para as tarefas mais complexas de longo horizonte, exigindo que exploremos janelas de contexto expandidas e um gerenciamento de informações mais sofisticado.Em segundo lugar, a escalabilidade do nosso pipeline de treinamento ainda não foi comprovada em modelos de base significativamente maiores do que nosso MoE em escala de 30B, e planejamos validar nossos métodos em modelos de escala maior.Por fim, pretendemos melhorar a eficiência de nossa estrutura de aprendizado por reforço investigando técnicas como implementações parciais, que exigirão resolver os desafios do treinamento fora da política, como o turno de distribuição.
Fonte: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
