Estamos buscando dimensionar os parâmetros por $ k_n $ e treinar tokens por $ k_d $ enquanto atinge a mesma perda que $ l (n_ {opt}, d_ {opt}) $.Para manter o mesmo orçamento de computação, devemos dobrar o número de tokens de treinamento $ d_ {opt} $, mas devemos esperar algumas despesas gerais de computação e treinar por mais tempo.Graças a todos que participaram dessas discussões, especialmente Raymond Li, Joel Lamy Poirier, Denis Kocetkov, Leandro von Werra, Loubna Ben Allal, Evgenii Zheltozhskii, Niklas Muennighff e Dzmitry Bahdanau.Isso envolve a seleção do número de parâmetros do modelo $ N $ e o número de tokens de treinamento $ D $.À medida que avançamos em direção a modelos menores, observamos uma tendência assintótica e, a $ k_n = 0,25 $, a sobrecarga de computação aumenta rapidamente para 188%.
Fonte: https://www.harmdevries.com/post/model-size-vs-compute-overhead/