linux-BR.org

Notícias de software livre e tecnologias

Descendência de gradiente estocástica (SGD) em contraste executa uma atualização de parâmetro para cada exemplo de treinamento \ (x^{(i)} \) e etiqueta \ (y^{(i)} \):
\ (\ theta = \ theta – \ eta \ cdot \ nabla_ \ theta j (\ theta; x^{(i)}; y^{(i)}) \).[31] Adicione o ruído que segue uma distribuição gaussiana \ (n (0, \ sigma^2_T) \) a cada atualização de gradiente:
\ (g_ {t, i} = g_ {t, i} + n (0, \ sigma^2_t) \).Retirado de http://jmlr.org/papers/v12/duchi11a.html ↩︎
Dean, J., Corrado, G. S., Monga, R., Chen, K., Devin, M., Le, Q. V,… ng, A. Y. Agora, agora simplesmente substituímos a matriz diagonal \ (g_ {t} \) porA média de emissão dos gradientes quadrados anteriores \ (e [g^2] _t \):
\ (\ Delta \ theta_t = – \ dfrac {\ eta} {\ sqrt {e [g^2] _t + \ epsilon}} g_ {t} \).Recuperado em http://papers.nips.cc/paper/5242-delay-tolerant-algorithms-for-asncrono-distribuído-online-learning.pdf ↩︎
Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C.,… Zheng, X.

Fonte: https://www.ruder.io/optimizing-gradient-descent/