Por exemplo, queremos manter os modelos o mais pequeno possível, tanto sobre o fio quanto na memória; portanto, o compartilhamento de peso para modelos de codificadores-decodificadores é uma obrigação.Com mais otimizações, suporte ao operador e truques de quantização, laserbeak &
Rumble deve poder executar modelos mais úteis – e em breve.Com o WebGPU também vem uma nova linguagem de sombreamento, WGSL e, apesar de algum critisismo, achei a sintaxe inspirada em ferrugem muito acessível.Além disso, a vantagem sobre a CPU crescerá em conjunto com o tamanho do modelo, tornando -a uma opção cada vez mais atraente para executar modelos grandes no navegador.Para lidar com isso, você precisa compilar os shaders, o que torna o desempenho da CPU um pouco mais desafiador do que o previsto.
Fonte: https://fleetwood.dev/posts/running-llms-in-the-browser