
lhama.cpp para mim parece ser a melhor resposta para o problema no momento (uma versão de rust seria uma preferência pessoal, mas não pode ter tudo).No lado da pilha de computação, o Vulkan expõe a maioria dos recursos do hardware da GPU de uma maneira possivelmente abaixo do ideal, mas com extensões tudo pode ser perdoado.Cuda, Rocm e Intel Oneapi, tudo em minha mente, gritam super-engenharia em uma enorme escala, pelo menos para uma única tarefa como inferir.Na AMD RADV (Open Source), Vulkan já é melhor no TG que o ROCM, mas por trás do processamento rápido.O principal problema que tenho é que Jeff está escrevendo o código do driver para o driver vulkan proprietário da NVIDIA, o que reduz a complexidade, mas não resolve meu problema de código aberto.
Fonte: https://airlied.blogspot.com/2025/07/ramalamamesa-benchmarks-on-my-hardware.html