Llama.cpp – Executar inferência LLM em C/C++

13 de junho de 2026 115

Llama.cpp suporta uma ampla gama de arquiteturas de modelos que incluem Llama 1, 2 e 3, Mistral, Phi, Gemma, Yi, DeepSeek, Qwen, Solar, Alpaca e StableLM. llama.cpp possui integração nativa com CUDA, ROCm da AMD, Vulkan, Opencl e SYCL para inferência acelerada. O software suporta GPUs Nvidia (CUDA), GPUs AMD (ROCm), Apple Silicon (Metal) e outras GPUs compatíveis com Vulkan. O sistema k-quants (Q4_K_M, Q5_K_S, Q6_K e assim por diante) incorpora quantização por bloco que também ajuda a preservar a qualidade do modelo enquanto reduz drasticamente o consumo de memória. Llama.cpp inclui scripts Python para converter modelos de vários formatos (PyTorch, SafeTensors) para GGUF.

Fonte: https://llama-cpp.com/

linux-BR.org

Llama.cpp – Executar inferência LLM em C/C++

Trending posts dos últimos 30 dias

Python 3.14 compilado para metal – sem intérprete

Odin, Wikipedia e agricultura de engajamento

As CPUs estão de volta: o cenário da CPU do datacenter em 2026

Valve/Collabora Release Holo Core Custom Aarch64 Arch Linux Port para Steam Frame

Analisando opções de linha de comando com Rust – é tudo Libc

Comentários