Extensão da Intel para Transformadores

5 de dezembro de 2023 440

Inferência de Modelo de Linguagem Grande (LLM) em C/C ++ puro com núcleos de quantização somente de peso, apoiando GPT-Neox, Llama, MPT, Falcon, Bloom-7b, Opt, Chatglm2-6b, Gpt-J-6b e Dolly-v2-3b.Excelentes projetos de código aberto: Bitsandbytes, FastChat, Fastrag, GGML, GPTQ, LLAMA.CPP, LM-EVAUATION-HARNESS, PEFT, TRL, Streamingllm e muitos outros.Além disso, estamos nos preparando para introduzir Baichuan, Mistral e outros modelos no tempo de execução do LLM (Intel otimizado para o Llamacpp).Para uma precisão abrangente e dados de desempenho, embora não sejam os mais atualizados, consulte os dados de liberação.Suporte ao conjunto de instruções AMX, VNNI, AVX512F e AVX2.

Fonte: https://github.com/intel/intel-extension-for-transformers

linux-BR.org

Extensão da Intel para Transformadores

Trending posts dos últimos 30 dias

Não é mais um cliente da Amazon.com

Aprofundamento no desempenho de Java vs. C++

Linux Fu: o super cache SSD

Google Tradutor ganha novos modelos de tradução Gemini AI

A Verizon se recusou a desbloquear o iPhone do homem, então ele processou a operadora e ganhou

Comentários