Extensão da Intel para Transformadores

5 de dezembro de 2023 518

Inferência de Modelo de Linguagem Grande (LLM) em C/C ++ puro com núcleos de quantização somente de peso, apoiando GPT-Neox, Llama, MPT, Falcon, Bloom-7b, Opt, Chatglm2-6b, Gpt-J-6b e Dolly-v2-3b.Excelentes projetos de código aberto: Bitsandbytes, FastChat, Fastrag, GGML, GPTQ, LLAMA.CPP, LM-EVAUATION-HARNESS, PEFT, TRL, Streamingllm e muitos outros.Além disso, estamos nos preparando para introduzir Baichuan, Mistral e outros modelos no tempo de execução do LLM (Intel otimizado para o Llamacpp).Para uma precisão abrangente e dados de desempenho, embora não sejam os mais atualizados, consulte os dados de liberação.Suporte ao conjunto de instruções AMX, VNNI, AVX512F e AVX2.

Fonte: https://github.com/intel/intel-extension-for-transformers

linux-BR.org

Extensão da Intel para Transformadores

Trending posts dos últimos 30 dias

STF investe mais de 1 milhão no KDE

Google traiu a web

Mantenedor do Curl: os relatórios de segurança de IA não são mais desleixados

Migração de código auxiliada por IA: o Google obteve uma migração 6x mais rápida do TensorFlow para Jax

Comemorando 20 anos do Google Tradutor

Comentários