Inferência de Modelo de Linguagem Grande (LLM) em C/C ++ puro com núcleos de quantização somente de peso, apoiando GPT-Neox, Llama, MPT, Falcon, Bloom-7b, Opt, Chatglm2-6b, Gpt-J-6b e Dolly-v2-3b.Excelentes projetos de código aberto: Bitsandbytes, FastChat, Fastrag, GGML, GPTQ, LLAMA.CPP, LM-EVAUATION-HARNESS, PEFT, TRL, Streamingllm e muitos outros.Além disso, estamos nos preparando para introduzir Baichuan, Mistral e outros modelos no tempo de execução do LLM (Intel otimizado para o Llamacpp).Para uma precisão abrangente e dados de desempenho, embora não sejam os mais atualizados, consulte os dados de liberação.Suporte ao conjunto de instruções AMX, VNNI, AVX512F e AVX2.
Fonte: https://github.com/intel/intel-extension-for-transformers