源2.0-M32大模型發(fā)布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

                  2024-08-27 09:43 來源:美通社 作者:電源網(wǎng)

                  北京2024年8月23日 /美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB,所需算力為140GFLOPs。

                  源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領(lǐng)先的量化技術(shù),將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環(huán)境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。

                  源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創(chuàng)新性地提出和采用了"基于注意力機制的門控網(wǎng)絡(luò)"技術(shù),構(gòu)建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數(shù)為37億,在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型,大幅提升了模型算力效率。

                  模型量化(Model Quantization)是優(yōu)化大模型推理的一種主流技術(shù),它顯著減少了模型的內(nèi)存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術(shù)面臨的核心挑戰(zhàn)。

                  源2.0-M32大模型研發(fā)團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現(xiàn),最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結(jié)構(gòu)的算子,提高了模型的部署加載速度和多線程推理效率,實現(xiàn)高并發(fā)推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設(shè)備和邊緣設(shè)備上。

                  評測結(jié)果顯示,源2.0-M32量化版在多個業(yè)界主流的評測任務(wù)中性能表現(xiàn)突出,特別是在MATH(數(shù)學競賽)、ARC-C(科學推理)任務(wù)中,比肩擁有700億參數(shù)的LLaMA3大模型。


                  總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內(nèi)存占用,其采用的GPTQ量化方法通過精細調(diào)整,成功將模型適配至int4和int8精度級別。通過定制化算子優(yōu)化,源2.0-M32量化版實現(xiàn)了模型結(jié)構(gòu)的深度適配和性能的顯著提升,確保在不同硬件和軟件環(huán)境中均能高效運行。未來,隨著量化技術(shù)的進一步優(yōu)化和應(yīng)用場景的拓展,源2.0-M32量化版有望在移動設(shè)備和邊緣計算等領(lǐng)域發(fā)揮更廣泛的作用,為用戶提供更高效的智能服務(wù)。

                  源2.0-M32量化版已開源,下載鏈接如下:

                  Hugging Face平臺下載鏈接:

                  https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4 
                  https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4 
                  https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8 

                  modelscope平臺下載鏈接:

                  https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4 
                  https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4 
                  https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8 

                  源2.0-M32 大模型 顯存 23GB LLaMA3

                  一周熱門

                  亚洲精品无码专区| 亚洲高清中文字幕综合网| 91久久亚洲国产成人精品性色| 伊人久久亚洲综合| 国产亚洲精品美女| 亚洲av无码有乱码在线观看| 亚洲人成77777在线播放网站不卡 亚洲人成77777在线观看网 | 久久亚洲精品国产精品| 国产亚洲精品观看91在线| 国产成人亚洲精品狼色在线 | 日韩精品亚洲人成在线观看| 亚洲国产无套无码av电影| 亚洲美女又黄又爽在线观看| 亚洲日韩av无码| 国产亚洲人成网站观看| 亚洲AV无码国产在丝袜线观看| 亚洲成A人片在线观看无码不卡 | 亚洲Av综合色区无码专区桃色| 亚洲国产成人精品无码区在线观看| 亚洲乱码国产一区三区| 亚洲夜夜欢A∨一区二区三区| 亚洲一级片免费看| 最新精品亚洲成a人在线观看| 亚洲日韩在线中文字幕第一页| 亚洲人成色7777在线观看不卡 | 亚洲成a人片在线观看日本麻豆 | 亚洲国产精品狼友中文久久久| 国产成人+综合亚洲+天堂| 亚洲国产成人VA在线观看| 亚洲精品久久久www| 国产亚洲av片在线观看18女人 | 中文字幕亚洲激情| 国产亚洲av片在线观看16女人 | 亚洲欧洲专线一区| 国产精品亚洲专区无码不卡| 亚洲精品一级无码中文字幕| 国产亚洲精品无码拍拍拍色欲| 亚洲精品字幕在线观看| 亚洲人成依人成综合网| 亚洲人成在线精品| 亚洲精华国产精华精华液 |