首頁手記哪種大語言模型量化方式最適合你？Q4KS還是Q4KM？

哪種大語言模型量化方式最適合你？Q4KS還是Q4KM？

標簽：

人工智能自然語言處理算法與數據結構

如果你正在处理一个巨大的语言模型，量化是你优化性能和速度的好朋友。有许多不同的量化方法，例如 Q3_K_S、Q4_K_M、Q4_0、Q8_0，哪一个是最好的？

通常，K_M 模型在大小和困惑度之间具有最佳平衡。在我的 PC 上，我最喜欢 Q4_K_M。这里有一些来自 llama.cpp 的测试数据：

参见 https://github.com/ggerganov/llama.cpp/pull/1684

实现细节：

llama.cpp 支持两种量化类型："type-0" (Q4_0, Q5_0) 和 "type-1" (Q4_1, Q5_1)。

在 "type-0" 中，权重 w 通过 w = d * q 从量化值 q 获取，其中 d 是块缩放值。

在 "type-1" 中，权重由 w = d * q + m 给出，其中 m 是块的最小值。

例如：

GGML_TYPE_Q3_K - "type-0" 3位量化在包含16个块的超块中，每个块包含16个权重。缩放因子用6位量化。这最终使用了 3.4375 位/权重。

GGML_TYPE_Q4_K - "type-1" 4位量化在包含8个块的超块中，每个块包含32个权重。缩放值和最小值使用6位量化。这最终使用了 4.5 位每权重。

GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块，每个块有16个权重。缩放因子使用8位量化。最终每个权重使用 6.5625 位。

LLAMA_FTYPE_MOSTLY_Q4_K_S - 使用 GGML_TYPE_Q4_K 对所有张量
LLAMA_FTYPE_MOSTLY_Q4_K_M - 使用 GGML_TYPE_Q6_K 对 attention.wv 和 feed_forward.w2 张量的一半，其余使用 GGML_TYPE_Q4_K

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕絲7291255

手記
篇

粉絲

15

獲贊與收藏

70

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32207 359

網絡編程入門教程

20個小節 13297 250

Pandas 入門教程

25個小節 19917 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

哪種大語言模型量化方式最適合你？Q4KS還是Q4KM？

閱讀免費教程

哪種大語言模型量化方式最適合你？Q4KS還是Q4KM？