亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

哪種大語言模型量化方式最適合你?Q4KS還是Q4KM?

如果你正在处理一个巨大的语言模型,量化是你优化性能和速度的好朋友。有许多不同的量化方法,例如 Q3_K_S、Q4_K_M、Q4_0、Q8_0,哪一个是最好的?

通常,K_M 模型在大小和困惑度之间具有最佳平衡。在我的 PC 上,我最喜欢 Q4_K_M。这里有一些来自 llama.cpp 的测试数据:

参见 https://github.com/ggerganov/llama.cpp/pull/1684

实现细节:

llama.cpp 支持两种量化类型:"type-0" (Q4_0, Q5_0) 和 "type-1" (Q4_1, Q5_1)。

在 "type-0" 中,权重 w 通过 w = d * q 从量化值 q 获取,其中 d 是块缩放值。

在 "type-1" 中,权重由 w = d * q + m 给出,其中 m 是块的最小值。

例如:

GGML_TYPE_Q3_K - "type-0" 3位量化在包含16个块的超块中,每个块包含16个权重。缩放因子用6位量化。这最终使用了 3.4375 位/权重。

GGML_TYPE_Q4_K - "type-1" 4位量化在包含8个块的超块中,每个块包含32个权重。缩放值和最小值使用6位量化。这最终使用了 4.5 位每权重。

GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块,每个块有16个权重。缩放因子使用8位量化。最终每个权重使用 6.5625 位。

  • LLAMA_FTYPE_MOSTLY_Q4_K_S - 使用 GGML_TYPE_Q4_K 对所有张量
  • LLAMA_FTYPE_MOSTLY_Q4_K_M - 使用 GGML_TYPE_Q6_Kattention.wvfeed_forward.w2 张量的一半,其余使用 GGML_TYPE_Q4_K
點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消