首頁手記大規模語言模型是如何工作的？

大規模語言模型是如何工作的？

標簽：

深度學習人工智能自然語言處理

如果有人这样解释给我就好了，生成式AI背后的技术原理！

什么是Transformer？ — 作者提供

GPT (生成型预训练转换器) 或 BERT (双向编码器表示的变换器) 是可以生成类似人类文本的大规模语言模型 (LLMs)。

这就是为什么我们需要关注这一影响深远的作品，即《Transformers》，这项革命性的技术已经改变了我们如今与AI互动的方式。如果你还没有读过，现在就去读一读吧。点击这里立即阅读立即阅读

今天，我们将要了解：

什么是LLM？
它是如何工作的？
它的商业应用有哪些？

那么，我们从第一个开始吧

什么是大型语言模型？

可以说，一个LLM是叫做基础模型的东西的一个实例。

什么是Foundation模型？ — （作者提供图片）

基础模型是巨大的神经网络架构，这些架构在大量未标记和自监督的数据上进行了预训练，这意味着模型从数据中的模式中学习，从而产生具有泛化性和适应性的输出。

大型语言模型是基础模型专门应用于文本及其类似形式（如文章、诗歌、代码等）的实例。

现在LLM是在大规模的文本数据集上训练的，例如书籍、文章以及众多公开的来源。正如其名“大型”一样，这些数据集的大小达到数十吉字节的数据量（数据量），并且是在海量的文本数据上进行训练的（当然，我们谈论的可能是数 petabytes 的数据）。

一个拍字节中有多少吉字节？

改为：

一个拍字节中有多少吉字节？

根据建议调整为：

一拍字节中有多少吉字节？

好吧，大约是一百万。

为了让大家有个更直观的概念，一个一吉字节（1GB）大小的文本文件可以存储大约1.78亿个token。是的，这确实是一个庞大的文本量。而且不要忘了，LLM在参数数量上也属于最大的模型之一。

参数具体指什么？

在模型学习过程中，随着反向传播，权重和偏置独立变化。参数越多，模型越复杂。

GPT-3 (这里的3表示这是第三代) 是一个自回归的语言模型，它可以生成看起来像是由人类编写出来的文本，例如，它在实际的 45太字节的数据 上进行了预训练，并使用了 1750亿个ML参数。

真有趣吧！

那么，现在来谈谈关于

它们是怎么工作的？

我们可以这样理解，LLM可以看作是由三部分组成的，即LLM的组成部分：数据、架构以及训练。

大语言模型包括数据、架构和训练 — —图作者供图

我们现在已经讨论了训练这些模型所需的大量文本数据。

关于架构，对于GPT-3来说，这是一款仅解码的Transformer，由96个注意力块组成，每个块包含96个注意力头（掩码自注意力机制）以及用于处理数据序列（例如句子或代码行）的前向神经网络层。

Transformer旨在通过将其与句子中的其他每个词进行比较，来理解句子中每个词的上下文含义。

这使模型能够构建对句子的结构的全面理解，并捕捉其中单词的上下文意义。

然后，这个架构在大量数据上进行训练。在训练过程中，模型学会了预测句子中的下一个单词。

您可以参考我之前的文章《自注意力网络》来理解大规模语言模型背后的直觉。

比如说，

苹果是……

它从一个随机的猜测开始，比如“苹果是紫色的”。

但随着每次迭代过程，模型调整其权重和偏置以减少预测与实际结果之间的差距，逐渐改善其词汇预测，直到它可以可靠地生成语义连贯的句子。

忘记“紫色”，学会识别“红色”。

该模型还可以进一步微调，以适应您的任务需求，在更小且更具体的特定数据集上，从而产生更具体和准确的结果。

微调（Fine-tuning） 允许通用语言模型根据具体的应用场景和特定的训练数据集在任何特定任务上成为专家。

好的，让我们来理解一下，

这一切是如何与第3点，即所谓的业务应用，相吻合的？

通常，对于客户服务应用业务来说，企业可以使用大型语言模型来创建一个聊天机器人来处理客户24小时的查询，从而使人工代理能够专注于更复杂的问题。

为了提高客户满意度，请注意，聊天机器人应以更像人类的互动语气回应，符合他们的独特需求，而不是机械式的语气。

另一个好的领域正是 内容创作 领域，如，可以利用大型语言模型（LLMs）为社交媒体帖子、视频或短片等生成脚本和字幕，从中获益。

此外，LLM在包括软件开发和数据分析等技术领域中做出贡献，通过生成和审查代码，甚至参与头脑风暴。

2024年之前八大最常见的大型模型应用场景案例 — (作者供图)

如今，随着大型语言模型的不断发展，我们可以在这些领域发现它们的应用，例如内容审核、信息检索等更多创新领域。

因此，全世界对大规模语言模型趋之若鹜。

在你离开之前，如果……如果你喜欢这次深入探讨，_关注我，你就不会错过我未来的更新。谢谢

拍手50次，然后分享 你的想法在下方评论区，如果你想看到特定的内容或被听到。

就这样，我结束了。我们很快再聊！小姐姐 🙋🏻‍♀️

— 尼基塔·普拉萨德 （来源：尼基塔·普拉萨德）

直译 🚀

感谢您成为我们_In Plain English_社区的一员！在您离开之前，有几件事想对您说：

确保拍手并跟随作者👏️
关注我们的社交媒体平台：X | LinkedIn | YouTube | Discord | Newsletter
浏览我们的其他网站：CoFeed | Differ
更多精彩内容请访问 PlainEnglish.io

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

qq_笑_17

手記
篇

粉絲

12

獲贊與收藏

52

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32210 359

網絡編程入門教程

20個小節 13298 250

Pandas 入門教程

25個小節 19917 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

大規模語言模型是如何工作的？

閱讀免費教程

大規模語言模型是如何工作的？