怎么理解ChatGPT的底层技术？

通俗的说，GPT 是一个基于统计学的语言模型，其工作就是对词语进行概率分布的建模，也就是利用已经说过的话去预测下一个词出现的分布概率。衡量一个语言模型的功能最重要取决于两点：一是是否能有效利用历史上下文信息，这决定其对于人类意图的理解能力。二是是否有足够丰富高质量的训练语料，这决定其回答的质量。此外就是性能和成本之间的平衡。

在过去 10 年发生了三次技术上的变化。

1）Attention 机制的提出：Attention 机制于 2014 年正式被提出，并逐步成为了 NLP 中应用最广泛的设计。

2）Transform 架构的提出：Transformer 在 2017 年由 Google 在题为《Attention Is All You Need》的论文中提出。

3）GPT-3 模型的突破：大力出奇迹。Generative Pre-trained Transformer (GPT)，是一种基于互联网可用数据训练的文本生成深度学习模型。

国内外的差距在哪里？1）资金差距：大模型训练成本百万美金左右，对小厂难度较大，训练一个大模型成本约 300-400 万美金，之后每次调用成本在几美分。小厂商不具备自己训练的能力。

2）数据差距。数据量差异：AI 学界话语权在英文世界，因此英语语料较多；数据质量差异：国内私域互联网较为发达，因此公域中高质量中文内容较为缺失。

3）算力差距。地缘政治因素导致缺芯短期影响不大，长期禁令不解有卡脖子风险。

4）人才差距。国内在 AI 顶尖人才方面仍和海外有一定差距。

投资逻辑：关注什么？关注上游的算力扩张和下游的应用落地。文字语音、图片、视频等多形式的输入输出，或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验，亦将大幅提升支撑人工智能的算力需求，算力或迎来高速扩张时代。1）上游算力；2）下游应用（具备 AI 大模型和成熟的应用场景搜索）；3）此外，游戏、营销、虚拟人等业态也有望受益于对话智能程度的提升。

幸福双城资讯网

英武评商业