怎么理解ChatGPT的底层技术?

英武评商业 2024-03-22 03:42:54

通俗的说,GPT 是一个基于统计学的语言模型,其工作就是对词语进行概率分布的建模,也就是利用已经说过的话去预测下一个词出现的分布概率。衡量一个语言模型的功能最重要取决于两点:一是是否能有效利用历史上下文信息,这决定其对于人类意图的理解能力。二是是否有足够丰富高质量的训练语料,这决定其回答的质量。此外就是性能和成本之间的平衡。

在过去 10 年发生了三次技术上的变化。

1)Attention 机制的提出:Attention 机制于 2014 年正式被提出,并逐步成为了 NLP 中应用最广泛的设计。

2)Transform 架构的提出:Transformer 在 2017 年由 Google 在题为《Attention Is All You Need》的论文中提出。

3)GPT-3 模型的突破:大力出奇迹。Generative Pre-trained Transformer (GPT),是一种基于互联网可用数据训练的文本生成深度学习模型。

国内外的差距在哪里?1)资金差距:大模型训练成本百万美金左右,对小厂难度较大,训练一个大模型成本约 300-400 万美金,之后每次调用成本在几美分。小厂商不具备自己训练的能力。

2)数据差距。数据量差异:AI 学界话语权在英文世界,因此英语语料较多;数据质量差异:国内私域互联网较为发达,因此公域中高质量中文内容较为缺失。

3)算力差距。地缘政治因素导致缺芯短期影响不大,长期禁令不解有卡脖子风险。

4)人才差距。国内在 AI 顶尖人才方面仍和海外有一定差距。

投资逻辑:关注什么?关注上游的算力扩张和下游的应用落地。文字语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代。1)上游算力;2)下游应用(具备 AI 大模型和成熟的应用场景搜索);3)此外,游戏、营销、虚拟人等业态也有望受益于对话智能程度的提升。

0 阅读:0

英武评商业

简介:感谢大家的关注