当前,生成式AI正处于快速发展的阶段,成为引领全球科技发展的重要驱动力之一。伴随生成式预训练模型、扩散模型、RLHF、RAG等技术的不断突破,AI大模型的普及程度不断加深,为创意、传媒、教育、娱乐、办公、制造等多个领域带来前所未有的变革。生成式AI的蓬勃发展,不仅吸引全球科技巨头和初创企业的广泛参与,也引发各国政府和学术界的高度关注。基于上述背景,至顶智库将进行深入研究,推出全球生成式AI领军企业的系列研究,为关注生成式AI产业发展的各界人士提供参考。
近日,关于生成式AI领军者OpenAI的新闻也成为关注焦点。据华尔街日报报道,OpenAI将迎来新一轮融资,领投机构Thrive Capital将投资10亿美元,此轮融资后OpenAI估值将达到1030亿美元。此外,苹果公司(Apple)和英伟达(Nvidia)也正在洽谈投资OpenAI,此举将加强科技巨头与OpenAI的合作关系。
本期揭秘全球AI大模型领域的领军者—OpenAI。公司成立于2015年,是一家位于美国旧金山的人工智能研究公司,现由营利性公司OpenAI LP及非营利性母公司OpenAI Inc组成,核心宗旨是“创建造福全人类的安全通用人工智能(AGI)”。作为AIGC领域的先驱,OpenAI通过持续加大技术研发,不断推出重磅AI应用,并与科技巨头如微软、苹果等展开深度合作,OpenAI不仅巩固其在全球AI行业中的领导地位,也推动了生成式AI技术在各行业的广泛应用。
从OpenAI创立到与Microsoft深度合作
2015年夏天,硅谷最有影响力的人物聚集在斯坦福大学附近的会议室,会议由硅谷孵化器YC掌门人Sam Altman发起,目的是聚集人工智能领域最顶尖的研究员,探讨共同建立AI实验室。参与会议的包括Google Brain的人工智能研究员Ilya Sutskever,互联网支付处理平台Stripe公司的首席技术官Greg Brockman等。之后,十位人工智能领域的顶尖学者宣布加入。2015年底,YC总裁Sam Altman、Strip前CTO Greg Brockman、LinkedIn创始人Reid Hoffman、YC联合创始人Jessica Livingston、著名投资人Peter Thiel、特斯拉创始人Elon Musk、亚马逊AWS、Infosys和YC Research宣布成立OpenAI,并承诺投资超过10亿美元。
OpenAI总融资额超140亿美元,微软与OpenAI的合作逐渐加深。公司在成立不到十年的时间里,OpenAI的估值达到近千亿美元。其中,微软作为最大的投资者和合作方,先后对OpenAI进行3次投资,金额达到130亿美元。2019年7月,微软与OpenAI建立独家云计算合作关系,并对其投资10亿美元。2021年1月,OpenAI宣布从微软获得20亿美元的额外投资,并与其签署了一项长期合作协议,将GPT-3模型作为微软云计算服务器Azure的独家许可方。2023年1月,OpenAI获得微软100亿美元的巨额投资。2023年3月,微软发布Microsoft Copilot,Copilot搭载OpenAI最新的GPT-4模型,全面赋能工具软件和企业服务场景。2023年5月,OpenAI与微软合作在Azure AI超级计算平台上部署ChatGPT,提供更高效和可扩展服务。
OpenAI核心技术和产品的创新轨迹
GPT-1: 开启生成式预训练模型时代 (2018年6月)
GPT-1基于Transformer架构,仅使用了其解码器的部分。GPT-1训练包括两个阶段:
(1)第一阶段 预训练(pre-training):使用来源于BookCorpus总共4.5GB的7000多本书籍作为数据集,进行无监督训练。
(2)第二阶段 微调(fine-tuning):以文档,问题,答案作为三元组标注,针对不同任务进行有监督的微调训练。参数量为1.17亿。
GPT-2:探索零样例无监督训练(2019年2月)
GPT-2 为了提高泛化性,取消了微调,尝试不提供样例即zero-shot方法,以更大参数和数据集作为补偿进行训练。GPT-2在来源于Web总共40GB的800万文档数据集上进行预训练。参数量为15亿。
GPT-3:采用few-shot训练效果进一步提升(2020年5月)
GPT-3的训练放弃zero-shot方法,特定任务采用few-shot提供10-100个少量样例,仍然不进行微调。多种数据集 (包括Common Crawl, Wikipedia等) 作为来源,用于GPT-3的训练,其中高质量的数据采样频率更高以保证训练质量。参数提高到1750亿时,模型准确性更高。OpenAI开始提供接入GPT-3的API,其他厂商可以将其集成于自己的产品中,并按需收费。
ChatGPT:具备强大对话能力,推动AI模型商业化落地(2022年11月)
ChatGPT发布加速本次AIGC浪潮的爆发。对话的互动形式,使得ChatGPT能够回答后续问题,承认错误等。基于InstructGPT并采取类似的训练方式,主要训练过程包括:利用标注数据进行有监督训练、采用基于人类反馈的强化学习(RLHF)训练奖励模型(RM)、利用奖励模型(RM)和近端策略优化(PPO)输出答案。
GPT-4:识别2.5万Token的多模态模型(2023年3月)
GPT-4是一个大规模的多模态模型,可以接受文字和图片作为输入,在含有文本和照片的文档、图表或屏幕截图等领域中表现出色。GPT-4可以在创意和技术写作任务中与用户一同生成、编辑和迭代,例如创作歌曲、编写剧本或者学习用户的写作风格。GPT-4生成的回答准确性更高、理解能力更强、安全性更加可靠、生成内容更加丰富。GPT-4在大规模多任务语言理解测试中(MMLU)得分86.4%,在评估在评估代码生成和解决问题能力的HumanEval基准测试中得分为67.0%,在小学数学问题GSM-8K上得分为92.0%,相对于GPT-3.5有大幅提升。
GPT-4o:旗舰多模态模型(2024年5月)
GPT-4o是一个全新的跨文本、语音、视觉的端到端模型, 所有的输入和输出由同一个神经网络处理,接受文本、语音、图像、视频的组合作为输入,可输出文字、语音、图像的组合。GPT-4o支持实时语音交流,平均响应时间为320毫秒,与人类对话的反应时间相似,能察觉用户的语调,包括悲伤、兴奋等。GPT-4o还可以扮演不同角色、视频实时互动解方程、快速解决代码难题。
DALL·E 3:OpenAI最强文生图模型(2023年10月)
DALL·E 3是一个文本生成图像模型,构建在ChatGPT上,用ChatGPT创建、拓展和优化 prompt,节省用户编写prompt时间。DALL·E 3能生成更高质量的图像,更准确地反映提示词内容。其他文生图模型难以遵循细节图像描述,存在漏词和误解提示词的问题。DALL·E 3团队通过训练定制的图像描述器来解决此问题,并用此图像描述器对训练数据集进行重新描述。通过训练多个文本生成图像模型,基于多个合成的描述进行训练能够可靠地提高模型对提示词的遵循能力。
Sora:高质量长视频生成模型(2024年2月)
Sora是一种文生视频模型,显著特点是能够生成时长一分钟的高保真视频、在时间上向前或向后扩展视频、可修改输入视频的风格和环境、可连接两个输入视频在不同主题和场景构成的视频之间无缝过渡。Sora主要采用视频压缩网络、时空碎片、扩散Transformer(DiT)等技术。高维的视频被编码器压缩进低维潜在空间,并分解为时空碎片。Sora在此压缩的潜在空间内训练并生成视频,随后解码器将生成的潜在数据映射回像素空间。扩散Transformer(DiT)模型通过从一个看起来像静态噪声的视频开始,逐步通过在多个步骤中去除噪声来生成视频。
OpenAI商业模式
OpenAI商业模式可分为to C(面向个人用户)和to B(面向企业和机构用户)两部分,To C 以订阅服务为主,To B以订阅服务、许可协议和API为主要合作方式。针对个人用户的 to C产品方面,主要是ChatGPT的Free和Plus两个版本的订阅服务。其中Plus版本,订阅费用为每月20美元,提供GPT-4、GPT-4o、GPT-4o mini、DALL?E等4种模型的使用权限,以及创建和使用GPTs的功能。
面向团队、企业和学校方面,OpenAI提供的相关产品主要分为两类:一类是ChatGPT Team、Enterprise、Education三个版本的订阅服务;另一类是多种产品的API接口服务。
其中Team版本,按团队中每人每月收取30美元,包含Plus版本的所有权益并增加了可在工作区中分享GPTs、用于工作区管理的管理控制台等权益;Enterprise企业版本则需要跟OpenAI销售人员协商价格,包含Team版本的所有权益并增加了无限量使用4种模型、扩展的上下文窗口、增强的支持和账户管理等权益;Education教育版本采取与高校定向合作的方式,提供比Free版本更高的模型使用限额,还可创建用于项目、课程和任务的GPTs并在学校工作区共享,同时享有增强的支持和账户管理的权益。
除订阅服务,OpenAI还开放多种模型的API接口供企业调用,包括GPT-4o、GPT-4o mini、图像模型DALL·E 3、语音合成模型Whisper等。其中GPT-4o和GPT-4o mini采取常见的根据输入和输出的token总量进行计价的方式;DALL·E 3根据生成图片的质量和分辨率,按图片张数收费;Whisper模型根据合成语音时长计时收费。
OpenAI-ChatGPT在全球大模型网页版的月均访问量和月均访客数方面均位居首位,行业地位稳固。至顶智库选择全球主流大模型ChatGPT、Gemini、Claude、文心一言进行分析,根据similarweb网站数据,2024年月均访问量位居首位的是OpenAI-ChatGPT,达到11.7亿次,月均访客数为9600万;排名第二的是Google-Gemini,达到3.3亿次,月均访客数为4100万;国内的百度文心一言月均访问量为1700万次,月均访客数为320万。
OpenAI的创始团队
OpenAI创始团队包括11位重要成员:CEO Sam Altman、联合主席Elon Musk、首席科学家Ilya Sutskever、CTO Greg Brockman、研究科学家Trevor Blackwell、 技术人员Vicki Cheung、研究科学家Andrej Karpathy、Durk Kingma、研究科学家John Schulman、 技术人员Pamela Vagata 和 研究科学家Wojciech Zaremba。具体请见下图。
OpenAI的未来之路
伴随今年6月苹果WWDC 2024大会举办,OpenAI与苹果的合作尘埃落定,GPT-4o作为苹果消费电子产品的首选搭载模型。GPT-4o模型在苹果产品的具体应用体现在如下方面:1)Siri支持调用ChatGPT,如菜品灵感、家装建议等,可以让ChatGPT快速给出答案。2)苹果将ChatGPT融入苹果全产品系列适用的写作程序中,让用户分分钟搞定带插图的小故事。苹果对于GPT模型的调用免费且方便易用,用户不必创建账户就可以免费使用ChatGPT。此外,ChatGPT订阅用户也能关联个人账户,并在苹果设备中使用相关产品时接入付费功能。ChatGPT将集成在iOS 18、iPadOS 18和macOS Sequoia中,将会在2024下半年推出。至顶智库认为,OpenAI与苹果加强合作,将进一步扩大OpenAI相关产品的应用范围,持续加深与全球消费电子巨头的合作,一方面会给公司带来更多的用户群体,另一方面也会带来稳定的收入来源,利好公司长期发展。
OpenAI下半年计划推出「草莓」,将进一步提升公司的AI产品性能,并通过合成数据持续增强模型能力。2024年8月,根据The Information报道,OpenAI研究人员计划推出一款新的AI产品,预计该产品在解决复杂问题的能力上将超越现有产品。研究人员计划在今年秋季推出这款内部代号为「草莓」的新AI产品,其可能会作为ChatGPT的功能推出。知情人士表示,OpenAI还在利用「草莓」的更大版本生成用于训练 Orion 模型的数据,这种 AI 生成的数据被称为「合成数据」,意味「草莓」可以帮助 OpenAI缓解从互联网获取高质量训练数据的挑战,「草莓」还可能有助于即将推出的OpenAI智能体减少幻觉。至顶智库认为,即将发布的「草莓」将标志 OpenAI 在AI推理能力方面实现又一次突破,无论是对现有的 GPT-4模型性能改进,还是对未来的 Orion 模型提供支持方面,「草莓」都将发挥关键作用。
在产品开发和各项合作快速推进的势头下,OpenAI面临成本支出过高,亏损问题持续的严峻问题。根据美国科技媒体The Information测算,OpenAI在2024年的成本支出将高达85亿美元,结合FutureSearch预估34亿美元的收入,其2024年的亏损也将高达50亿美元。按照FutureSearch测算,OpenAI的收入主要分为四大部分,其中面向普通用户的ChatGPT Plus订阅收入约19亿美元,占总收入的55%;面向大型企业客户的ChatGPT Enterprise贡献约7亿美元的收入,占比21%;API接口服务贡献约5亿美元收入,占比15%;面向中小企业和团队用户的ChatGPT Team贡献约3亿美元收入,占比约8%。订阅收入仍然是OpenAI最主要的收入来源,占到其总收入的84%。FutureSearch显示,OpenAI每月的付费用户约为988万,其中770万是ChatGPT Plus用户。至顶智库认为,虽然OpenAI持续推出重磅AI产品,不断加大研发投入,但商业化不及预期的问题依然严重,公司亟需寻找可以长期商业化变现的手段,加强与全球领军软硬件厂商的合作,通过建立完整产品生态,不断稳固公司在行业内的长期领先地位和可持续发展能力。