Sora在春节期间横空出世,让大家也想到了去年春节chatgpt横空出世。大家都没有想到文字生成视频或者一本小说、一段信息的描述,很快就能够生成梦想中的世界会来得快,而且边际成本急剧降低,能做到很多人类期间做不到的事,生成的效率大幅提升,但大家最关注是受益的方向,而且肯定是具有视频内容变现的渠道。
因为Sora本质上它还是一个生产力工具,会让公司创作的成本效率各方面都会有一个指数级的变化。而且刚才也提到了最重要的一点,它是能做到很多人类或者现实生活中公司看不到的,物理世界里面甚至相悖的一些造梦的世界出来。所以它对于整个视频变现的渠道的意义非常大的。
超讯正好有特别有这方面的布局。超讯通信目前是全新的一个计算生态的战略启航,也是布局在三大块,一块是算力数据以及AI应用这三大板块。那今天重点和大家分享的公司超讯通信战略投资企业,积火山的多模态的相关的业务。七火山作为公司在算力数据以及的战略生态中,AI应用的重要布局公司是公司投资了30%,然后核心的业务主要是依托自建的处理模块,以及算法能力转化以及优化,以及创造高质量企业具有场景化的商业化的多模态的内容。那目前吃火山拥有三大平台,第一个是公司的多模态的内容生成平台拉瓦,然后第二个是公司的自有的视频平台迷你图片,目前迷你图片已经在印尼已经在应用的排行的前三了。然后第三块是公司的超分图内容生成平台,目前公司的多模态的生成平台是海外快手在海外商店上线的一款短视频的应用。
目前应用在印尼的月活已经达到了4,000万的用户,双方也是针对视频内容结成了一个战略合作,那双方将达成包括不限于视频内容的合作,以及内容平台的方面的一些合作。未来七火山也将以技术为基础,那面向全球市场,那不能短剧内容出海。在内容上激活国内的充实的一个储备。在技术上实现内容的快速的一个生成处理。面向全球的一个短期出海市场。为后续更多的视频平台构建视频短剧的生态内容,奠定一个坚实的基础。
Sora在时间点横空出世,肯定是有它背后的自身的一些节奏的安排,因为正好在它发布在在公司发布消息的前几个小时,谷歌刚刚发布了它们的模型,所以其实也是冲淡了一个竞争对手的一次节奏,当然这些可能并不是很重要,因为Sora本质上而言,它最大的亮点是在两个,第一个是它的语义理解,其实是基于原有的openAI整个现在chatgpt所搭建的一个深厚的基础。直白的理解说原有的不管是还是文生视频,可能你需要让模型去理解你的输入提示词,理解语义的深度的模块是比较浅的,或者说它的维度在向量的维度上面比较低,所以导致了大家一定要去写一个很复杂的提示语,或者说它能理解到的东西始终就只能停留在某个层次,所以做出来的东西可能也就没有达到惊艳的程度,但是openAI因为它有chatgpt的长期的技术的演进,所以它能够对你输入的一段提示词的语义的理解,它的维度是明显要高很多个量级的。所以这就导致了看后来的DALLE 3的出世之后,它的文生图的质量一下子拉高了,能够一定程度能够和midjourney去做对标,因为底层的模型,其实大家还依然是在diffusion扩散的模型上面,但是因为它对语义的理解变的能力增强了,所以它一下子就能够把文生图然后水平能够补齐。如果再直观的来解读说,可能像midjourney是微级的版本,那你能够去把提示词进行理解的能力,可能相当于一个小学三四年级的一个水平。那同样的一段话,你让一个孩子来理解,它能理解到里边的语语义的丰富程度肯定是有限的。但是如果开始接地气,它的能力,然后到了DALLE 3的水平之后,它的理解可能就相当于一个20岁的人。那同样的一段话,一个成年人理解出来的语义的丰富程度那肯定是远远不一样的。所以底座的模型一旦能力足够强之后,它能够做出来的事情可能就远远会提升几个维度。这是Sora能够取得经验的效果的第一点。第二点其实是Sora本身的一个训练的方法,训练的方法和以往的其它的竞争对手都有很大的不同的一个点,竞争对手的训练全部都是在用图进行训练。它把原有的一些图形原有的一些视频做了一个切片,然后把里面的每一个切片其实理解为一张截图,然后把一系列的截图交给模型去做训练。
所以本质上它们的训练都是在训练生成图片,以及想要去生成具有连贯性的图片,但不管怎么说,它的模型理解的所有的这些训练的语料的内容都是图片,大家可以类比一下,之前chatgpt的一些理解,它的模型的能力往哪个方向或者说强与弱,其实是两个因素决定的,第一个是你用来训练的语料的质量以及它的丰富度,第二个语料本身所蕴含的信息量的范畴,比如说你如果你的语料都是英文那大概率,它只能它的模型训练完了,它也只能回答英文的相关的问题,但如果你的语料包含了各种语言,那它其实能够去回应各种语言的一个大模型。所以如果再映射到Sora的这次的进步上来说,它的和以往文生视频这些竞争对手区别就在于它是直接用视频去进行训练的。它把手头能够收集清洗找出来的这些视频直接作为训练的语料,扔给了Sora的模型,所以它的训练和以往的一些的明显的区别它是直接去学习了视频,然后生成了一个模型,所以大家会看到在现在已经有的解读里面会出现观点。第一个是说它能够实现单视频的多角度生成,在同一个视频里面好像有多个镜头,然后同时在拍,最后连贯起来是完整的。第二个是说它是对物理世界引擎的一个模拟,就有这两种观点,是最近在公众号上讨论的比较多的。但事实上真实的原因是因为它们用来训练的这些视频,本质上对整个物理世界的一个一个映射。它拿去训练的这些视频,原来这些拍拍摄电影也好,或者说某些视频的片段拍摄出来,反映出来的一些内容。所以这些内容在拍摄的时候猜测这些视频可能是真实世界的一些视频,比如说看到的那些物体的运动,或者是一些生活化的场景。所以Sora对这些视频进行了学习之后,那它具备的能力其实恰好也生成的视频,当然如果说用来训练的视频是一些科幻类的,或者说是一些充满更大的想象力类的,那它生成的视频可能就会更为跳脱一些。所以真实来说,整个Sora的模型,事实上它的训练方法和其它竞对有区别的点就在于它是用视频来训练的,而其它的竞对都是还是在停留在用图片来训练。如果再往深层次去看Sora训练的时候,根据它们公布的技术文档,它用了一种叫pitch的技术思路,可以简单理解为它把每24帧的一组图像,或者说24帧最小单位的一个切片,因为视频事实上就是一组连续的图像,按照动画片的标准,如果每秒能够有24帧,那就会看到一个连贯的影像。最小单位24帧,它把每24帧作为一个pitch,然后在模型的潜在的向量空间,laterstates里面进行学习和运算的时候,它要求模型去学习pitch里面的连贯性。所以会看到Sora生成的视频的内容比之前竞对生成的一致性和平滑度都好得很多,在于技术的先进点就在于这里,它是把每24帧作为一个最小单位的pitch,然后交给了模型,要求模型要去完成的一个过程的学习,所以它在最后生成的时候,它能够去按照模型所学到的能够去很好地完成一致度。然后所以我们看到的视频的内容里面就会感觉会非常的连贯,就不再会有原来我们看竞对那样,它会很跳。
纪要来源:【文八股调研】小程序
还有第三点说在于尺寸的控制上面,因为Sora拿去训练的这些模型本身就已经是真实,可能原来我们在网络上都能够看得到的这些视频了,所以再加上它的对视频内容的处理,做了切片之后又用了足够的算力去训练模型,所以它能够做到和以往的文生视频不一样,它能够把视频的清晰度或者说分辨率能够提到一个很高水平,就之前大家能做的可能用一些差值,用一些后期预计算的方法,可能能够做到256或者是512,就已经是一个天花板了,但是它能够直接去到2048甚至于更高,所以这个技术,也是它以往去有过在DALLE 3里面的一些积累。但技术可能在过去的一小段时间里面,大家会看到更多的其实是有另外一款超分产品叫magnifier,当然超分的产品其实七火山公司自己也有类似对应的一个模型叫Bromo。但其实在文生视频或者文生图的领域,在最后去提升分辨率的这一关,事实上就同样的一组的技术能力在做支撑,然后只不过openAI在Sora的模型里面,把它们以往积累的从最开始输入的提示词的语义理解的维度做了一个提升。第二它的训练方法比以往的文生视频有了一个明有了一个明显的差异化,它是直接用视频再加上里面开始的一个pitchs细节的技术思路来进行的训练。第三它们在分辨率的提升上面,借用了之前DALLE 3积累的一些能力,然后把这几样东西给组合在一起。最后是说它们做一些一个长期经营在AI领域的龙头的公司里面,它有足够多的算力,然后也有足够多的魄力,然后来做这件事情。所以它在时间点推出了Sora的文生视频模型,惊艳了整个行业,也让大家对未来在视频领域用AI真正把它作为生产力工具产生了足够多的想象。
Q:那我这边先从技术以及商业化两个角度向您请教几个有问题。那首先第一个也是您刚刚提到的说对于本次Sora所使用的一些训练的数据,您认为其实是使用真实世界的这种数据,我们也能看到网上有一些技术解读,也有提到说是否有可能是用的像类似于unity的这种合成数据去进行的,所以不知道从技术路径来看的话,您是否能解读一下,如果说公司从哪些维度可以判断,Sora训练出来的一定是用真实的,而并非像网上有些科普性的文章,说是用这种合成性的数据,这是一个技术性的一个问题,所以想向您请教一下。第二个商业化,公司可以看到在之前无论是runway也好,还是皮卡也好,它再去去做落地,商业化落地的时候其实是有针对性的,那比如说皮卡是面向所谓的动漫,具体是日漫的方面,那Sora就更多的就有点像视频剪辑了,那对于这方面出来之后,您认为在这一分钟时长内,它的最好的一个商业化落地的方向?A:首先第一个问题是关于它的训练的构成,只能进行一些推测。我们要知道整个Sora的模型,在理论的方法上,根据它们官方释放出来的技术文档的解读,能够明确的知道一点,它依然是一个扩散模型加transform的一套组合,在训练上面没有不同的地方,其实transform是整个深圳市AI从2023年初的一个理论的一个基础,所以它在论文所提倡的方法在很多的领域里面都是得到了不断的使用,并且验证它的有效性的,包括其实像七火山做的去进行视频的去进行短剧视频的换脸,这一套的技术其实在比之前的几年前的那些计算机视觉有一个明显的技术进步的原因,也是因为现在的模型里面是用了transform这套方法。所以在Sora其实本质从训练上来说,它依然是一个扩散模型加transform来做驱动,然后剩下的看它拿进去训练的语料的构成是什么。所以我们能看到的那些非现实或者说是一些大家认为不合常理的内容,其实都可以把它大致可以理解为这是扩散模型本身具有的一些通病。所以从训练角度上来说,而且如果是用合成的方式,其实对于整个AI生存来说,它完全走在了另外的一个技术路线上面。我个人觉得不太可能是用其它的引擎来合成,其实它们更希望是用一个完全通用的,完全通过足够强大的算力支持了大模型,然后就能够去完成将来所有的事情。然后第二个问题是您刚才提到了关于商业化受益的,因为从现在来说,它能够释放出来的视频一个点时长,因为之前其它的视频产品能够做到的可能3秒到6秒之间,然后最长的通过一些拼接可能能到12秒,那已经是一个极限了。是因为它的算力的支持和它对图像处理的连贯性,其实是严重限制了它的输出的时长的天花板。Sora的有了强大的一个底座的模型和训练的技术方法的改进之后,现在能做到60秒,那其实时长恰好也对应着看到的一些短视频的片段,尤其像七火山正在和各大平台去合作的短剧的业务的类型上面,所以相信说Sora在未来对于短视频内容的生成,其实尤其是针对这种在节奏比较快的的内容,其实会有一个很大的一个助力。
Q:七火山和超讯这两者结合能产生的一个化学反应是什么?以及为什么产生这种反应,能迅速的被各大的短视频平台它们所接纳,因为从我们的一个理解来看的话,各类短视频平台都在布局出海。这种出台短剧能有高粘性的这种产品,照理来说应该它们会自己去做。那不得不承认短视频平台自己的技术能力也会也是会比较强的,那为什么会选择我们,而是而不是选择自己去做?A:超讯和七火山的一个战略的合作,那我觉得那首先能够战略合作走到一起对吧?甚至是七火山的相关的的系列的产品,不论是我们的多模态平台,还是我们的超分图平台,然后我们的客户端,其实得到快手的一些整体的认可,那双方肯定是算是一次强强合作。那超星通信战略投资了咱们七火山,那首先我认为我作为超星通讯的代表,那我想我们第一从算力以及数据以及未来的AI垂类的一个布局的一个战略决心,我想肯定是深深地打动了我们七火山的创业的小伙伴。对吧?然后未来我们也肯定是希望我们在数据以及我们的算力的这种资源,能够做到更多的赋能,能够让七火山能够有更强大的一个算力底座,去释放它们在平台上面释放它们的聪明才智,做出更好的的垂类的大模型,以及更贴近应用场景的一些应用。正是这种双方强强的这种合作,我觉得我们拿出来的产品的整体的质量,包括之前我们也一直聊到的我们换脸的整个聚集的那种水平,以及我们换脸的这种效率,也是我相信也是打动是快手海外的作为我们战略平台的合作的一个基础。
我刚才在发言里面提到了一点,从模型到应用之间其实存在一个gap,不管是多强大的模型,它始终是要有一个落地的场景,就有一个具体的业务能够AI能力能够充分发挥出来。其实大家看了很多的大模型,觉得能力都很强,但是说一说到应用可能又觉得在实际的场景或者业务里面好像很难去得到一个价值的体现,那刚好我们在短剧的业务形态上面已经具备了的一个业务本身的基础,不管在国内还是在出海,其实不管是个体的我们,还是像快手大平台,其实都在关注的方向,所以从业务的角度它已经是一个它已经是有的一个基础来承载了。然后从AI能够去做到的事情,正好我们现在正在做的AI短剧出海,把很多国内制作的内容很好的的短期的内容,经过技术的处理来完成它的本地化,能够快速的去发行到海外市场。其实这一点我们是做了很多的技术的准备,因为这些大家看到的可能是一个比较视觉化的呈现,比如说我们能把快速的能把一部国内的短剧进行字幕的翻译,然后配音再加上主要角色的换脸,然后就变成一个快速的低成本,然后高效率地实现了内容的本地化,就能够在海外去做发行,包括现在我们给快手已经在巴西市场和在印尼市场都展开了类似的内容的合作。其实它们也很希望这些国内的优秀的内容能够经过的本地化的处理之后,能够去填充它们平台的内容,然后去继续增大平台在内容方面的在当地的市场的影响力。那我们能够去和超讯去达成的一个合作,也完成了说从算力到数据,到最后到AI应用的落落地,把中间的gap通过一个具体的业务能够给它完美的一个承接起来。另外一个在Sora横空出世之后,我觉得到可能没有不必悲观,是因为大家依然会觉得openAI一直有一个点,虽然一直被诟病,因为它公布的这些技术细节并没有的的具体,但是它有一个很重要的点,它为整个AGI行业去打通了一条路,就像之前的chatgpt,它们在技术路线的选择上面,其实是三种路线之一,然后但是它一旦打通了这条路之后,那些大厂马上就意识到说噢那原来几条路线的选择里面,可能这条路是能够走通的,那大家都一窝蜂的又转过来往这条路上去前进。Sora其实起到了给整个行业指明了一个方向。
我们相信Sora出现之后,第一是它本身会释放出能力,因为它让更多人去关注,然后将来去使用。第二它把方向一旦去走,通过之后我们相信会有更多公司,包括开源社区也会在方向上再去做更进一步的技术的探索,那这些新的涌现的技术的能力,其实将来是很容易被我们所吸收和转化用到我们的业务里面来。另外我最后再补充一点,其实大家会知道openAI还开放了一个叫微调能力?你不必自己去训练一个自己的大模型,而是。你把数据提供给的模型之后,它能够基于大模型和你提供的数据再进行一次微调的训练,然后微调出来的私有化的小模型针对你的业务去使用的。那在Sora这一块的这块的应用来说,思路依然是会存在的,是我在这边交流的时候能够明明确去去讨论到的。我们可以把手里的短剧内容的视频作为一个训练的语料,然后去给Sora的一个大模型去进行微调的训练,就可以基于我们提供的训练的内容,比如说是某个类型的短剧或者某种类型的短视频的内容,然后经过微调训练之后,就可以利用Sora的能力再去生成类似的内容,其实有很强的一个应用的意义,当然可能离到完整的去做出一部一分钟两分钟的短剧,还有一定的距离,但是对于一些短剧的片段的改写,或者说去生成更多的内容,更多互动性的内容,这是一个非常有价值的技术的方向,这也是我们现在正在密切关注和研究的,因为我我们出海的时候也会发现,其实很多的内容是需要更多的开放性的一个结局,可能会更能引起观众的兴趣,这也是为什么在去年有一个互动短剧的视频游戏的会引起大的关注。其实如果用刚才的微笑训练方法,那我们完全可以用已经存在的内容,然后不管是一幅图片还是一个短剧的片段,然后交给Sora的模型去进行微调训练之后,能够去要求它生成一个其它根据剧情去生成一个其它结局的内容,所以它其实在现实意义上来说,也会得到一个很具体的应用,而不是一个只是用来给大家尝鲜的一个模型或者一个工具。
参数量30B,因为技术上看图像类的模型参数量远小于文本型。数据上,我们预计Sora的训练数据一定是精心挑选的,OpenAI对于数据是有独到见解的。从我的世界的视频来看,为什么说这个视频是文本生成的而不是引擎渲染的,因为OpenAI试图打造AGI体系,即一个AI解决所有问题,不会单独为了生成视频加入引擎之类的。那之所以能实现模拟我的世界游戏视频,可能是因为在数据层面标签做的好,AI知道如何配套素材生成我的世界的视频,别人问的时候就能顺利生成。简单来说,Sora不是视频直接扔给他,而是人类全程监督,是互动性的训练。
Q:Sora对数据库产业的影响?A:OpenAI事实上很担心自己的模型能力太强,导致中小厂商用不了,所以开发RAG算法甚至可以一定程度上替代向量数据库。当然,总体来说,使用什么数据库,还是要看客户需求,比如客户是法律医疗教育这些文本量很大的行业,还是用向量数据库,小型应用RAG就足够了。OpenAI一直试图降低AI使用门槛,比如发布GPTs让AI Agent门槛降低。
Q:Sora对超讯的提升?A:公司是很大受益者,因为Sora是一个可以输出稳定优质短视频的大模型,这些视频都可以用来训练公司自己的模型,这些数据越好,越有可能生成观众喜欢的短视频。公司当前文生视频AI可以生成几秒,未来也有望生成60秒。未来文生视频产业发展,也有望像23年文生图发展的那么快(23年初很差,23年底很精密)。第二是短剧,短剧拍摄在海外成本很高,Sora可以生成更多短剧,然后用公司的AI技术更好加工、本地化发行等。
Q:七火山大模型自研吗?A:公司大模型来源于开源模型,并持续投喂数据训练和调参,功能可以比如在视频拍摄中有个场景很难拍,我们就用AI文生视频代替等。
Q:超讯现在持有30%七火山,未来规划?A:超讯是现在七火山最大单一股东,未来如果1+1>2,不排除进一步增持。
纪要来源:【文八股调研】小程序