“鲶鱼”梁文锋：左手幻方量化，右手DeepSeek

“对于技术人员来说，被follow是很有成就感的事。开源更像一个文化行为，而非商业行为。给予是一种额外的荣誉。”去年网上曾一度盛传，中国持有高性能GPU最多的机构不是人工智能公司，而是一家量化私募——也就是量化私募四巨头之一的幻方。创始人梁文锋近年来也主导投资了多家AI公司。其一手打造的DeepSeek，被硅谷称作“来自东方的神秘力量”，不仅被冠以“AI界拼多多”，让字节、腾讯、百度、阿里等大厂的大模型纷纷降价。这位素来低调到网上都找不到几张照片的数学建模爱好者，还怀揣着自己的技术理想主义——“无论API，还是AI，都应该是普惠的、人人可以用得起的”，他说。记得多年前，聪明投资者跟他围绕量化投资有过两次交流，彼时幻方规模不到50亿，正在进入快车道。问到当时他最想做的事情，他想了想说，想做一个开源的策略平台，让普通投资人都可以用。暗涌Waves最近做了一场访谈，采访中，梁文峰否认自己是为了打价格战去争夺用户，“我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”国内的AI探索之路中，关心底层架构的人少，聚焦应用层的居多，因为后者更容易商业化变现。耗费巨大精力去做底层优化的例子很少，所以DeepSeek显得尤为特别。梁文锋曾在《西蒙斯传》的序言中写道，“和很多新技术一样，量化投资刚出现的时候也是被嘲笑的对象，没有人相信计算机可以像人类一样进行投资。”2015年之后，国内量化投资快速发展。也是在2015年的6月，幻方量化注册成立。幻方量化包括九章资产和宁波幻方量化两部分。创始团队从2008年就已经开始致力于量化对冲领域的研究，2015年10月时成立了首只阳光私募基金产品。之后规模扩张迅速，到2016年底时管理规模超过10亿，2017年管理规模30亿，2018年规模达60亿，至少在2019年中时，其规模已超100亿。其后稳居国内量化私募“四巨头”。公司旗下不仅有专门的基本面研究团队，也有人工智能团队。其在2016年首次上线运行AI策略，到2017年底时，投资策略全面AI化。截至目前，7家中国的大模型创业公司中，DeepSeek是唯一一家未做To C应用的公司，还在选择开源路线，也没融过资。浙江大学软件工程出身的梁文锋，带着他口中来自本土Top高校的应届毕业生，以及几位博士实习生组成的团队，如何让DeepSeek成为AI大模型的“鲶鱼”？“暗涌Waves”围绕DeepSeek搭建背后的思考，对梁文锋的这次访谈非常难得，聪明投资者（ID: Capital-nature）分享给大家。

价格战第一枪是怎么打响的？问 DeepSeekV2模型发布后，迅速引发一场血雨腥风的大模型价格战，有人说你们是行业的一条鲶鱼。梁文锋我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。问这个结果让你们意外吗？梁文锋非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事，然后核算成本定价。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。问 5天后智谱AI就跟进了，之后是字节、阿里、百度、腾讯等大厂。梁文锋智谱AI降的是一个入门级产品，和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格，然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多，所以我们没想到会有人亏钱做这件事，最后就变成了互联网时代的烧钱补贴的逻辑。问外部看来，降价很像在抢用户，互联网时代的价格战通常如此。梁文锋：抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论API，还是AI，都应该是普惠的、人人可以用得起的东西。问在这之前，大部分中国公司都会直接copy这一代的Llama结构去做应用，为什么你们会从模型结构切入？梁文锋如果目标是做应用，那沿用Llama结构，短平快上产品也是合理选择。但我们目的地是AGI，这意味着我们需要研究新的模型结构，在有限资源下，实现更强的模型能力。这是scaleup到更大模型所需要做的基础研究之一。除了模型结构，我们还做了大量其他的研究，包括怎么构造数据，如何让模型更像人类等，这都体现在我们发布的模型里。另外，Llama的结构，在训练效率和推理成本上，和国外先进水平估计也已有两代差距。问这种代差主要来自哪里？梁文锋首先训练效率有差距。我们估计，国内最好的水平和国外最好的相比，模型结构和训练动力学上可能有一倍的差距，光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距，也就是我们要消耗两倍的训练数据和算力，才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的，正是不停地去缩小这些差距。问大部分中国公司都选择既要模型又要应用，为什么DeepSeek目前选择只做研究探索？梁文锋因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年，中国公司习惯了别人做技术创新，我们拿过来做应用变现，但这并非是一种理所当然。这一波浪潮里，我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。问互联网和移动互联网时代留给大部分人的惯性认知是，美国擅长搞技术创新，中国更擅长做应用。梁文锋我们认为随着经济发展，中国也要逐步成为贡献者，而不是一直搭便车。过去三十多年IT浪潮里，我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降，躺在家里18个月就会出来更好的硬件和软件。ScalingLaw也在被如此对待。但其实，这是西方主导的技术社区一代代孜孜不倦创造出来的，只因为之前我们没有参与这个过程，以至于忽视了它的存在。

真正的差距不是一年或两年，而是原创和模仿之差

问为什么DeepSeekV2会让硅谷的很多人惊讶？

梁文锋在美国每天发生的大量创新里，这是非常普通的一个。他们之所以惊讶，是因为这是一个中国公司，在以创新贡献者的身份，加入到他们游戏里去。毕竟大部分中国公司习惯follow，而不是创新。

问但这种选择放在中国语境里，也过于奢侈。大模型是一个重投入游戏，不是所有公司都有资本只去研究创新，而不是先考虑商业化。

梁文锋创新的成本肯定不低，过去那种拿来主义的惯性也和过去的国情有关。但现在，你看无论中国的经济体量，还是字节、腾讯这些大厂的利润，放在全球都不低。我们创新缺的肯定不是资本，而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

问为什么中国公司——包括不缺钱的大厂，这么容易把快速商业化当第一要义？

梁文锋过去三十年，我们都只强调赚钱，对创新是忽视的。创新不完全是商业驱动的，还需要好奇心和创造欲。我们只是被过去那种惯性束缚了，但它也是阶段性的。

问但你们究竟是一个商业组织，而非一个公益科研机构，选择创新，又通过开源分享出去，那要在哪里形成护城河？像5月这次MLA架构的创新，也会很快被其他家copy吧？

梁文锋在颠覆性的技术面前，闭源形成的护城河是短暂的。即使OpenAI闭源，也无法阻止被别人赶超。所以我们把价值沉淀在团队上，我们的同事在这个过程中得到成长，积累很多know-how，形成可以创新的组织和文化，就是我们的护城河。

开源，发论文，其实并没有失去什么。对于技术人员来说，被follow是很有成就感的事。其实，开源更像一个文化行为，而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

问你怎么看类似朱啸虎的这种市场信仰派观点？

梁文锋朱啸虎是自洽的，但他的打法更适合快速赚钱的公司，而你看

幸福双城资讯网

“鲶鱼”梁文锋：左手幻方量化，右手DeepSeek

书竹聊商业