openGauss,3年走完开源数据库根社区10年之路

数智前线 2024-01-10 06:43:48

开源数据库根社区,怎么实现真正的开放?

文|牛慧

编|赵艳秋

2023年,北京开源创新委员会常务副主任、中国开源软件推进联盟常务副秘书长宋可为,在一次数据库项目评审会上了解到,一家数据库企业——海量数据正在快速崛起。它早期定位于数据库行业技术服务商,在竞争日益激烈的情况下,自己组建研发团队,尝试转型开源数据库项目来提升自己的行业定位,最终选择全力参与openGauss开源社区,开发商用数据库发行版,并在市场上取得不俗成绩。

“openGauss在2020年开源后,经历了一个大家观望甚至不被看好的阶段,它通过做具体工作,不断去证明自己是真心开放、合作共赢的。”宋可为观察说,这些年,openGauss在技术水平、开源社区、影响力以及企业级市场上的进步,是业界有目共睹的。“这也印证了开源的力量,比如像海量数据能在几年内,从数据库技术服务型企业变成一家数据库产品型企业。”

Forrester中国研究团队负责人戴鲲发现,openGauss生态体系发展得很快。他做了一组数据对比,从2022年到2023年,openGauss社区贡献者相继跨过了4000人和6000人规模,加入社区的企业和组织从220家扩展到570多家,openGauss系数据库累积部署从3万多套增加至6万多套,行业覆盖扩展至政府、金融、电信、互联网、电力等,并从一般性项目应用,进入核心系统的规模应用。

根据沙利文《重点行业数据库应用调研报告》,2023年中国数据库市场,线下集中式openGauss系新增市场份额达21.9%。而从Gittee 平台指数看,openGauss已成为国内最活跃的开源数据库根社区。openGauss已跨越生态拐点,正式踏入生态发展期。

一些业界人士认为,openGauss用3年时间,走完了其他社区可能10年的历程。

01

打开大客户市场

openGauss等国产数据库开源之时,恰逢中国大中型企业开始了数字化转型期,这些行业龙头企业开始采用一些自主创新技术。

兴业银行作为国内四大股份制银行之一,在openGauss社区扮演关键角色。它自身的数字化转型,选择了openGauss集中式数据库作为主要路线之一。此前,他们对数据库的内核能力、架构创新水平,以及可持续化发展进行了调研和技术验证。“尤其看到openGauss有丰富的版本生态,以及活跃的社区共建后,认为它的发展可持续。”兴业银行金融科技研究院基础研究处处长周伟然说。

目前,兴业银行已完成OA、网上支付、报表系统等40多套系统的升级。2023年底,兴业银行还携手社区,发布了openGauss金融版本。

根据沙利文的数据,国产数据库在核心系统中,只达到20%左右的应用水平,未来还有很大发展空间。

现在,哈尔滨银行已在关键业务系统中,采用了openGauss数据库。由于这些交易业务与老百姓日常生活联系紧密,“可能一个城市一次就有800万人要发社保。”哈尔滨银行数据中心总经理姜岩举例,容不得任何一笔的失误。

“只有真正用到核心系统里去,我们的数据库产业才叫成功。”云和恩墨创始人兼总经理盖国强说。他们是openGauss创始成员单位,协助银行进行了数据库替代升级。“当我们用到了金融核心交易系统时,用户真是拿着放大镜,看你的产品是不是能保证真正的万无一失的,用户在这个过程中的论证会非常充分,也真正帮我们去完成了产品。”

除了金融行业,运营商也落地了openGauss数据库。这些年,运营商的定位已经发生了巨大的变化,正从传统运营业务,转型为信息服务供应商,重视在科技上的自主创新。中国移动就基于openGauss开发了磐维数据库,作为自己私有云解决方案的核心产品之一。

中国移动信息技术中心副总经理陈国称,磐维数据库支撑了中国移动125个核心系统。“我们有超过 33 亿的连接,这些用户每时每刻都在线,我们的并发规模、性能要求、应用复杂度都是非常高的。”陈国说。

中国移动现在也将磐维数据库对外推广,比如与中粮等实现了合作,并推出了磐维数据库2.0版本。陈国介绍,他们感到,在整个数据库的提升中,迁移是很大的难题,这也是2.0在解决的关键问题之一。

在制造领域,2020年京东方正式启动了数字化变革。对数据库的选型,就是在这样的背景下展开的。“制造领域对数据库的要求挺高的,我们希望产品要有长期的技术竞争力。”京东方云中心中心长林华介绍,而数据库在京东方上下游的的应用广阔,他们希望应用和数据库要解耦。从降本增效角度,还能够轻管理、轻运维。最终他们选择了openGauss作为整个技术替代的整体路线。

根据沙利文的统计,金融、电信、政务、制造业四大核心场景在中国总体数据库市场规模里占到了70%,在这些行业的落地,是打开中国数据库市场的关键。

02

中国开源数据库在快速演进中

华东师范大学数据学院教授周傲英见证了全球数据库近四十年的发展。“开源对于数据库的发展至关重要。”他回顾,从上世纪70年代中期的Ingres到80年代中期的Postgres,从自由软件到开放源码,加州大学伯克利分校为数据库的发展做出了卓越贡献,成为数据库从业者心目中的圣地。

在上世纪70年代末,瑞典开放源码公司MySQL AB创建了MySQL项目。此后经过两次收购,2009年,MySQL落到了甲骨文手中。MySQL创造的开源免费模式,契合了互联网行业的发展需求,因而在互联网时代获得大发展。

Apache开源基金会在2006 年发布了Hadoop,不仅把大数据变成一个热词,也直接把开源推到一个高潮。“人们对开源的认识发生了翻天覆地的变化,开源也从最初个人的自发行为,演变成企业的商业行为,当前正在成为国家战略行为。” 周傲英说。

中国开源数据库起步于2010年前后,在2017年之后迎来发展高峰。目前,在墨天轮中国数据库流行度排行中,包括openGauss、OceanBase、PolarDB在内的前三甲,均为开源数据库。“十四五”计划提出的大力发展数据库,以及当下中国行业龙头的数字化转型,让国产数据库获得蓬勃发展。

在中国的数据库开源项目中,openGauss起源于华为内部自用孵化,2019年5月,华为数据库面向全球发布,2020年6月30日openGauss开源,华为放弃线下数据库销售,通过伙伴共建openGauss开源社区,伙伴来做线下销售。

令盖国强印象深刻的是,openGauss开源后没多久,他们与清华大学李国良教授一起做线上直播。“第一场就有上万人参与,瞬间就引爆了关注度。”

openGauss社区技术委员会主席、清华大学计算机系教授、CCF数据库专委会副主任李国良

开源三年半以来,根据openGauss社区技术委员会主席、清华大学李国良教授的介绍,openGauss社区聚焦打造数据库根技术。openGauss通过内核和架构双引擎来做驱动创新。

在内核方面,一直围绕“高性能、高可靠、高安全和高智能”这“四高”提升openGauss的技术竞争力。盖国强记得,他们最初就关注到openGauss在账本数据库、全密态这些前瞻性技术上的探索,追平了国际上最领先的数据库产品,并将这些关键特性开源出来。“真正是用创新产品来做开源,这对我们有一个非常大的鼓舞,让我们更乐于投入进来,在此基础之上为用户创造价值。”

李国良教授提到 ,目前openGauss内核为284万行代码,其中270万行代码是自研,自研率超过95%,剩下14万是为了兼容性,而内核由华为与伙伴联合开发。经过三年发展外围代码更是发展到了2100万行,可见开源的力量是非常强大的。

在架构方面,openGauss 5.0推出了DataPod和DataKit两大创新架构。其中,DataPod是为了满足大规模企业级应用。DataPod实现了资源池化以及存算分离,这是大多数商业数据库具备的特性,openGauss在开源数据库中率先做到。实际上,根据openGauss 社区理事长胡正策的介绍,DataPod推出后,就进入了金融关键应用系统。

openGauss社区理事会理事长胡正策

另一个架构创新DataKit,则将数据库应用工具进行整合,转变为一个数据全生命周期的管理平台,并结合AI的能力来自主解决系统性问题,这让用户使用和进行数据库迁移更便捷简单。

李国良教授介绍,未来openGauss将继续布局前沿技术领域,包括落地向量数据库,以支持大模型的存储和计算需求。在openGauss Summit 2023大会期间,有伙伴已开发了向量数据库。此外,openGauss在多模多态、算力融合上取得持续进展。

在商业方面,openGauss每年发布一到两个社区发行版,同时孵化商业发行版和行业自用版, 目前社区发行版已进入5.1版本。根据胡正策的介绍,目前openGauss已有17家发行版伙伴,8家OGSP(openGauss服务)伙伴,4家一体机伙伴。2023年底,社区联合金融行业客户及伙伴,发布了首个金融版本openGauss Fintech。同时,6家伙伴联合发布基于openGauss数据库发行版。全球版本下载量超230万,覆盖全球118个国家和地区。

03

数据库产品成功是生态的成功

“我们相信一个数据库产品的成功,一定是它整个生态的成功。”云和恩墨盖国强表示,“开源的旺盛生命力,来自它能真正吸引技术爱好者、极客去参与共同的研发和建设。”

与其他开源社区演进中面临的问题一样,openGauss社区最大的挑战也是如何践行社区化联合开发,让更多的人参与到核心内核的开发当中去,避免最终是一台“独角戏”。社区从建立之初成立了技术委员会、理事会,健全的社区组织,逐步推动社区化联合开发的实现。“每个月举行例会,大家来分工,避免重复建设,然后合众人之力,统一发布。”盖国强说。

openGauss最初由华为数据库产品开源而来。现在,华为和大家的社区化联合开发,已逐步成为一个常态。海量数据总裁肖枫介绍,目前他们在openGauss内核代码层贡献率排名第二。

“社区联合开发逐渐迈上了正轨,我觉得这是一个最大的进步。”盖国强称。2023年,从社区整体合并PR数量来看,云和恩墨的贡献达到了华为的20%,所有开发者的投入总量超越了华为。社区中涌现出多个版本,中国的开发者、用户也能参与社区讨论,共同讨论和决定产品发展方向。

哈尔滨银行数据中心总经理姜岩介绍,好产品是迭代出来的。之前他们主要采用IBM的DB2,当发现一些产品级问题时,很难找到数据库厂家直接沟通。在openGauss中,他们的问题和需求能得到响应。

本次大会上,openGauss社区理事会理事长胡正策宣布,openGauss社区成立顾问委员会,成员包含了中国工程院、中国科学院院士,以及专家学者。这样,社区建设以及关键发展方向上,将纳入更开放和具有价值的建议。

现在,越来越多的人加入社区,在去年底举办的峰会上,又有6家企业推出了新的发行版,这又带来了一个问题,如何避免生态企业间的同质化竞争?

海量数据肖枫称,数据库对安全可靠的要求越来越严苛,客户对兼容的需求也不能一蹴而就,与上下游的融合不是简单适配,这中间都要去做大量工作,需要更多人加入openGauss社区。

盖国强认为,数据库是一个发展了60年的技术学科,目前还没有看到颠覆性的创新,所以它的厚度越垒越高,这对后来者挑战也越来越大,所以大家要发挥合力,在中国这个根社区之上,把过去缺的功课补齐。比如,云和恩墨在将商业数据库在安全可靠方面的能力带入社区,为社区提供大量测试用例。在社区发布了资源池化相关技术后,云和恩墨结合自己在分布式存储和管理平台上的积累,推出MogDB 数据库一体机形成闭环。

虽然取得不错进展,但华为鲲鹏计算业务总裁李义强调,华为将持续投入openGauss社区建设,聚焦根技术创新,共建数据库根社区,推动产业人才培养。

华为鲲鹏计算业务总裁李义

“开源不是一种短期战略,它是一种长期战略。我们是站在开源的浪潮上,通过正向创新,去打破任何组织上、地域上、文化上的壁垒,通过提升在开源社区的影响力,形成自身的技术产品优势和产业地位。”宋可为称,开源的核心是下一代技术企业或技术团队,通过他们在技术生态里不断提升的技术影响力,来取代之前或现今相关领域中的控制力。

“我认为2024年是一个爬坡之年。在跨越了生态拐点后,社区还要经过一段稳步增长,持续锤炼产品、加速培养人才、保障品质产能,爆发之年在2025。”盖国强说。2024年,如何让数据库产品在千行万业、更多场景中去经历核心生产的考验,是一个关键。

在过去的三年半中,业界认为openGauss社区走出了一条“真心开放的道路”,伙伴认可它以发展产业生态为主,而不是发展产品生态,回归到自己的商业版价值闭环里去;openGauss也有全栈的创新力量,具备做出一流产品的能力。胡正策认为,这也是openGauss社区最核心的差异化和竞争力。

现在,在数智化转型加速的趋势下,数据库正从原先部分行业走向全行业,从外围系统走向核心系统。业界看到,openGauss在持续打造内核能力,以及面向全场景的竞争力,从而构筑面向数字基础设施的开源数据库。

0 阅读:56

数智前线

简介:关注数字化、云计算、智能硬件。