2024年7月(IDC)发布《IDC MarketScape:中国实时湖仓市场2024年厂商评估》报告。
1
一匹极速奔驰的湖仓黑马
报告指出,未来12个月,选择外部合作来构建数据管理服务的企业比例将从58%快速增长至85%,数据服务市场将呈现出爆炸式增长。
在AIGC如同烈日陨落大地,炽热的火焰成为举世无双的焦点以后,世界上几乎所有的企业都对这一观点有了更深刻的认知:数据就是未来第一核心生产力!
最终大模型表现力是3岁的幼童,还是一个智商200、经验丰富的行业专家,就看浇灌的有效数据量有多大。即便是一个在过去只生产螺丝钉的工厂老板,现在也在用设备采集、存储整个制造流程能够捕获的所有数据。没人会怀疑有数据才能有未来这句话,世界已经悄无声息的进入到了一个崭新的数据时代。
数据量的快速增长、对数据管理需求的升级以及技术架构复杂度和独立开发成本的上升,都将推动企业开始越来越多地考虑湖仓一体的管理解决方案。
多模数据管理和实时化将是数据管理服务最具竞争力的因素。
“IDC报告”中通过评估厂商实时湖仓方案综合实力,最终评选出了十几家厂商,包括(按照首字母顺序排序):阿里云、柏睿数据、滴普科技、华为云、镜舟科技、科杰科技、偶数科技、数新网络、腾讯云、星环科技、新华三、亚马逊云科技、亚信科技。
云厂商自不必多说,能力强劲、事事遥遥领先,只要有利可图的事,能做到要啥有啥。就算要太阳,也能交付一个,而且必定有权威机构出具证书证明交付产品就叫“太阳”。
除了云厂商,其他企业大多是运营了十几、二十几年的应用厂商、行业集成商,以及大数据企业,有湖仓方案并不足为奇。
然而这个叫“镜舟科技”的是一个什么企业,怎么就成为湖仓实力靠前的主要厂商了呢?
根据镜舟科技官网信息显示:北京镜舟科技有限公司是一家专注开源商业化的中国公司,由 StarRocks 项目核心成员于2022年创立。作为 StarRocks 社区中国最大贡献者……。
但这并不能解释关键问题,一家成立仅2年的公司凭什么突出重围,成为与大科技公司、集成商和云厂商一起进入实时湖仓领域成为主要厂商?
2
StarRocks,高性能实时分析使其成为湖仓焦点
解答上面的疑惑,还是要回归到技术视野,StarRocks是什么,有什么神奇之处?
根据官方信息,StarRocks 是一款2021年开源的分析型数据库,采用分布式MPP架构,在Github上拥有1.7k的fork(复制,用于分支衍生品、代码提交等)和8.5k的star(关注收藏)。
而国内由华为早在2020年开源的集中式数据库Opengauss在github和gitee上的star总和才只有2.2K,可见StarRocks的受关注程度(和增长速度)有多么的惊人。而且,Starrocks采用Apache License 2.0,许可协议宽松、开放,有能力的企业都可以基于其进行二次开发。
性能好是
StarRocks备受关注的主要原因
单表性能:ClickHouse2.8倍
ClickHouse也是目前在全球范围内都比较活的列存数仓产品,以其突出的单表查询性能被人熟知。Apache Druid也是常见的实时分析型数据库。
然而从StarRocks社区信息看,在标准测试数据集的 13 个查询上,StarRocks 整体查询性能是ClickHouse 的 2.8 倍,Apache Druid 的 11.4 倍。
采用 3x16core 64GB 内存的云主机,在 6 亿行的数据规模进行测试。
来源:https://docs.starrocks.io/zh/docs/benchmarking/SSB_Benchmarking/
TPC-H:超越Trino 10倍
Trino的前生是大名鼎鼎的Presto。Presto创始人和facebook因理念分歧分道扬镳后,facebook维护着PrestoDB,创始团队维护着PrestoSQL,就是如今的Trino。
在TPC-H 100G 规模的数据集上进行对比测试,StarRocks 本地存储查询总耗时为 17s,StarRocks Hive 外表查询总耗时为 92s,Trino 查询总耗时为 187s。
该测试共包含 8 张表,数据量可设定从 1 GB~3 TB 不等。
来源:https://docs.starrocks.io/zh/docs/benchmarking/TPC-H_Benchmarking/
TPC-DS :超Trino 5.54倍
采用 TPC-DS 1TB 数据集进行测试, StarRocks 的整体查询响应时间比 Trino 快 5.54 倍。
来源:https://mp.weixin.qq.com/s/kEqyRO_aOnOnsROXllwA2g
结语
StarRocks凭借向量化引擎、物化视图、位图索引、稀疏索引、并行查询等优化手段,使其提供超出预期的性能表现。虽然对比目标也都是是开源产品,还缺少一些与商业产品的比较,但在同类开源产品中,让数据分析更及时,实时数据价值充分发挥,这已经是它被企业看中的最核心原因了。
据公开资料,StarRocks的湖仓方案已经被微信、小红书、携程、中信建投、理想汽车、腾讯游戏、滴滴等企业应用在不同的业务的数据平台。
而在查阅资料的过程中,突然想到其实以前关注的民生和中信两家银行大规模采购分析型数据库,民生采购的产品是StarRocks,而中信银行中标厂商是镜舟科技,所以这匹实时湖仓黑马早就在不经意间渗透到金融、制造、零售等关键行业中。
另外,值得一提的是,同样入选本次IDC报告中的实时湖仓领导者企业腾讯,它的游戏业务中也应用了StarRocks进行用户数据的实时分析支撑。