用机器代替人眼,进度怎么样了?

36氪浙江 2024-05-09 15:58:24

多模态大模型在视觉分析和视觉感知领域的初步商业应用将在2024年开始涌现。

今年3月,一则引人注目的新闻迅速传播开来:一名男子从云南飞往杭州,仅9分钟后便在金店抢劫案中被捕。这一事件中,杭州的安防体系和快速反应能力得到了社会各界的广泛认可和赞誉,更有网友在评论区灵魂发问:“竟然敢在安防大本营抢劫?”

评论区截图

为什么说杭州是“安防大本营”?这并非空穴来风。

作为中国安防产业的重要基地,杭州坐拥海康威视、大华股份、宇视科技等众多知名安防企业,在国内、国际市场均占有重要地位。目前,“海大宇”都已转型为AIoT(智能物联)公司。

深入到核心技术层面,AIoT产业的发展与机器视觉技术之间存在着紧密联系。作为一种使机器能够“看”和理解视觉信息的技术,机器视觉已成为视频管理系统智能化的关键。

随着深度学习、大数据和云计算等技术的飞速发展,机器视觉正以前所未有的速度重塑着工业生产、城市管理、医疗健康和自动驾驶等多个领域。

试想,当我们走进智能工厂,装备了高精度视觉传感器的机械臂,正以惊人的速度和精确度完成着组装、检测和包装工作;

在城市的街头巷尾,智能视频管理系统默默守护着人们的安全,它们能够进行机、非、人的识别,甚至预测潜在的风险;

在医疗领域,机器视觉技术正在帮助医生进行更精确的诊断和治疗,为病患带来希望;

马路上自动驾驶汽车搭载的视觉系统,让车辆能够感知周围环境,做出快速反应。

......

毫无疑问,在这个“物联网”向“智联网”过渡的时代,机器视觉正在成为推动社会智能化转型的重要力量。

市场挑战:在不确定性中稳步向好

从全球视角来看,2023年机器视觉行业的发展受到了多方面因素的影响。

一方面,全球经济的复苏为行业发展提供了动力,尤其是在制造业、物流和质量检测等领域,机器视觉技术的应用日益广泛,市场规模随之攀升。

其中,国内市场据高工机器人产业研究所(GGII)预测,至2027年我国机器视觉市场规模将达到565.65亿元,2D视觉市场规模将达到407.15亿元,3D视觉市场规模将达到158.5亿元。

值得注意的是,目前我国机器视觉在工业场景中的总体渗透率仍旧在10%以下,从工业场景庞大的体量来看,机器视觉行业仍有较大发展空间。“尤其是(工业场景中的)AI质检这一块,需求仍然旺盛,但此前受限于技术的成熟度和成本侧的顾虑,导致相关应用(近两年)刚刚开始真正落地。”鼎纳自动化创始人兼CEO秦应化表示。

向好的信号以外,全球供应链的波动和地缘政治的不确定性也为行业发展带来一定压力,例如成本上升、投资不确定性、预算下降、合规要求变化等。

为了把握大环境的态势变化,秦应化在2023年曾专程到访硅谷,与欧美地区的业内龙头企业进行交流切磋。

谈及外部环境的压力,他认为,目前来看,中国在制造业方面仍具有巨大优势,在供应链端的领先地位短期内难以被取代。

“我们(企业)可以趁这个时期进行技术升级,和头部大牌进行全球层面的对标,倒逼自身成长。”36氪此前曾报道,鼎纳目前已在深圳、浙江和美国硅谷设有分支机构,同时在苏州园区设有研发总部。

在诸多风险中,客户端的预算下降是国内企业面临的重大难题之一。

机器视觉行业中,过去严重依赖于单一行业贡献营收,或是以G端业务占大头的企业都面临转型的选择,否则在多方预算缩减的情况下,将容易面临巨额的亏损。

以机器视觉技术的主要应用场景安防和交通为例,无论是公共安全还是智能交通,过去的大幅增长主要通过G端力量投资拉动;但是在非G端行业,安防往往纳入企业行政部门的管理范畴。这就意味着,相关支出与公司成本的把控息息相关。

“当G端减少投入,企业把这块(费用)和经营成本挂钩,它的增长一定是乏力的。”杭州某Top2视觉大厂投资人如是说道。

不过,这也为机器视觉企业提供了转型升级和创新发展的机会。

宇视科技首席产品官朱兵从摄像机职能变化中阐释了这一契机:如今,摄像机在企业中的应用不仅限于公共安全,还能用于企业的可视化生产,作为一种生产管理工具,帮助监督生产行为,确保整个工厂运作更加规范。摄像机所采集的视频数据还可以作为可视化营销的一部分,用于宣传途径。

此外,由于搭载了先进的机器视觉技术,无论摄像机还是其他终端应用,其背后高清、海量的数据价值有待进一步挖掘。如果将思路扩展到视频所能应用的其他场景中,或许就能找到增长的新线索。

尽管大环境依旧充满未知的挑战,但这种不确定性也促进了行业的加速变革。36氪与格灵深瞳创始人兼CEO赵勇谈及行业机会时,他表达了类似的积极态度,“(整体格局)从过去主要服务于政府,到面向企业和消费者,方向已经发生了根本性的扭转。”

压力之下,身处其中的人们不约而同看到了转型的可能性。

产品创新:“越来越务实了”

通俗地说,机器视觉的本质是把智能设备与跟日常生活中的人、物连接起来。因此,要想摸清行业演变的脉络,从应用端就可窥见一二:近年来,机器视觉不仅在工业领域有着广泛应用,还逐渐渗透到消费领域。

以机场这一新基建的重点场景为例。传统的登机过程中,工作人员需要进行大量且繁复的人工验证工作。随着疫情后旅游业的复苏,各大机场面临的客流压力随之攀升。智慧登机门作为一种现代化的登机解决方案,应运而生。

瑞为技术是智慧机场领域的先行者,其推出的“万卫智慧登机门”,将传统通行设备跨代升级为AI地服,解决了传统登机闸机的技术局限;同时,基于自研的视觉感知技术,为登机与身份识别提供保障。董事长詹东晖告诉36氪:“(公司)在研发策略上进行了调整,将研发力量重点投在机场这一核心业务领域上,缩减非核心业务领域投入,握紧拳头打透一个方向。”

瑞为旗下智慧登机门产品在长沙黄花国际机场的应用,图源瑞为技术

这样的策略现已奏效。也正因为聚焦于智慧机场业务,公司2023的业绩相较过去两年出现大幅增长。其中,前文提到的“万卫智慧登机门”作为主打产品,上市两年即实现年销售额过亿,成为业绩中的一大亮点。

在出行场景之外,人们日常生活中随处可见的支付场景亦有机器视觉的身影。

过去几年中,“刷脸支付”正在变得愈发普遍,无论是商场、便利店、超市,还是线上支付,用户只需要对准人脸进行扫描便可完成支付行为。支付方式悄然发生变革的背后,是技术端对受众需求的敏锐洞悉。

以微信支付的刷脸、刷掌支付为例,36氪此前曾报道,光鉴科技于2021年就与微信支付合作,推出小型刷脸支付模组,率先应用于微信刷脸支付场景。

2023年,技术进一步升级——光鉴科技为微信支付提供硬件支持的刷掌支付,已经在交通、零售、校园、餐饮等多个场景推广,在全国范围内铺设了近10万台设备。朱力表示,在未来,出示手掌就如出示二维码一样简单好用,刷掌支付会成为下一代移动支付方式。

刷掌支付设备,图源光鉴科技

“在受众这一端,我们看到(近年的趋势)其实是大家把产品做得越来越务实了,从追求新技术,变成了做'适合社会发展'的技术。”光鉴科技创始人兼CEO朱力告诉36氪。

资料显示,在创立光鉴科技之前,朱力曾在苹果任职,由他负责设计的3D结构光模组在iPhone X上实现了消费领域的第一次量产。

在格灵深瞳的故事里,我们同样能看到“务实”化的痕迹。

自2019年起,格灵深瞳开始逐步扩张业务领域,从过去主要针对G端、大B端的智慧金融和城市管理业务转向更广的领域。过去4年间,公司陆续开辟了智慧体育、轨道交通、元宇宙三大创新业务板块。

赵勇和团队对创新业务寄予厚望。他表示,在公司的预期规划中,期待新业务能够在3年左右的时间里占据较大的收入比重。“我们希望这些更产品化的业务能够面向中小企业,面向消费者。”

格灵深瞳布局智慧体育

出海,还是出局

在市场饱和、增长寻求、资源优化配置等因素驱动下,2023年以来,不少企业为了寻求新的增长点和更大的市场份额,将业务拓展到国际市场。

宇视科技在海外市场的深耕细作已来到第10年,团队具备在海外搭建在地化机构的实力,并能够为在地客户提供完整的解决方案。朱兵透露,宇视科技的海外市场战略是从低端市场开始,后续逐步向中高端市场发展。

这与国内市场的逻辑恰好相反。要知道,宇视起家时,首先选择的是在国内的一、二线城市进行布局,而后才向下延伸,去往更多中小城市开展业务。当36氪追问为什么采取这样的海外战略,朱兵解释:“国内的确是自上而下;但是在海外,我们需要自下而上,先做基础的、低端的市场。”

他进一步补充道,这是因为中国产品在性价比方面具有天然优势,拿下相当一部分海外低端市场份额后,经过一段时间的市场教育,客户自然会意识到中国团队也能胜任大型项目。待时机成熟,团队就能对海外中高端市场发起进攻。

不过,当企业在海外寻觅出路,并不一定意味着打“全球化”的路子,也可以是针对性地选择与自身战略相匹配的蓝海地区进行业务开拓。

光鉴科技最近三年的营收均实现约300%的涨幅,并于2023年第四季度实现盈利。国内市场的成功使其在全球市场中具备了更高的竞争力,在2023年初光鉴科技启动了海外市场的拓展动作。

“把国内的存量业务稳步推进的同时,团队一致决定去海外找(增量)机会。”朱力告诉36氪,目前公司已经在欧美、日韩和中东等地区实现业务合作,未来海外业务占比将进一步增加,预计到2025年,公司营收的一半左右将来自海外市场。

同样在2023年看见出海曙光的还有瑞为技术。

詹东晖分享了团队在这一年实现的突破:开始出海,并实现了千万海外营收,预计2024年海外业务将实现更大的增长。他透露,海外的“第一桶金”并非来自临近的东南亚国家,而是日本和欧洲市场。

在海外取得第一步胜利之后,詹东晖对接下来的出海之路积极许多:“中国在机场的智能化、数字化和安全防范方面所积累的技术能力和既有的产品解决方案,在全球来看都是领先的。所以说对于我们(企业)来说,出海是一个非常好的机遇,可以将在国内其实已经被充分验证的好产品、好技术向海外输送。”

行业拐点:视觉大模型之战打响

AI浪潮下,机器视觉眼下正更多地与人工智能技术相结合进行应用。基于机器视觉的技术基础,通过集成智能算法等先进的人工智能技术,赋予视觉系统更深层次的视觉理解和智能决策能力。

相比之下,AI视觉不仅能够识别图像中的对象和特征,还能够理解场景、预测行为、做出决策甚至进行学习以改进性能。AI视觉的应用范围更广,不仅包括工业领域,还涵盖医疗影像分析、自动驾驶、智能监控、机器人导航等多个方面。

尤其是2023年以来,Chat GPT、Sora、Suno等AI技术的接连问世,使得国内外科技巨头争相布局大模型领域。这不仅对身处行业中的企业们造成了冲击,也让AI视觉有了更多应用的可能性。

去年4月,Meta就发布了名为Segment Anything Model(SAM)的大模型,并将该模型及数据集在GitHub上开源,用于促进机器视觉通用基础大模型的进一步研究。资料显示,SAM能够把任意图像从像素阵列解析成视觉结构单元,“像人类视觉那样理解场景”。通用视觉大模型之战随之打响。

詹东晖认为,从技术发展的角度来看,多模态大模型未来将在视觉分析和感知领域实现商用。

不过,具体到落地层面,大模型技术在视觉层面还未迎来真正的爆发。

“什么时候映射到产品层面、什么时候能够接近或者满足客户的需求,我们的判断是还有比较长的路要走。也许需要至少两三年的时间。所以去年整个行业讨论的一个关键问题,就是如何让大模型技术在商业中实现落地。格灵深瞳的多模态大模型目前已经开始在银行和轨道交通巡检场景落地应用,城市管理领域的大模型也在推进落地进程中。”赵勇分享道。

在詹东晖的预期里,多模态大模型在视觉分析和视觉感知领域的初步商业应用将在2024年开始涌现。这些模型结合了不同类型的数据(如图像、文本、声音等),以提高视觉系统的理解能力。预计在2025年之后,这一发展速度将会显著加快。

宇视科技亦走在技术升级的前沿。为了满足AIoT行业的特定需求,公司在2023年发布了行业大模型-梧桐1.0;基于其能力,在今年4月举行的合作伙伴大会上,团队展示了近一年在AI体育、旅拍兔Vlog、家庭式储能、智能充电桩等领域的落地成果,并发布了新一代梧桐2.0行业大模型。

图源:宇视科技

“在社会治理和服务民生方面,大模型能够大幅提升投入产出比。同样一件事情,本来需要团队作战两到三个月的时间才能完成,现在可能就一两周就能全部搞定。”朱兵分享了大模型对产品研发和落地效率的提升。他认为,未来所有的装备和工具都将重做一遍,这将带来无限的商机。

机器人行业正在发生巨大变化,由人工智能驱动的应用场景正在百花齐放。

无疑,中国的产业结构和市场需求促进了应用层的创新,而底层技术创新需要与应用层的需求相结合。未来几年内,多模态大模型将在视觉分析和感知方面取得商业化进展,并且这一趋势将随着时间的推移而加速。新技术井喷之下,身处其中的企业们如何将其“产品化”,值得市场期待。

文|蚩梦

编辑|左键

0 阅读:0

36氪浙江

简介:让浙江创业者先看到未来。