2D和3D是机器视觉领域两个重要的概念,一个维度之差,带来的是从平面信息到空间信息的质的飞跃。

3D视觉诞生之初以人眼作为参照,目的是让机器能够更清晰地认知人类所处的三维世界。

这个赛道的企业无不以“3D视觉”自居,然而,在这场从2D到3D的技术接力赛中,也潜藏着一个不被外界所知的维度——2.5D。

“一大半宣称3D视觉的公司,其实都是2.5D,不是真3D,而且能做到2.5D已经很不容易。”机器视觉从业者马迪这句话,揭下了不少3D视觉公司身上的新衣。

所谓的3D,很可能是2.5D

在机器视觉中,3D和2D的区别主要三点:

第一,物体的识别和测量。

2D获取的信息相对简单,只能看到物体的平面信息。3D则是在2D的基础上,增添了深度信息。提供了一个超级“数据集”,能更准确地识别物体的形状和位置,弥补2D无法进行深度测量和分析的不足。

第二,处理对象。

2D图像由像素点组成,每个像素点都有一个颜色值,最终呈现出来的是一个规整、对齐的像素图;3D图像由许多点云组成,点云记录的是物体在空间中的位置和形状,点云是不对齐、无序的。

第三,算法上也有区别。

2D视觉常用的算法和技术包括边缘检测、特征提取、图像分割、物体识别等。3D视觉常用的则是深度估计、点云处理、三维重建、SLAM等。前者通过分析像素之间的关系和特征来实现,后者则通过分析和处理深度图或点云数据得到。

换句话说,2D视觉对平面信息可以直接获取,但3D视觉的深度信息,却需要通过计算得到。

以深度学习的理解能力为例,深度学习在2D上做图像识别分类能达到九十多分,但当其碰到点云时,表现就会降至七八十分。

3D成像在国内的发展历史并不是很长,2D成像处理已经很成熟,但3D的成像处理却很难。

“真正的3D,因为有多个视角,所以得用多个深度图表示,深度图的融合,只能通过点云处理,点云是不对齐和无序的,可以旋转和缩放,这个门槛卡住了很多的工程师。”马迪解释道。

但下游客户的确有大量3D需求,面对3D成像技术这道难关,2.5D顺势而生。

作为技术过渡阶段的产物,2.5D兼具2D和3D的部分特征,形成了对图像的独特处理方式。

相比2D,2.5D增加了深度信息,与3D相比,2.5D图像又并非通过点云,而是通过颜色传递高度信息。并且不同于3D的多视角,2.5D是单视角,信息比较残缺,很多算法最终都会回归到2D算法上。

“2.5D和3D的本质区别,可以从视角来解释,单视角很有可能是2.5D,必须得是多视角才是真3D,多视角是判断真假3D的一个充分不必要条件。”马迪对雷峰网指出,从视角角度可以很容易区分3D、2.5D、2D的不同。

技术上的亟待突破投射到下游应用中表现为:机器视觉的相关工位,仍旧以2D为主,3D(2.5D)为辅。

“检测任务就属于大部分没有解决,还靠人工在搞,小部分解决那些,基本依靠2D,当2D无法胜任时,会用3D解决,并且很多所谓的3D也不是真3D,而是2.5D。”

不过,2.5D的存在也有其合理性,在部分非复杂应用场合中,客户又需要获取深度信息时,相比高成本的3D视觉,2.5D常常能以绝对的性价比取胜。

2.5D拉低了3D视觉门槛,真3D技术壁垒依然很高

从趋势看,人眼的世界是个三维世界,从替换人眼的角度,3D视觉一定是未来的趋势,好比以前手机用2D相机,现在都在往3D相机转,大量场景需求只是时间问题。

不过现阶段,需要真3D的下游应用场景还不够多。

以3D检测为例,“目前检测任务大部分还在依靠人工,小部分用机器视觉解决的,基本上用的都是2D。”

追根溯源,是3D视觉产品在客户端的接受度还不够高。

一方面,3D相机的成本太贵,导致设备整体价格较贵;另一方面,多视角混合的真3D,超出了大部分工程师的处理水平,视觉厂商要真正把3D做好很难。

因此,站在解决问题和性价比角度考虑,在2D视觉足够解决场景问题的情况下,客户并不愿意为成本更高的3D买单。

在追求优质性价比的工业市场上,那些需要获取深度信息的场景客户,从成本方面考虑,选择2.5D视觉,已经能够满足基本需求。

这使得3D视觉行业的进入门槛变低,而技术壁垒和行业难题犹存。

多位机器视觉投资人也曾对AI掘金志表达过这个观点。

目前,结构光、ToF和双目立体是三个主流的3D成像技术,其他成像技术都是在其基础上的变形,国内均已有成熟的开源算法。

“反正都是开源的,只要学过算法,即便没在机器视觉公司工作过,也很快能跑起来。”王浅介绍,他有不少朋友硕士毕业后到机器人或视觉公司工作,并且一开始就承担核心研发工作,“都是先在实验室用存量数据或者公用数据,跑起来后,再去工厂用他们的数据。”

晏小锋认为,除开半导体这类壁垒极高的领域,一旦出现新兴技术和市场,国内就开始内卷,但以3D成像技术为例,要做到低功耗、低延迟、高帧率、高分辨率,国内外仍然有不小差距。

前两年疫情催生下,机器人行业需求爆发,3D视觉作为机器人在复杂环境实现“无触式”的关键技术,受到资本热捧,尤以距离落地更近的中游设备商和方案商,最受追捧。

在此过程中,一项新的产业,攀附着3D视觉行业悄然生长:3D视觉创业培训。

传感器从业者贾科介绍,北京有一家小公司,专门做3D传感器的解决方案培训班。他们会先从传感器圈子找人参加各种行业论坛,一旦发现哪个老板想融资,就和对方建立合作,从研发培训课程,到企业一步步搭建,再到配套硬件,提供一条龙服务。

“这个公司有个公众号,每天讲一点秘密,底下评论的全是这个圈子的老板,大家都是一条流水线快速培训起来的,各种忽悠资本不挺香吗?”贾科对雷峰网(公众号:雷峰网)说。

这类企业带着明确的To VC目的,“因为3D是一个很好的概念,所以玩命往上凑”,他们在低水平处重复建设,不仅毫无技术差异化可言,还拉低了3D视觉行业的整体对外形象。

至于业内发展较好的企业,也大都沿袭着主流的成像技术,用着成熟的开源算法,虽在国产替代浪潮中有所成绩,但极少有企业能拿出创新技术或方案,能解决传统视觉厂商解决不了的问题。

或许正因如此,在3D投融资热潮过去后,不少投资人选择“弃城而逃”。

当然,3D视觉创业者谷永道出投资人离场的部分原因:真正懂机器视觉的投资人,凤毛麟角。

“机器视觉属于硬科技赛道,对投资人有专业性方面的要求,即使不是互联网背景、金融背景,哪怕是半导体背景,也看不懂机器视觉赛道。”

事实上,从技术底层看,3D视觉领域的技术壁垒依然很高。

不同于投资人的观点,创业者、从业者普遍认为:3D视觉行业不是技术壁垒变低,反而是客户有很多痛点问题需要解决,但目前还没有真正被突破。

比如高速、高精度场景,国内极少有企业能做得了。

“国外一家传感器公司,专吃高速场景,售价比国产最低端相机贵30%-40%,并且不带服务,还能保证四成的毛利。”贾科进一步解释,这家公司之所以能做得好,是因为花真金白银给客户定制CMOS芯片。国内极少有企业做高速高动态场景,部分原因在于给钱也买不到国外的定制芯片。

这些技术实现过程中的曲折,非业内出身的人,很难有深刻的体会。

一位二十年从业经历的行业老兵表示,目前国内大多数视觉公司实现不了真3D,一方面出在技术积累上,一方面出在数据积累上。

国外机器视觉,从20世纪70年代起就已真正开始发展,而机器视觉在国内的发展,不过是近二十年的事。

除了3C、汽车、新能源、锂电、光伏等已经相对成熟的制造业,其他行业的工业客户,对于瑕疵样本的留存意识不足,导致数据获取成本非常昂贵。

当下,大家都在试图用AI解决制造业中的瑕疵检测难题,但依然很难达到客户“4个9”(即0.9999,特定时间10000个里一个瑕疵品)的要求。

在谷永看来,这是因为一个AI模型的质量,主要由数据的数量跟质量决定。但工业场景里,瑕疵品的数量非常少,出现概率在千分之一甚至万分之一,再加上客户没有留存意识导致的样本数据积累严重不足,也使得AI技术做工业瑕疵检测缺乏土壤。

因此,虽然部分企业宣称能在视觉检测样本库不够大的情况下,用AI生成一些相似的样本库,但实际上检测精度会有所下降。

“那些说能用几十张图训练出一个AI模型,并且检测效果也非常好的公司,都是给投资人讲故事。他们的AI模型实际是从几千甚至上万张图片训练出来的大模型中,‘瘦身’优化出来的小模型。”在谷永看来,从技术原理上讲,通过虚拟方式生成瑕疵样本并非不可能,而是现阶段的技术还达不到。

换句话说,现阶段机器视觉领域的AI,投喂什么就认识什么,并且投喂的数据都需要来自实际的瑕疵品,不具备推演的能力。

而一旦实现虚拟瑕疵,AI能像人脑一样归类和推演出成千上万种瑕疵,即使客户没有针对实际瑕疵品做留存,检测准确率也将大大提升。

一边是人才流失,一边是人才浪费

不同于2D视觉能够直接获取平面信息,3D视觉的深度信息,需要通过计算得到。

“直接获取最容易,加一步计算,就挡住了一半的人。相比2D,2.5D也要获取精确的深度信息,因此能做到2.5D已经很不容易。”马迪表示。

在3D视觉概念已经无孔不入的今天,真实应用场景中运行的却大多是2.5D相机,甚至2D相机。

这一反差背后的原因在于,将3D变成现实的人才,并非真正的3D人才。

行业驱动从本质上讲,是人才驱动。

但目前中国机器视觉行业普遍的现状是:高端人才不足;学校教育与市场需求脱轨;人才浪费。

首先,从整个3D视觉行业来看,视觉相关的毕业生中,大专生的供应量占比最大。

“目前机器视觉工程师中,专科毕业生占据绝大部分,因为视觉行业存在大量较为简单的视觉任务识别工作,因此即使是明星企业,也需要相当数量的专科生来完成这部分工作。”

与数量众多的专科生形成鲜明对比,进入视觉行业的高端人才太少了。

作为一项新兴技术,3D视觉以其想象力,在过去两年成为工业领域里的一条吸金赛道,少数明星企业吸引到了不少高端人才,但他们的生存状态,并不代表赛道的普遍情况。

谷永是3D视觉领域极具代表性的创业者,毕业于华中理工大学,然而当他回到母校做宣传时却发现,自己根本招不到人。

“所有的硕士跟博士一毕业后全部进入大厂,或者进入一些有名的AI公司,这些公司开得起钱。视觉公司大都是一些小的创业公司,稳定性不强。”

其次,全国各大高校每年为机器视觉领域培养的毕业生并不少,但只有很少的人在学校里学习到了真3D的相关知识,大部分学校培养出来的都是2.5D或者2D的视觉工程师。

魏源观察到,很多大专毕业的机器视觉工程师,往往都会2D算法,懂得深度图或者图像,但是他们通常不懂点云,也不会点云处理算法。

再者,机器视觉领域还存在一个极为矛盾的现象,即人才不足背景下的人才浪费问题。

“机器视觉领域的人才浪费当下还比较普遍”马迪认为,至少在去年,甚至今年上半年,都还有公司付着博士的薪水,却让博士干着一位专科生就能干的应用工程师的活。

机器视觉市场,成熟状态下的分工模式,将是研发与项目相互独立,博士生、研究生更多进行纯研发的研究,本科生、专科生更多接触项目和应用。

“按理说,应该要给他们做好分工,但以检测行业来说,一开始并不容易判断一个项目的检测难度,一般的处理方式是,先找一个中等水平的工程师进行实验判断,如果项目难度小,就将任务下发给技术能力更低的工程师来做,如果项目难度大,就向上找能力更强的人来做。”

在不少业内人看来,机器视觉领域的人才浪费,更是行业发展初期的一个必经的阶段。

一方面,现阶段的机器视觉还并非一个盈利赛道,企业养不起纯研发,只能让博士生、研究生们到一线接触项目,接触应用,既是为了赚钱,也能了解市场需求。

另一方面,行业初期需要做大量奠基工作,一般的工程师做不了,需要由高屋建瓴的人牵头执行。

马迪以行业融资规模前几名的梅卡曼德举例,“梅卡曼德就比较典型,拿着投资人的钱就可以请得起硕士、博士还有更贵的行业专家,现在梅卡曼德的相机已经迭代到第4代,相机已经稳定可靠了。”

开创奠基的工作一完成,硕士、博士们便自然回归研发工作,相机的使用则可以完全交由真正的集成商,集成商再启用大专毕业生、初级工程师,将3D相机具体落地到产线和产品中,解决许多之前解决不了的视觉任务。

结语

2.5D是技术跃迁过程中一个阶段性的产物,如果说以互补关系存在的2D和3D是技术天空的两颗恒星,那2.5D就是划过天边的一颗流星,只会在穿越大气层时摩擦出耀眼的火光,而后将随着3D视觉的成熟归于堙灭。

国内3D视觉行业更大的问题在于,无论线激光或者结构光,高端都较为空白,中端亟待充实,太多公司在低水平重复建设中耗费大量精力。

与此同时,行业发展也需要警惕一味追求高精度,因为站在客户角度,无论2D、2.5D、3D,能解决问题的,就是“火眼金睛”。

机器视觉优秀人才的匮乏,从业者能做的较为有限,更多需要政府、资本的支持。毕竟只有当行业聚集的优秀人才足够多时,行业才能够快速发展。

国内3D视觉尚处发展初期,整个供应链在逐步进步,下游终端产品的场景应用也在不断拓展,我们期待一个成熟商业闭环的到来,但也需要给予这个年轻赛道更多的时间。作者长期关注机器视觉赛道,如果您有更多故事和观点,欢迎添加微信MOON_ERS进行交流。

文中马迪、王浅、贾科、谷永皆为化名。