本篇文章4321字,读完约11分钟
计算机视觉和机器视觉作为人工智能的两个分支,近年来取得了很大的进展。自2010年以来,随着深度学习的重新流行及其在目标识别中的应用,前者在人脸识别方面已经超过了人类;后者在工业应用中有许多突破性的应用。
然而,在消费市场上,计算机视觉和机器视觉的进步并不大。许多人对计算机视觉和机器视觉在消费市场的实质性应用深感忧虑。
计算机视觉和机器视觉首先,我们有必要理解机器视觉和计算机视觉之间的关系。就学科分类而言,两者都被认为是人工智能的附属学科,但计算机视觉软件偏重于通过算法进行图像识别和分析,而机器视觉软件和硬件都包括(采集设备、光源、镜头、控制、机构、算法等)。),它指的是系统并且更实用。简单地说,我们可以认为计算机视觉是一门研究“如何使机器看起来”的科学,而机器视觉是一门研究“阅读后如何使用它们”的科学。
计算机视觉和机器视觉的问题在于,前者过于学术性,而后者过于工业性,因此在消费市场上一直缺乏好的产品。团阳创始人费哲平告诉雷锋。许多机器视觉的核心技术和原理在许多年前就已经成熟,而近年来的进展主要集中在工程上。例如,图形处理器和可视化计算加速器的出现解决了计算问题。但与此同时,在实现视觉技术的真正产品落地的过程中,还存在许多其他问题,他们也在摸索之中。
视觉技术在消费市场的最早尝试是微软的kinect。2010年,微软联合深度相机技术提供商primesense正式推出kinect。通过使用骨骼捕捉技术,kinect可以捕捉玩家的骨骼运动,因此玩家可以在不触摸屏幕的情况下玩游戏。继kinect之后,华硕、英特尔、谷歌和苹果都在跟进深度相机的应用场景,一切似乎都朝着好的方向发展。
然而,作为一个独立的产品,深度相机很难市场。例如,英特尔在13年后的开发者大会上宣布,它将推出自己的微深度感知模块,许多个人电脑制造商如华硕、戴尔、惠普和联想将从2014年下半年开始在其产品线中部署这一深度感知模块。但是两年多过去了,曾经预测集成深度相机的产品已经很久没有出现了。
那么,位于计算机视觉和机器视觉交汇处的深度相机应该如何打开消费者市场呢?
深度相机的瓶颈也叫rgbd相机。我们常用的相机是rgb相机,单个相机可以感知彩色可见光信息(红、绿、蓝),而rgbd相机基于我们常用的rgb相机添加深度信息。
深度相机的图像采集可以分为主动采集和被动采集。它们之间的主要区别是观察传感器是否主动向环境发射探测光。例如,DJI Elf 4上的双目视觉是深度图像的被动获取。其技术特征是摄像机不主动向环境中发射能量,而是通过两个以上的摄像机计算特征点的坐标差来获得感知环境中已有的获取信息的能力。这种方法最类似于人眼获取时差的方式,但最大的缺点是由于目前的技术,目前的识别准确率不高,而且过于依赖光线,不能处理特征不明显的场景,因此强光和暗光会导致深度计算失败。
主动获取的方式是从蝙蝠和其他生物身上寻找灵感,通过主动发射探测光计算获得深度图像。有三类:“带相位检测器的射频调制光源”、“距离选通成像器”和“直接飞行时间成像器”,例如,kinect一代采用的primesense属于第二类。随着苹果收购primesense,微软也在kinect第二代中转向了微软自己的技术。一般认为第二代采用直接飞行时间技术。
以kinect的深度相机为例,它包括一个红外投影仪、一个rgb摄像头和一个红外传感器。因为深度相机有自己的光源,是不可见的红外光,它对我们的生活没有影响。深度相机获取景深信息似乎是完美的,但它也有缺点。由于主动模式,同一波段的两个红外光会相互干扰,这使得同一深度的两个摄像机不可能一起使用。而且,由于传输功率的影响,检测距离也会受到很大影响。
Kinect是市场上常见的深度相机,距离最远,但也需要高达12w的电源,所以拖电源线很麻烦。同时,深度相机很难在室外使用,因为太阳光也有红外成分,会对主动红外光造成干扰。红外光对玻璃场景无能为力,也无法探测距离。
kinect采集的深度图像
艰难的尝试
在第一代kinect售出1 空后,与第二代kinect的结合变得更加严重,这进一步抑制了销量。两年前,Leap motion不得不解雇10%的员工,并切入虚拟现实,因为销售情况不如预期;苹果收购primesense后,它不知道自己在想什么。一些分析人士说,苹果计划把它放在iphone上,这样我们拍照时就可以拍摄3d效果。另一方面,英特尔瞄准了机器人无人机,如小米的赛格威机器人和向皓的台风h。机器人和无人机是过去两年的热门产品,英特尔似乎可能成为赢家。然而,由于赛格威机器人和泰福龙h没有被正式列出,效果仍有待验证。也就是说,在消费市场上没有一个特别成功的案例。
英特尔首席执行官柯再奇用realsense模块展示了这款游戏
在中国,英特尔的realsense问世后,给了中国一些企业家信心,催生了一批相关的初创企业,但目前大规模应用还很少。
欧比中光是第一个实现大规模生产的,它的深度相机像kinect一样,主要用于一些视频游戏;华杰艾米直接与奥比中光竞争,但就大规模生产而言,华杰艾米的进度慢了一步;土豪的产品正准备大规模生产,目标是一些工业应用,而消费应用似乎仍处于观望阶段;绿色深度正在为自动驾驶汽车做深度相机;速度对机器人很乐观;
机器人是目前一个热门的应用领域。目前,大多数机器人使用雷达进行路径规划。虽然雷达只能生成平面深度图像,但市场上已经有了公共产品。此外,用于雷达导航的slam方案已经成熟,而用于视觉导航的slam方案仍然很少。irobot早些时候就开始在它的清扫机器人上使用slam方案,但是用了不到一年的时间,所以在机器人上使用视觉避障和导航似乎需要一些时间。
需要解决的问题是什么
那么,深度相机消费应用的春天什么时候到来呢?通过与相关从业人员的交流,我们觉得深度相机只是产业链中的一个环节。当他们在做深度相机的时候,在相关的产业链中有很多工作,比如芯片,比如后续的图像识别和视频分析。以下是他们的答案:
绿色深瞳技术员:
“cv进入消费领域的一个障碍是,支持高性能计算的低功耗、低价格芯片太少,其中一些很难使用。”所以目前它只能用于工业领域,而机器视觉本身就是一个工业术语。在大消费领域,我们倾向于称之为嵌入式视觉。这类产品都集成了光、机、电、软件和算法,跨越多个专业领域,对系统集成有更高的要求。”
uarm机器人手臂创始人邓世贞:
“主要原因是芯片的处理能力和红外投影模块的分辨率得到了提高。我更注重大规模生产的稳定性,因为这些备件是放在一起的,需要校正和校准。这是一个巨大的挑战,尤其是对初创企业而言。”
速度感应技术的创始人马可:
“仅从机器人领域来说,机器视觉就有一个大问题需要解决。目前,工业上游的核心传感器和下游的机器人着陆应用之间存在一定的差距。也就是说,我们看到国内有专门生产相机和雷达等部件的制造商,也有专门生产机器人的制造商,但几乎没有成熟的视觉技术方案可以将不同的传感器串联起来,形成一个统一的商业方案。
机器人是一个复杂的系统,机器视觉也是机器人的一个复杂组成部分。通过现有技术,已经证明仅仅依靠单个传感器不可能在现有机器人上实现各种功能。
也就是说,在机器人上,需要有雷达、超声波、摄像机和3d传感器来实现各种复杂的功能和任务。
目前,机器人行业的现状是每个人都在低头开发自己的核心部件,这使得下游的机器人制造商变成了机械集成商,从讯飞拿走声音,从视频门户网站拿走内容,从深圳拿走移动底盘男模特等等。从视觉上看,也有零星的发展趋势。
我们相信,在机器人的下一次发展中,将不可避免地出现一套或两套整体标准集成方案,类似于个人电脑时代的windows操作系统和手机时代的ios操作系统。"
土豪创始人费哲平:
“视觉计算处理器:由于视觉计算的高数据量和算法复杂性,一般的cpu、gpu和dsp处理器芯片不够强大,而专用asic不够灵活。最好有一个vpu芯片,它能为视觉提供强大的计算能力,就像gpu加速图形一样。
作为计算视觉的光学产品,3d相机需要跨越从演示到工程样机,再从工程样机到大批量生产的工程技术鸿沟,这比普通拍摄光学产品要大得多。例如,光学器件的一致性筛选和光学参数的校准和校正是一个单独的研究方向。
产品的多样性:作为光学产品,产品规格的多样性是一个自然的问题。例如,就最基本的检测距离指标而言,很难兼顾距离和距离,必须在最大距离和最近盲区之间做出组合折衷。不同的应用场景需要不同规格的产品来适应和优化,因此产品和技术解决方案的可扩展性很高,需要多种不同规格的产品来满足不同的应用需求。
人工智能:3d视觉数据通常用于实现更高的识别和分析能力,也就是说,使用3d视觉数据的能力也非常高,需要更聪明的大脑来使用更全面的视觉数据。"
爱奇宝智能机器人系统建筑师严:
“机器视觉已经登陆消费市场。从技术上讲,这是一个人工智能技术和机器人硬件有效集成的问题。有两种方法:
1.
自上而下。人工智能技术的应用主要要求机器人硬件尽可能满足人工智能技术的工程条件。这意味着产品需要增加传感器来保证智能算法的数据供应,增加成本,并拥有良好的计算资源来使复杂的智能算法“运行”。这也意味着产品是不稳定的,人工智能技术主要是基于概率的。产品功能依赖人工智能技术的比例越大,产品功能越不稳定。在机器视觉应用中,人脸检测非常稳定,但是当你遇到黑人时,很难保证。
2.
自下而上。它主要以机器人硬件为基础,辅以人工智能技术。这意味着产品是可靠的,但它也失去了一些智能功能。当产品需要一些智能功能时,移植一个“智能算法”,将原本运行在不稳定环境中的算法应用到可控、高效、低成本的嵌入式环境中,需要花费大量的人力,这让许多专注于理论算法的工程师头疼不已。
机器视觉技术是在产品中实现的,有时它是在从下到上制作产品的过程中实现的,这给“智能算法”带来了太多的约束。每个人总是优先考虑成本和稳定性,而不是技术应用本身。我们从人工智能领域走出来成为机器人,希望在两者之间达成妥协,并以自上而下的眼光为智能技术找到市场立足点。智能产品的市场需求尚不明确,这也是机器视觉难以进入市场的一个主要因素。"
可以看出,芯片的计算能力和成本是机器视觉登陆消费市场的主要影响因素,其次是集成方案和人工智能技术。然而,由于消费电子产品对数量、价格和技术成熟度有很高的要求,消费应用的春天不会到来,直到所有这些配套的产业链环节都成熟,雷锋。搜索“雷锋”。com" public number)将更加关注这一进展。
标题:机器视觉离消费市场有多远?
地址:http://www.j4f2.com/ydbxw/11459.html