中一个基本而又核心的任务,要准确地检测目标,可能还需要做很多图像分割,识别,跟踪方面的工作。
人类双眼的基础原理就是stereo vision的主要是根据,依靠视差(disparity)来估计深度。
本身没有深度检验测试功能的摄像头,能够正常的使用立体视觉的原理(stereo,MVS)来估计深度,而有深度检测的摄像头,比如说Kinect,也常常是利用视差原理来求取深度的,投射一个pattern,然后比较。
当然最开始求取深度的,还有普遍的使用的激光雷达(RangeFinder),只是成本很高,军用,工业用比较多。
可以肯定的是深度摄像头获取的深度信息有十分普遍的应用,但目前仍存在一些问题,我觉得最为核心的两个方面:一是测量范围;二是应用环境。
目前深度相机的测量范围也就几米,对应用环境的要求也比较苛刻(主要受环境光影响严重)。所以,目前的深度相机应用在监控上还有非常遥远的路要走。
计算机视觉的范围就太广了,除了通过相机获取信息之外,更重要更复杂的是对获取的信息进行理解:
包含三维信息提取、物体识别、分类、运动跟踪等等。双目视觉是目前深度测量的一种方法,这种方法同样面临很多问题,比如要求场景有明显的特征,算法复杂等等。
2017年苹果将发布三款机型,其中OLED机型的前置摄像头可能有重大升级,预期配备深度摄像头模组。他预期此先进的深度前置摄像头模组,将具备三维感测与三维建模能力。
消息一出,整个长期资金市场沸腾了,纷纷寻找供应链相关企业投资标的,相关公司股票都有巨幅上涨。
显然仅仅认为这是一次长期资金市场的题材操作,这是对国外成熟长期资金市场的侮辱,由于苹果巨大的光环效应,它的一举一动都会引起整个高科技行业的剧变,一旦传闻坐实,深度摄像头将从原来相对小众的行业市场快速进入大众消费移动市场。
我们从苹果供应链得到的消息是:这次苹果的确是在前置摄像头使用结构光技术的深度摄像头,各家供应商都已经确定,连代工厂的相应光学标定流程也已经固化,现在就等苹果正式对外发布的时候公布具体信息了。
同时消息源指出,由于该深度摄像头模组的功耗较高,接近1瓦,所以现在只是用在前置摄像头用作手势和面部识别等时间比较短的应用,后置摄像头的环境建模等应用起码要等下一代产品才可能用上了。
果粉可能认为深度摄像头又是啥独家黑科技了,其实前两年开始芯片业巨头Intel一直在各个公众场合高调宣传的RealSense实感摄像头,其实就是一个深度摄像头。
它的各类应用也引起了业内人士和一些行业媒体的关注。怎奈Intel在消费市场的影响力差苹果有100个高通的距离,所以深度摄像头的概念对普通大众来说仍旧是不知所云。那么它到底是何方神圣?
这种摄像头和普通摄像头的区别就是除了可以获取平面图像以外还能够得到拍摄对象的深度信息,也就是三维的位置和尺寸信息,于是整个计算系统就获得了环境和对象的三维立体数据。
实际深度摄像头早在上世纪80年代就由蓝色巨人IBM提出相关概念,这家现在显得有一点英雄迟暮的巨头在基础研究领域可谓是整个时代的领跑者。
2005年创建于以色列的 PrimeSense 公司可谓该技术民用化的先驱,以色列的创新能力由此可见一斑,而且该领域以色列技术公司的数量是最多最好的。
当时,在消费市场推广深度摄像头还处在概念阶段,此前深度摄像头仅使用在军事和工业领域,为机械臂、工业机器人等提供图形视觉服务。由它提供技术方案的微软Kinect1代成为深度摄像头在消费领域的开山之作,并带动整个业界对该技术的民用开发。
PrimeSense本来以为抱到微软大腿就可以仙福永享了,但是在2012年微软先后收购了以色列的TOF摄像头公司canesta和3dv,2013年微软终止与PrimeSense的合作,自行开发了Kinect2代(成为Kinect one),改走TOF技术路线。
这一变故使得PrimeSense只能另找靠山,于是在2013年苹果正式收购PrimeSense,将它的技术和专利收入囊中,并且停止对外技术授权和供货。显然这次苹果使用的深度摄像头技术就是来自收购的PrimeSense,使用结构光技术路线。
如果大家认为只有微软和苹果有大动作,那就图样了,前面提到的Intel也是通过收购Tyzx和Omek等公司做出了RealSense这一明星级产品,现在任何公众场合都是Intel高调宣传的重点,去年还收购了视觉Movidius。被Facebook收购的VR巨头Occulus在2014年左右接连收购了Nimble VR、13th Lab、Surreal Vision和Pebbles Interfaces等多家相关领域勇于探索商业模式的公司,完善了自己的技术布局。
索尼则在 2015 年 10 月宣布收购比利时一家名为 SoftKinetic 的TOF传感器初创公司,为自己的VR和游戏机产品保驾护航。
软件巨头谷歌虽然没有通过收购立即进入深度摄像头硬件领域,但它的Project Tango却是利用深度摄像头做移动应用的最佳软件范例,并且前不久开源了一个业界最关心的视觉SLAM(同步定位与建图的缩写)方案,联想也发布了一款使用Tango方案的Phablab2手机,作为开发者的开发平台。
显然深度摄像头及相关的计算视觉领域慢慢的变成了整个科技行业最热门的领域之一,为何热门?
从前面的介绍中能够准确的看出,一个能轻松的获得环境三维信息的传感器对机器识别和认识世界起到了极端重要的作用,因为视觉信息是人脑和机器获取外界信息最大的渠道,人的眼镜能轻松的获得三维的信息,所以对世界的识别会比较准确。
原来由于技术的限制,普通摄像头获得的平面图像信息对机器理解世界产生了巨大的限制,现在由于深度摄像头的出现,使得机器也获得了三维视觉能力,让机器认识和理解世界产生了飞跃的进步。人工智能要借助于计算视觉的发展来获取和识别外界的视觉信息。
所以今天在机器人导航、无人驾驶无人机、AR/VR/MR、三维重建、人机互动、智能制造等最热门的领域都有深度摄像头的身影闪现,而且在这些领域都是必不可少的基础传感器,所以巨头的这些动作也就不难理解,最基础核心的技术自然要自己掌握才放心。
在人工智能火热的今天,该领域成为显学自然是应有之义,只不过行业内热闹不代表能传递到大众领域,这次苹果的出手终于将热度带到大众市场,并且在长期资金市场已经产生影响。
尤其是苹果在整合供应链的方面也有了大动作,它主导的几个供应商之间的资本运作已经启动,比如奥地利微电子AMS)就高价收购了Heptagon,欧菲光也收购了一家以色列初创公司mantis vision。当然,这一切都仅仅是开始,今后的资本运作会更加频繁。
显然国内长期资金市场也不会放过这个风口,搜索枯肠,国内能够和该领域直接挂钩的上市公司基本上没有。那么非上市公司呢?居然发现中国在该领域的初创公司已走在了世界的前列。图漾科技就是这里面一家,这家总部在上海的初创公司在业内已经名声在外,最近更是接到大量投资机构的拜访请求。“最近来找我们的投资机构几乎踩破门槛,主要是来了解行业信息,当然也会提到今后的投资机会,”图漾科技的副总经理徐韬向我们透露。近期他们发布了一款高清分辨率(实际达到960P)的深度摄像头,从性能指标看,它已经超越RealSense和Kinect2。
说到技术路线,现在深度摄像头主流有三个技术路线:单目结构光、TOF(飞行时间)和双目视觉。TOF原理是传感器发出经调制的近红外光,遇物体后反射,通过计算光线发射和反射时间差或相位差来换算被拍摄物体的距离。
结构光(Structured Light)技术则要相对复杂一些,该技术将编码的光栅或线光源等投射到被测物上,根据它们产生的畸变来解调出被测物的三维信息。
双目视觉则是和人眼一样用两个普通摄像头以视差的方式来计算被测物距离。三种方式各有优缺点,在现存技术条件下各有应用场景。
但图漾则是结合了双目和结构光提出了主动双目的技术,相比现有方案有了相当的原理优势,能够得到更好的深度数据质量,更好的环境适应性,更高的产品工作寿命和多设备间无干扰的特性,这些特性在行业应用中几乎是必备条件,所以他们的产品主要针对行业市场开发,现在主要用在机器人、安防、物流和工业自动化领域。
徐韬认为:随着Mantis被收购,现在市面上的独立深度摄像头供应商只剩下中国几家初创公司,那些巨头都不屑做配件供应商,只会为自己的整机服务,比如苹果收购PrimeSense以后就不再对外供货,很多厂商失去核心部件供应商,造成巨大的供应链风险。只有Intel提供摄像头模组,但需要搭配它的处理器,型号也极少,不能定制,不足以满足绝大部分客户需求。
再加上全球电子产业链高度集中在中国,让本土的初创企业拥有了极大的生存空间。
结合智能手机市场占有率愈来愈集中到中国厂商的趋势,深度摄像头移动市场的战争几乎就是在苹果和中国厂商之间展开。
苹果所开启的深度摄像头移动市场将会在大众市场快速普及三维视觉的应用,其市场想象空间巨大,但这次我们终于能看到有本土企业在这个新兴市场成为主力玩家。