Skip to main content
 首页 » AR资讯

AR VR太火热,100W 能挖到CV大牛么?

2016年07月02日 12:03:0710970

导言:

作者作为一个正在三维重建领域创业的创业者。目前正在完成他走上人生巅峰的第一步。出任CEO。他的项目主要用于室内的三维场景重建。如果你是这方面的大牛,对这方面也感兴趣,可以与我们联系。说不定就成就了一个团队的幸福。

小团队毕竟精力有限,几个人要负责商务,技术,产品,行政,融资。一项一项都是艰巨的挑战。其实不必那么辛苦。因为,你还可以来我们的孵化器啊。尤其是对于内容团队,我们会提供从融资,到变现渠道的全环节支持。

神秘作者来了

作为隶属于VR/AR领域的早期创业者来说,不光要踩好商务发展的节奏。同时也需要兼顾好技术理论和工程的平衡关系。回顾一下近一年的研发历程,从CV(机器视觉)的菜鸟变成半个“伪专家”,一路的历程其实是技术版的“人在囧途”。偶尔参加行业的技术会议也好,同行交流也好,猛然发现,也不光是自己处于某种情况的窘境,在这个意义上笔者也算是找到知音。

三维重构的窘境

AR VR太火热,100W 能挖到CV大牛么? AR资讯 第1张

AR VR太火热,100W 能挖到CV大牛么? AR资讯 第2张

有幸参加上周上海科技大学的学术会议, Yasutaka Furukawa教授总结了十来年CV在三维重构的发展,一开始他开玩笑说下面的小视频(模仿star war的片头)绝对不是“哗众取宠”。笔者自然知道这是yasutaka对于“三维重构”一直在激光扫描统治下的一种自嘲。作为这个领域的重要贡献者(PMVS的发明者)当然是希望看到纯视觉三维重构在工业级的成功。但是残酷的事实是当前并没有发现一种放之四海皆准的通用方法,即使是可商业化的技术也还没转变成极其廉价的获取方式。

我们总在追求state-of-art的方法,VR/AR的发展需求更便捷更廉价的方法。显然目前的三维重构的state-of-art是达不到要求得。我们依然要靠手工绘制各类精细的三维模型。全球拥有几百万的CG建模师,这就是个体活,IT技术中的劳动密集型。这几百万人员可以满足动画片,游戏的创作。但是支持VR/AR的发展就有点力不从心了。互联网消费的是文字和图片,没有创作门槛,人人都可以贡献。但是VR/AR的三维模型并不是每个人都可以贡献。人人都在谈内容的匮乏,除了摸索新形式以外,最基本的制作流程也亟待待优化。但是得依靠哪种技术呢:更好的扫描仪?光场技术? 依然看不清呀,看不清呀。

Visual SLAM 就是打脸

同一个领域的年轻创业者S君是个极其聪明的小伙子,海龟,有激情,有见解。在两个小时的交谈中,S吐槽研究两年的SLAM极其不靠谱,笔者自然知道两年对产品化时间的浪费。心里看玩笑的说:SLAM就是SLAM(猛烈击打)呀。也不知道为啥最近VR/AR领域炒作SLAM炒作的厉害,也算是科普了一下SLAM技术。但是visual SLAM甚至2D SLAM依然有各种各样的问题。当前的趋势是多传感器融合,比如google tango(高速摄像头,深度摄像头,IMU),但是通用性和鲁棒性依然会在复杂多变的场景里带来各种问题。

S君淡然的说了一句:或许event-based camera会大大提高精度吧。但是event-based camera估计也得十年时间才能降低成本。正如S君说的,随着更好的硬件和更好的理论,我们或许会迎来突破。但是在当下,“visual SLAM是不是值得创业公司大投入”值得深思。当然特定情况和场景下会大大降低问题的复杂度。但是还需要要求精度和通用性,这个坑就大了。

你真以为Google tango是万金油

这个内容创业的黄金时代往往是语不惊人死不休,google tango被媒体归为黑科技。虽然对于CV领域的人来说,这是旧有的技术,只不过借助于特殊的小型低功耗视觉处理器达到实时处理效果,然后把多传感器整合到手机或者平板里。

Google从Motorola手上接过这个项目握在手上有几年了,一直处于研发状态。从而可以看到这并不是一个可以快速商业化的项目。当然除了技术本身以外,还有商业运用场景的探索。今年的google I/O重点介绍了tango的Area Learning. 笔者承认这是个好功能,visual slam可以减少漂移,但是要拿来做inside out定位,这个真真是“臣妾做不到”,即使大神carmack 也感慨道这或许是不可能做到submillimeter精度 ,对于VR来说,这个精度是must-have. 即使是对于AR,你拿没有纹理的场景试试,看看Area learning的表现就清楚了。 依然是鲁棒性的啃爹问题。

当然google意识到这个问题,虽然实验室放出视频展示基于Area learning的多人实时交互VR游戏,但是正式商业化还是主打AR手机。当然tango是个CV平台工具,可以用来做各种探索,但是具体场景下,规避其弱点没啥问题。但是千万别“痴心妄想”来挑战其极限。比如说扫描一个毛坯房。所以说黑科技一点都不黑,倒是有点灰。

lCV好多坑呀

某天听某大牛的视频讲座,末了,他在PPT末尾标注,并大声强调:重要的事情说三遍,我们所有的算法是基于这个assumption. 笔者一头冷汗:罢了,罢了,现实场景根本满足不了这个assumption呀。也是在另外一个学术会议和某博士成了好朋友,站在他的论文poster下,他感慨道:以前CV基本不受工业界重视,现在或许是因为deep learning方法的优化,突然变成了香饽饽。谈话间,华为的工作人员过来和博士们攀谈递名片。有一天博士在朋友圈感慨道:求职路上接到各种绣球,但是不知道是天使还是魔鬼。博士算是清醒人士,谁也抵不住市场上拿钱砸呀。只能说学习CV和懂deep learning的毕业生迎来了就业的好时机。但是谁也不知道是天使还是魔鬼。假如产品中的CV和deep learning/AI 并不能达到预期,就等着被阉割吧。

很多情况,CV人士总是被问有没有和deep learning结合,也有很多年轻人是在CV和deep learning结合的地方创业。但是就像O2O一样,并不是所有传统行业都可以轻易被信息化。Deep learning也不是万金油,且不说算法商业上能否提炼出有价值的功能。优化结果能否达到工业界的鲁棒性也是个问题?更别说我们都找不到足够多的数据来训练。有人开玩笑说:deep learning的竞争不在于算法,在于data. 对于初创公司来说,通过deep learning 承诺太多,有时候很容易失控。

D君的忧伤

D君是笔者的技术合作伙伴,沉稳踏实。虽然D君以前研究生阶段是CV方向,但研究侧重点和当前的创业方向并不一致。于是我们两人开启的自学模式。笔者虽然是零基础,但是挡不住的兴趣驱动着本人日以继日地啃着英文资料。自然而然的形成了一种合作模式,我大量读论文,挑出可能的方案,交给D君细细分析,靠谱的方法再做初步的工程验证。

但是我们发现了一个很坑爹的弊端。往往是一篇论文的作者,对自己的算法的优势大肆渲染,导致其潜在的缺陷导致无法工程化。但是这一来一回等于完全白花力气研究了。当然这和这个团队薄弱的基础有关,但是CV领域和其他技术方向不一样的地方在于人才稀少。或许由于机器人,VR/AR,AI等领域的创业方向的推动,对CV领域的技术人员需求越来越大。但是总体来说很稀少。由于之前国内工程领域需求特别少(只有工业自动化,视频会议,安防三个主要方向),很多CV领域的学生毕业后基本没法进一步通过工程提高技术能力。

所以当猎头在专业群里不断通过高价来买人也是把笔者震惊到了。假如你是CV方向的研究生,有点SLAM的项目经验。猎头就敢拿40W来砸你。更别说有deep learning经验的博士生。当然这是由于市场的稀缺性造成得,并不代表这些技术人员一定值那么多身价,就像早期ios, android的开发人员,当然CV门槛高多了。记得有朋友质疑笔者不拿巨额融资,居然敢做CV领域的创业者。笔者只能很尴尬地回应道,你觉得100W一定能挖到大牛么? 何况笔者根本不知道大牛哪里找。 估计要不在高校,要么自己创业,要么在BAT吧。

D君大抵是被我折磨的嗷嗷叫,往往是我欣喜若狂地在庞杂的论文中发现一个更靠谱的方法,迫不及待地要求他放弃掉前一个实现到一半的方法。结果又发现被论文给蒙蔽了,发现里面隐藏着各种坑。如此反复,就像鬼打墙。对于笔者来说,对于prepare to change倒是怡然自得,D君被搞得各种头大。但是正是由于这种靠谱和不靠谱的折腾,CV的基本功渐渐地变得清晰起来,现在我们慢慢有了更好地鉴别能力。但是天知道会不会有个好结果。

吐槽CV的总总,是对于笔者这类三无(没技术基础,没钱,没人)创业者的一种解压。但是好在有一种“盲目乐观”的特异功能支撑着走在望不到边的黑暗隧道里。松懈地时候,笔者也笑着“恐吓”D君: 你知道吗?这就像我们在参加高科的数学科目,只有一道大题,没有步骤分。

只能用一句话自嘲一下:对于天朝CV领域创业者,假如你认为钱能解决一切问题,那就too young too simple. Sometimes naïve. 真真是应了那句话:能用钱解决的问题都不是问题。


评论列表暂无评论
发表评论