本篇文章5381字,读完约13分钟

[编者按]作者董飞,微信公众号:董老师在硅谷

斯坦福大学每年都会举办一次竞赛,邀请谷歌、微软和百度等it公司使用全球最大的图像识别数据库ImageNet来测试他们的系统操作。年度竞赛也触动了大公司的心弦。在过去的几年中,系统的图像识别功能有了很大的提高,错误率只有5%左右(低于人眼)。它的创始人是斯坦福大学的李菲菲教授,下一步是图像理解。她启动了视觉基因组计划,该计划结合了语义学和图像,以促进人工智能的进一步发展。ted演讲的原文。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

背景李菲菲出生于北京,16岁时随父母移居美国。他目前是斯坦福大学计算机科学系的终身教授,也是人工智能实验室和视觉实验室的主任。他的主要研究兴趣是机器学习、计算机视觉和认知计算神经病学,重点是大数据分析。他在顶级杂志和会议上发表了100多篇学术论文,如《自然》、《美国国家科学院院刊》、《神经病学杂志》、《心血管病研究》、《心血管病研究中心》和《神经病学杂志》。她于1999年以最高荣誉获得普林斯顿大学的本科学位,并于2005年获得加州理工学院的电子工程博士学位。他曾获得2006年微软学者新星奖和谷歌研究奖、2009年美国国家科学基金会杰出青年奖、2011年美国斯隆学者奖、2012年雅虎实验室学者奖和2014年ibm学者奖。她还是ted 2015的特邀演讲者。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

她是世界上顶尖的计算机视觉专家之一。她参与建立了两个数据库,这两个数据库被人工智能研究人员广泛用于教授机器对物体进行分类:加州理工学院101和imagenet。

她想制造一台能看到事物并帮助我们改善生活的机器。在过去的15年里,李菲菲一直在教电脑阅读。从博士生到斯坦福大学计算机视觉实验室主任,李菲菲不遗余力地朝着艰难的目标前进。她希望创造一只电子眼,这将使机器人和机器能够理解世界,更重要的是,理解他们的环境。

在一次被观看了120多万次的ted演讲中(如下面的视频),她说:“我总是想着Leo和他将要生活的未来世界。”在她理想的未来,机器可以看到世界,但目的不是最大化效率,而是移情。

下面是李菲菲的ted演讲:如何教计算机理解图片

以下是她的ted演讲

这是一个三岁的孩子在讲述她在一系列照片中看到的东西。

她可能有很多关于这个世界的知识,但她已经是一个重要任务的专家:理解她所看到的。我们的社会在科技方面取得了前所未有的进步。我们把人送上月球,我们制造可以和我们交谈的手机,或者订购一个播放我们喜欢的所有音乐的音乐电台。然而,即使是我们最先进的机器和计算机也会对这个问题感到困惑。所以今天,我在这里给你们做一个进度报告:关于我们在计算机视觉方面的最新研究进展。这是计算机科学领域最先进的技术,具有革命性的潜力。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

是的,我们已经有了具有自动驾驶功能的原型机,但是如果没有敏锐的视觉,他们真的无法判断地面上是不是有一个很容易被压扁的纸袋,还是一块同样体积的石头,应该避免。我们已经建造了超高清摄像机,但是我们仍然不能把这些照片传送给盲人。我们的无人机可以飞越广阔的土地,但是它们没有足够的视觉技术来帮助我们追踪热带雨林的变化。安全摄像头无处不在,但当一个孩子在游泳池里溺水时,他们不能打电话给我们。照片和视频已经成为人类生活中不可或缺的一部分。它们被创建得如此之快,以至于没有人或团体能够完全浏览这些内容,而你和我参与的ted就是其中的一部分。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

直到现在,我们最先进的软件仍然被它迷惑:如何理解和处理这些海量的内容?换句话说,在这个集体社会中,我们仍然不知所措,因为我们最智能的机器仍然有视觉缺陷。

“为什么这么难?”你可以问。相机可以获得这样的照片:它将收集到的光转换成二维数字矩阵进行存储——也就是“像素”,但这些仍然是严格的数字。它们本身没有任何意义。就像“听”和“听”完全不同,“拍照”和“看”完全不同。通过“看”,我们实际上“理解”了这幅画。

事实上,大自然花了5.4亿年才完成这项工作,而且这项工作更多地用于进化我们大脑中用于视觉处理的器官,而不是眼睛本身。

因此,“视觉”从眼睛收集信息开始,但大脑是它真正表达其意义的地方。

在过去的15年里,自从我进入加州理工学院攻读博士学位,后来领导斯坦福大学的视觉实验室以来,我一直在和我的导师、合作者和学生一起教计算机如何“看”。我们的研究领域叫做“计算机视觉和机器学习”。这是人工智能的一个分支。

最后,我们希望教会机器看到和我们一样的东西:识别物体,区分不同的人,推断物体的三维形状,理解事物之间的关系,人的情感,行为和意图。就像你和我一样,我们可以一目了然地理清整个故事中的人物、地点和事件。

实现这一目标的第一步是教计算机看“物体”(objects),这是构建视觉世界的基石。在这个最简单的任务中,想象一下教学过程:给计算机看一些特定物体的训练图片,比如猫,让它学会从这些训练图片中建立一个模型。有多难?

无论如何,猫只是形状和颜色的拼凑。例如,这是我们最初的抽象模型。我们用数学语言告诉计算机这个算法:“猫”有一张圆脸,肥胖的身体,两只尖耳朵和一条长尾巴。这个算法看起来不错。

但是如果你遇到这样一只猫呢?它完全卷曲了。现在,您必须添加一些其他形状和视角来描述这个对象模型。

但是如果猫被藏起来了呢?再看看这些愚蠢的猫。你现在知道了。即使这些东西像家养宠物一样简单,它们也能呈现出无数种外观模型,而这只是一个“一个”物体的模型。

大约八年前,一个非常简单而有影响力的观察改变了我的想法。没有人教过婴儿如何“看”,尤其是在他们很小的时候。他们从现实世界的经验和例子中了解到这一点。如果你把孩子的眼睛看作生物照相机,他们每200毫秒拍一张照片。-这是眼睛旋转一次的平均时间。因此,到3岁时,一个孩子已经看到了数亿张真实世界的照片。“训练照片”的数量非常大。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

因此,我的重点不是孤立地关注算法的优化和重新优化,而是为算法提供像这样的训练数据——婴儿从体验中获得的训练照片,质量和数量都令人惊叹。

一旦我们知道了这一点,我们就知道我们需要收集的数据集一定比我们曾经拥有的任何数据库都要丰富——也许要丰富几千倍。因此,通过与普林斯顿大学的李凯教授合作,我们在2007年启动了imagenet项目。幸运的是,我们不必把相机放在脑子里,等待它拍摄很多年。我们使用互联网,这是人类创造的最大的图片宝库。

我们下载了近10亿张图片,并使用众包技术(利用互联网分配工作、发现想法或解决技术问题),像亚马逊的机械土耳其人这样的平台帮助我们标记这些图片。在鼎盛时期,imagenet是亚马逊土耳其机器人平台上最大的雇主之一。

来自世界167个国家的近50,000名工作人员共同努力,帮助我们筛选、分类和标记近10亿张备选照片。这就是我们在这个项目中所做的,捕捉一个婴儿早期发育时可能得到的图像的“一小部分”。它们有助于给数百万张猫、飞机和人的随机图像贴上标签。

现在回想起来,用大数据训练计算机算法的实践可能是显而易见的。但在2007年,这并不明显。在这次旅行中,我很长一段时间都很孤独,一些同事建议我做一些更有用的事情来获得终身职位。我们在研究经费上一直有困难。我可能需要重开干洗店为imagenet筹集资金。

我们还在继续。2009年,imagenet项目诞生了——一个包含1500万张照片的数据库,涵盖22000个项目。这些项目是根据日常英语单词分类和组织的。这是一个在质量和数量上衡量空之前的数据库。

例如,在“猫”对象中,我们有62,000多只不同外貌和姿势的猫,涵盖了各种家猫和野猫。

我们对imagenet收集的图片感到非常兴奋,我们希望整个研究社区都能从中受益,所以我们像ted一样,开放整个数据库,并免费提供给世界各地的研究团体。

既然我们有了培养计算机大脑的数据库,我们就可以回到“算法”本身。因为imagenet的水平空诞生了,它提供的信息财富完全适用于某些特定类型的机器学习算法。

“卷积神经网络”最早是在20世纪70年代和80年代由福岛县立彦子(kunihiko fukushima)、杰夫·辛顿(geoff hinton)和延恩·勒昆(yann lecun)创立的。

正如大脑由数十亿个紧密相连的神经元组成一样,神经网络中最基本的计算单元也是一个“神经元样”的节点。每个节点从其他节点获得输入信息,然后将其输出信息提供给其他节点。

此外,这数万甚至数百万个节点根据其等级分布在不同的级别,就像大脑一样。

在我们用来训练“对象识别模型”的典型神经网络中,有2400万个节点、1.4亿个参数和150亿个连接。这是一个巨大的模型。在imagenet提供的大规模数据支持下,通过大量最先进的中央处理器和图形处理器,这些堆积如山的模型被训练出来,“卷积神经网络”以一种难以想象的方式蓬勃发展。它已经成为一个成功的系统,并在目标识别领域产生了令人振奋的新成果。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

神经网络用于解释图片,包括一些人工神经元排列成层,神经元的数量从几十到几百,几千甚至几百万不等。每一层神经元负责识别图像的不同部分,一些像素,一些颜色差异和一些形状。在最高层——今天的神经网络可以容纳30层——计算机可以粗略地识别图像。

在上面的图片中,电脑告诉我们照片中有一只猫,猫在哪里。当然,不止有猫。这是一个计算机算法,告诉我们照片中有一个男孩和一只泰迪熊;背景是一只狗、一个人和一只小风筝;或者是在市区拍摄的照片,比如人、滑板、栏杆、灯柱等等。

有时,如果计算机不确定它看到了什么,我们也教它以足够聪明的方式给出一个“安全”的答案,而不是“说多了会吃亏”,就像人类面对这样的问题一样。

但是在其他时候,我们的计算机算法是如此强大,以至于它们可以告诉我们关于物体的更精确的信息,比如汽车的品牌、型号和年份。

我们将这种算法应用于数百万张谷歌街景照片,覆盖了数百个美国城市。我们发现了一些有趣的事情:首先,它证实了我们的常识:汽车价格与家庭收入正相关。但令人惊讶的是,汽车价格和犯罪率之间存在正相关。以上结论是基于对投票城市或邮政编码区域的分析得出的。

等等,这是所有的结果吗?计算机已经达到甚至超过了人类的能力吗?-不要这么快。到目前为止,我们只教计算机看物体。这就像一个婴儿学习说几个名词。这是一个不可思议的成就,但这只是第一步。很快,我们将到达发展过程中的另一个里程碑:孩子将开始用“句子”交流。所以不仅仅是这张照片里有一只“猫”。你已经听到我的小妹妹一开始告诉我们“这只猫正坐在床上”。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

为了教计算机理解图片和生成句子,“大数据”和“机器学习算法”的结合需要更进一步。现在,计算机需要从人类创造的图片和自然语言句子中学习。

就像我们的大脑一样,我们把视觉现象和语言的整合结合起来,开发了一个模型,可以把一些视觉信息,比如视觉片段,和句子中的单词和短语联系起来。

大约四个月前,我们最终将所有技术结合起来,创造了第一个“计算机视觉模型”,当我们第一次看到图片时,它能够生成类似人类语言的句子。现在,我将向你们展示当电脑看到图片时会说什么——或者在演讲开始时给小女孩展示的图片。

电脑:“一个人正站在大象旁边。”

计算机仍然会犯很多错误。例如:“一只猫正躺在床上的毯子上。”当然——如果它见过太多种类的猫,它会觉得一切看起来都像一只猫……

电脑:“一个小男孩拿着一根棒球棒。”或者……如果它从未见过牙刷,它就无法区分牙刷和棒球棒。

电脑:“有一个人在大楼旁边的街上骑车经过。”我们没有教它艺术101(美国大学艺术基础课程)

电脑:“一只斑马站在草原上。”它还没有学会像你我一样欣赏大自然的美景。

因此,这是一条漫长的道路。把一个孩子从出生到3岁很难。真正的挑战是从3岁到13岁,而且远远不止这些。让我再给你看看这张关于小男孩和蛋糕的照片。到目前为止,我们已经教会了计算机“看”物体,甚至根据图片给我们讲一个简单的故事。电脑:“一个人坐在放蛋糕的桌子旁。”

坐在桌边的那个年轻男孩是李菲菲的儿子利奥。

但是照片上有更多的信息——远不止一个人和一块蛋糕。电脑不能理解的是,这是一种特殊的意大利蛋糕,只在复活节时供应。这个男孩穿着他最喜欢的t恤,这是他父亲去悉尼旅行时送给他的礼物。此外,你和我可以清楚地看到孩子有多开心,他此刻在想什么。

电脑也许能用简单的语言描述它“看到”的图片,但它不能描述图片背后的故事。

最后一段也很鼓舞人心。在世界的另一边,一些人正在不知疲倦地工作,以在视觉领域取得进步。

在探索视觉智能的路上,我一直在想利奥和他将要生活的世界。当机器可以“看”的时候,医生和护士会得到额外的、不知疲倦的眼睛来帮助他们诊断疾病和照顾病人。汽车在路上行驶更智能、更安全。机器人,不仅仅是人类,将帮助我们营救灾区被困和受伤的人们。借助机器,我们将发现新的物种、更好的材料,并探索我们从未见过的前沿领域。

ImageNet缔造者:让冰冷的机器读懂照片背后的故事

一点一点地,我们给了机器视觉。首先,我们教他们“看”。然后,它们反过来帮助我们看得更清楚。这是人类的眼睛第一次不再独自思考和探索我们的世界。我们不仅要“利用”机器的智能,还要以一种我们从未想象过的方式与它们“合作”。

我追求的是:给计算机视觉智能,为狮子座和世界创造一个更美好的未来。

也许这就是科学家的理想和感受。

标题:ImageNet缔造者:让冰冷的机器读懂照片背后的故事

地址:http://www.j4f2.com/ydbxw/11059.html