本篇文章1846字,读完约5分钟
说到人工智能(ai),虽然它很简单,也很有威胁,但它确实能在很多方面让我们的生活变得更好。Ai算法是帮助我们与朋友联系,寻找信息,甚至带我们去感知物质世界。
外国媒体报道称,脸谱网将很快发布一种新的屏幕阅读工具,它可以自动描述图片的内容,让盲人或视障人士可以“看到”图片。据报道,当用户在ios设备上使用该屏幕阅读器时,该工具会自动处理照片文本,以便用户能够听到照片上的内容描述,如“有三个人面带微笑站在户外”。
为了提高人工智能的文本识别精度,开发人员基于100种不同类型的对象训练了算法模型,使算法只能识别人、比萨饼、棒球等。随着研究的发展,算法的识别将越来越广泛和复杂。
有视觉障碍的人在上网时经常依靠屏幕阅读器。然而,屏幕阅读器只能和其他阅读器一样好,也就是说,它们只能很好地阅读给定的文本内容。如果短信不见了,他们什么也看不见。尽管网页标准规定,当网页上的图片由于某种原因无法显示时,图片需要有一个名为“替代文本”的字段,以防止出现相应的替代文本。然而,facebook上大多数图片中唯一可测量的文本是随状态一起发送的文本。
通过应用人工智能算法,facebook可以扫描每一张图片,并整理出相应的信息描述。如果某人的帖子是一张比萨饼图片,并且算法可以自动将单词“比萨饼”添加到图片的可选文本中,那么屏幕阅读器可以读取图片并告诉用户。
具体来说,facebook希望利用这个机会,使其技术研究更受欢迎。该公司的无障碍团队和人工智能团队直接利用用户的反馈进行进一步研究。今年3月,facebook和康奈尔大学联合发布了一项研究,旨在探索盲人如何使用facebook,希望能制造出一种能够满足这些群体需求的产品。
“研究过程应该由用户的需求驱动,而不是利用我们的研究来产生需求。反馈可以让我们做更多有用的研究。”
图片的挑战识别和描述是人工智能领域的一个杰出研究项目。新技术和硬件支持深度学习——使用人工神经网络层次结构或微观数学方程簇模拟大脑神经元来整理数据和寻找计算模型。这些技术可以应用于几乎任何类型的数据,如图像、音频和文本。
单个对象的单词非常简单。然而,当对象之间存在交互或上下文关联时,计算就变得很困难,因为机器需要真正理解物理世界并知道客观对象之间的关系。对于一台纯粹的机器来说,他们没有重心、家庭关系和爱情。他们只有数据。
因此,如果你想识别图片“父女行走”等信息,机器必须首先了解现实世界。
这正是facebook无障碍团队需要实现的目标。现在,他们称这些被识别的物体为标签。一只猫是一个标签,一张床是一个标签,一个人是一个标签……有了这个信息,算法可以说“照片中的四个人正在吃冰淇淋或比萨饼。”
然而,在许多方面,这只是一个起点。该团队不仅梦想实现更多基于上下文的对象识别,还希望这些识别行为更具互动性。facebook的计算机视觉研究主管马诺哈尔·帕鲁利(Manohar paluri)曾表示,他们可能还会开发新的功能,让算法能够描述图片的特定部分。
但在facebook的研究中,准确性是重中之重。在facebook、instagram、messenger和whatsapp上,每天都有超过20亿张图片被分享,所以即使是一个百分点的错误也可能意味着数百万个错误。因此,工程师手动调整概念,一次可以被大约100种方法检测到。例如,对于性别等信息,该算法需要更多的准确性支持。据报道,大多数机器能理解的概念是关于人和客观事物的。它知道眼镜,棒球,甚至自拍。当然,也有一些图片是研究人员没有添加到数据库中的,这些图片通常是动物图片,比如图片角落里的猫爪。
照片的角落里出现了一只猫爪,是“猫爪”吗?这个问题没有标准答案
目前,人工智能,尤其是在图像识别领域,很可能触及政治雷区。例如,不久前,谷歌将黑人的照片识别为大猩猩。为了避免这种情况,帕鲁利说:“我们应该有足够的信心,并不断收到积极的反馈。”
“照片的角落里出现了一只猫爪,是‘猫爪’吗?这个问题没有标准答案。”“也许这只是一张猫爪的照片,这很有趣。”。
人工智能还有很多研究方向,甚至是笑点。但总而言之,人工智能的研究基本上等同于算法的研究,而人工智能的任何改进都是其背后的算法。人工智能的研究人员承诺让人类生活更简单、更美好。我们将部分思维外包给机器,这样机器的智慧就能提升人类,世界也会运转得更好。
现在,这个功能可以在ios的facebook应用中启用,除了英语之外的其他平台和语言将陆续提供支持。
标题:人工智能如何为盲人转述Facebook上的照片?
地址:http://www.j4f2.com/ydbxw/6209.html