本篇文章1856字,读完约5分钟
在网络时代,大多数人可以分享社交媒体带来的便利,但视力障碍者很难进入社交媒体圈与他人分享他们的喜怒哀乐。
基于互联网世界的开放和平等精神,大公司肯定会尽最大努力弥补这一缺陷。
最近,facebook使用机器学习技术通过自动文本转换来识别图片中的信息。
Facebook正试图将其图片功能的影响力扩大到全世界3900万视力受损的人。Facebook开发了一个人工智能系统,可以自动捕捉带有文字描述的图片信息,并可以通过语音识别大声朗读,这为盲人阅读图片信息开创了新的篇章。这离扎克伯格将互联网连接到每个人的目标又近了一步。
这种功能被称为自动文本转换器,它是基于具有数亿个参数的神经网络,并通过图像识别技术和数百万次训练而开发的。
虽然这是一个新的突破,但到目前为止,这项技术还不够成熟,文字的描述更像是罗列信息,而不是用图片描述故事。尽管如此,facebook表示,对于盲人来说,从0%到50%获取图片信息的变化已经是一个巨大的飞跃,这种人工智能有着巨大的前景。目前,有5万名盲人使用了这项服务。
在中国,百度开发了一套人工智能操作系统dulight来帮助盲人识别周围的物体,并配备了一款智能可穿戴设备小明,由百度大脑驱动,类似蓝牙耳机。除了接收用户的指令,小明获取外部信息的方式是利用内置摄像头从第一视角捕捉用户的视觉信息,并对摄像头捕捉到的信息进行图像识别。最后,通过图像语义理解对核心信息进行分析和解释。经过一段时间的使用,该设备可以自动推断用户在下一步可能的行为。
使用百度新开发的机器阅读技术,杜莱特的图像识别,尤其是一般的识别功能,非常强大。机器本身可以根据捕捉到的图片内容自动生成描述性文本,并在高级语义层面上搭建图像与自然语言之间的桥梁,使计算机能够真正自主学习,构建语言系统,感知物理世界中的联系。这也是人工智能领域的一大飞跃。目前,小明的人脸识别错误率仅为0.23%。
事实上,语言一直是机器学习的最大障碍。百度研究院的科学家许巍曾经告诉《中国商报》记者:人类语言是一个抽象的东西。在百度,我们强调图像识别、语言理解和语言生成等传统人工智能不同分支的紧密融合,使用统一的神经网络让机器人直接学习,就像教孩子教机器人一样。
他还以看图说话为例。看到这样的图片后,机器人可以读出这是一辆沿着森林道路行驶的火车,或者问冲浪板是什么颜色。通过理解图片和问题,机器人可以说它是黄色的。在识别出静止图像后,机器人还可以描述视频,比如一只狗在草地上跑。
Facebook技术目前只支持英语发音,但它给盲人和视障人士带来了极大的便利。对他们来说,ios系统上的voiceover(语音识别功能)是最常用的功能。但是,如果上传到facebook上的这些图片没有提供一定的文字描述,那么这些图片给盲人阅读的内容就不够生动,可能只是零碎的信息,所以facebook上的内容无法完全传达。
为了解决这个问题,twitter3在3月份引入了一个功能,允许用户手动将文本描述添加到他们上传的图片中。
然而,事实上,很少有人对每幅画都有描述,所以这种尝试并不十分成功。此外,添加描述的功能在默认情况下是关闭的。在给twitter图片添加文字描述之前,用户需要在辅助功能设置中启动该功能,然后他们可以看到上传图片后添加描述的选项,然后输入文字。这个功能更多的是针对需要帮助的人,而不是提供帮助的人。
与twitter相比,facebook的人工智能技术可以克服这些障碍,但它也面临其他一些问题。其中,图片内容的准确性是最大的一个:目前,机器中还存在一些错误,有时甚至整件事情都是错误的。例如,flickr去年引入了一个类似的系统,将奥斯威辛市的照片识别为体育,将一个黑人的照片识别为猩猩。
VIA电子(上海)有限公司语音交互部R&D总监张国凤告诉《中国商报》记者:目前,近年来发展迅速的深层神经网络(dnn)和卷积神经网络(cnn)被广泛应用于图像识别。最有代表性的是麻省理工学院的开源项目placecnn。通过大量志愿者,他们收集了205个场景分类的250万张照片,用于场景识别训练,取得了很好的效果。VIA Electronics在语音识别、人脸识别和声纹识别中广泛使用dnn、cnn和rnn(循环神经网络),为未来人机交互在智能家居和机器人中的应用做准备。
目前,学术界对神经网络的训练算法基本上都是开源的,这也是研究进展迅速的一个重要原因。许多公司依靠这些开源代码对特定领域进行图像识别培训,并取得了良好的效果。
标题:盲人智能“看图”
地址:http://www.j4f2.com/ydbxw/6115.html