本篇文章1154字,读完约3分钟
最近,权威杂志《麻省理工评论》(MIT Review)将语音接口列为2016年十大突破性技术,新一代深度语音识别系统——百度硅谷人工智能实验室(Baidu Silverland Manual Intelligence Lab,svail)-深度语音2的最新研究成果也在其中。
这也是本次评选中唯一入选的中国科技公司的科技成果。同时入选的还有免疫工程、植物基因的精确编辑、dna商店、太阳能电池工厂、特斯拉自动驾驶、可回收火箭、空电力收购、知识共享机器人(market 300024,buy)、slack communication software以及其他产品和技术,这些产品和技术来自谷歌(Google)、微软(Microsoft)和spacex(spacex)等众多领域的知名尖端技术公司。
《麻省理工评论》(MIT Review)在文章中评论道:“随着百度语音技术的不断进步,语音界面变得更加实用和有效,人们可以更方便地与周围的设备进行交互。百度的深度语音识别系统(deep speech 2)包含一个非常大的“深度”神经网络,它引入了数百万转录的声音。有时它比人类识别更准确地识别汉语语音片段。”
2014年底,百度首席科学家吴恩达和他的团队发布了第一代深度语音识别系统deep speech,该系统采用端到端深度学习技术,专注于提高嘈杂环境下英语语音识别的准确性。在嘈杂的环境中,深度语音系统的错误率比谷歌、微软和苹果低10%以上。不仅如此,研究人员还增加了中文语音查询功能,识别准确率高达94%。这也促使端到端深度学习算法成为业界提高语音识别的最重要手段。
麻省理工学院的报告指出,语音识别和自然语言理解的结合将为互联网市场创造一个实用的语音界面。由于通过微型触摸屏输入汉字的过程既耗时又繁琐,中国是开发语音界面的理想市场。
与英语相比,汉语语音识别包含两大难点。首先是大量的字符数据。与英语中的26个字母相比,该系统在每次转录中应该直接输出8万个汉字中的一个。其次,在普通话的表达中,不同的声调往往会改变一个词的意思。百度收集常用词,过滤掉有用的字符,节省了大量预处理,直接输入音频文件,然后通过深层神经网络输出字符,大大提高了系统运行效率。
深度语音识别系统的成功很大程度上取决于百度基于gpu的海量深度学习基础设施。通过使用批处理技术在GPU上部署dnn,深度语音的语音识别显示出较高的训练效率。目前,该系统支持超过26万亿的浮点运算,可以在几天内完成深度语言的强化训练。
随着百度语音技术的不断提高,语音界面变得更加实用和有效,在较小的系统上运行深度语音模型是重要的趋势之一。百度正在努力减少语音模式,并将其植入手机等移动设备。在未来,人们可以更方便地与周围的设备交流和互动。(结束)
标题:百度深度语音识别系统入选MIT"2016十大突破技术"
地址:http://www.j4f2.com/ydbxw/8256.html