本篇文章3394字,读完约8分钟
嘉宾介绍:面条阅读技术首席执行官赵。上海交通大学人工智能博士,前怀斯纳特算法总监,前阿里北京算法研究中心主任,高级算法专家,雷丁技术公司专门研究构建尖端计算机视觉算法和解决方案。其技术应用包括服务机器人、智能家居、智能家电、智能手机、无人机和其他消费电子行业。
随着最近adas的普及,很多人开始注意到人脸识别在实际应用中有一个更细分的场景——情感识别,它可以在检测到司机的愤怒后,指示司机系紧安全带,提高刹车的反应能力,还可以通过方向盘振动和警报声告知司机他们的情绪状态。以便让我们远离80%的交通事故,这些事故是由司机注意力不集中和愤怒造成的。(根据国家公路交通安全管理局的nhtsa,美国80%的交通事故是由司机注意力不集中和愤怒造成的。(
这种与生命相关的检测过程是如何实现的?邀请国内情感识别专家赵从人脸识别和情感识别的区别入手,逐步深入到情感识别的原理和情感识别的应用场景,最终为我们揭示这一过程是如何实现的。
人脸识别不同于情感识别
首先,让我谈谈情感识别的名称。情感识别可以通过表情、语音和语调或广义的脑电图捕捉来执行。目前,最成熟和应用最广泛的技术是表情识别技术,它是基于计算机视觉算法来识别面部表情和推断情感等基本情感。
接下来,我们谈论的“情感识别”技术是指狭义的“表情识别”技术。每个人都熟悉面部识别,而面部表情识别可能接触较少。他们之间有许多联系和巨大的差异。
首先,让我们看看两者的区别。
首先,“人脸识别”是一个去表情的过程。在人脸识别中,无论他对同一个人做什么表情,他都必须找到一种方式来识别同一个人;相反,“表情识别”是一个强调表情变化的过程。对同一个人来说,不同的表情和情绪变化应该被认可。
第二,人脸识别是静态的,而面部表情识别是动态的。人脸识别最典型的问题是人脸验证问题,即判断两张照片中的人脸是否是同一个人是一个静态问题。人脸表情识别的基本问题是给一张人脸连续的动作帧,并判断该时间段内的基本表情变化,这是一个动态判断问题。
当然,上面所说的是不同的,另一方面,他们两个在视觉上处理脸,有很强的联系。两者之间的关系如下。
首先,两者都依赖于人脸的一些基本技术,如“人脸检测”和“人脸特征点检测”。这两件东西应该是很多朋友都熟悉的。人脸检测是检测照片或视频帧中出现人脸的区域。
如图所示,人脸特征点检测是指识别和标注人脸的一些预定义特征点。因此,人脸的一些基本技术是二者的共同基础。
其次,人脸识别和表情识别在识别精度上受到光照、人脸姿态和遮挡的影响。在这方面,人类似乎觉得没有问题。然而,这些客观条件对计算机识别算法有很大的影响,如极端的侧脸和向上的姿态,这将严重影响人脸检测的准确性。如果无法检测照片中的人脸,就无法进行人脸识别和表情识别。
此外,从行业的整体发展来看,在识别难度方面,与人脸识别相比,表情识别在技术难度上有更大的挑战,这与数据和动态不确定性等因素有关。
目前,表情识别主要识别人类的基本情感。根据心理学的基本情感理论,人类的基本情感包括快乐、悲伤、愤怒、仇恨、恐惧、惊讶和中立。
著名心理学家保罗·埃克曼教授提出了一套面部动作编码理论(facs),将人类的表情分解为多个面部动作单元。这些面部单元不能单独代表任何情感,但理论上它们的组合可以表达任何人类面部表情。
这一理论已经在心理学研究中验证了多年,并在过去成功地应用于动画角色的表情建模。在《阿凡达》等电影中塑造动画角色时。动画师不是分别描绘每个动画帧的表情,而是首先模拟一些代表局部表情动作的混合形状。
例如,混合形状表示眉毛上升或嘴巴上升。这些混合形状在某种意义上是面部表情单位。在此基础上,通过对这些基本帧进行加权,可以得到每个动画帧丰富的表情变化。
近年来,随着机器学习的发展,表达单元编码系统已经成功应用于表情识别。这个自动表情识别过程是这样的。首先,机器学习算法将从许多表情照片中学习特定的表情单元是否出现。表达式单元的不同组合代表不同的表达式。
例如,表情单元12表示嘴角的上升,表情单元6表示脸颊的上升。二者的结合在一定程度上代表了人类快乐的情感。
理论上,基于面部表情单元的面部表情识别可以捕捉到人类成千上万种不同的情感。此外,还可以实现表情映射和迁移,即将人的表情变化实时迁移到另一个角色模型中。就像这个
以上是表情识别原理的基本解释,下面的答案是“假笑”能否被识别。
当我们看美国电视连续剧《对我撒谎》时,我们经常看到埃克曼教授通过识别一个人的表情来判断一个人是否在撒谎。在心理学理论中,真实的笑声和虚假的笑声在某种程度上可以通过参与行动的行动单位的强度和动态过程来区分。
例如,如上所述,如果只有动作单元12出现,但是没有动作单元6出现,加上持续时间,则可以判断它是否是假笑。
但在这方面,我们称之为微观表达领域。
虽然学术界有一些研究,但在应用中,对于微观表达的识别还没有成熟的商业系统,实用性不强。因此,计算机领域的“表情识别”主要是指对人类基本情感的识别,而不是微观表情识别。
让计算机或人工智能技术通过表情识别对我说谎进行微观表情测谎是不现实的,这可能会让大家失望。
主要原因不是目前的计算技术达不到,而是该领域的心理学理论仍然缺乏对“微观表达”的明确定义,因此很难构建相关数据来指导计算机认知。
情感识别将在哪些场景中爆发(当前情感识别的应用场景主要在哪些领域?你认为哪些领域会更快市场化?(
这是人工智能领域的从业者所关心的问题。情感识别的典型应用场景包括广告效果评估、产品评估、视频分析、医疗康复、安全驾驶和情感机器人。
就我个人而言,我认为“情感识别”将在人机交互领域迅速发展。包括安全驾驶和情感机器人。它是最近人工智能革命的基础,使机器更好地理解人,更聪明、更人道地为人类服务。机器慢慢获得足够的情感认知能力后,可以提升人机交互的用户体验。
终于到了拯救生命的时候了
(最近,将情绪识别技术应用于adas的概念非常流行。从技术角度来看,这个过程是如何实现的?(
浅谈adas的应用。典型场景包括疲劳驾驶和公路暴怒驾驶的检测和预警。当发现驾驶员疲劳驾驶和公路暴怒驾驶时,可以触发干预。例如,从技术角度来看,疲劳驾驶可以通过几个动作单元和面部特征的组合来识别。例如,闭眼超时、眉毛下垂、被动睁眼等。
在这种情况下,最大的技术挑战是考虑人脸捕捉的角度和计算效率。
在这种情况下,云服务不是一个好的选择。计算机视觉识别算法需要在本地adas嵌入式系统上高精度、高效率地运行。
(热情的观众:我想问为什么云服务不是一个好的选择,因为本地识别经常受到数据库和算法的限制。(
这主要取决于应用场景。应用于机器人和adas等系统时,系统需要实时计算,不受网络连接的影响。此时,考虑到产品用户体验和安全性,云服务是不现实的。需要一个本地解决方案潜入sdk或硬件,甚至芯片。
(热情的观众:它对本地adas系统有什么要求?需要哪种硬件配置?(
例如,目前基于深度学习的表情识别可以在小米3这样的手机上实现,具有1.6gcpu,独立于gpu,每秒超过40帧。因此,从理论上讲,如果本地adas的计算能力与普通智能手机相似,它就可以运行。在一般的实际情况下,adas系统还将结合行人检测和其他算法,因此一般配置会更高。当然,如果有图形处理器,它可以进一步加速。
目前,我们的阅读技术已经在这方面做了大量的工作。在嵌入式系统中高精度、高效率地运行深度学习将是未来几年计算机视觉的主题之一。
如果情感识别流行,它将不可避免地侵犯每个人的隐私。如何在隐私保护和商业应用之间找到平衡??
众所周知,深度学习与大数据密切相关。只有有了数据,我们才能利用机器学习的能力从数据中自动获取知识
从这个意义上说,情感识别技术和其他计算机视觉技术或广义上的人工智能技术都依赖于数据的收集和处理。当然,只要有数据收集,就可能侵犯个人隐私。
数据的隐私可以说是伴随着互联网而来的。当我们浏览网页、搜索信息和网上购物时,我们的偏好数据每天都暴露在网络上。正是这些数据让我们更准确地搜索信息,更快地找到我们喜欢的产品
如何最大限度地保护个人隐私,合理利用个人数据,是一个两难的问题。目前,在这方面,我们可以让客户选择只返回服务器的关键点等数据,而不是原始图像,这是一个折中方案。
标题:情绪识别如何拯救你的生命? | 硬创公开课
地址:http://www.j4f2.com/ydbxw/6543.html