情感识别存在一个隐私问题 这里有一些解决方法

随着你所到之处都有设备在监听,隐私问题成了先进技术的通病。尤其敏感的是来自你的智能手机和扬声器的音频驱动的不同技术,让消费者在隐私和实用性之间进行持续的成本效益分析。

例如,一个移动应用程序或虚拟助手可以学习适应用户的情绪,并实时识别情绪。这种适应性可以创造出更自然流畅的对话,以及语音助手更有用的、类似人类的理解。但是,如果为这些见解提供动力的音频中存储的全是关于性别和人口统计信息的标识符,用户该如何划定界限呢?

CSE博士生Mimansa Jaiswal和Emily Mower教授的一篇新论文提出了一种方法来消除这一障碍,并使基于机器学习(ML)的更安全的技术成为可能。通过使用对抗性的ML,他们已经证明了在音频存储之前“忘掉”这些敏感的标识符的能力,取而代之的是使用扬声器的简化表示来训练情感识别模型。

情感识别、情绪分析和其他自动识别不同复杂语音特征的技术,都是由在大量标记数据上训练的ML模型提供支持的。为了可靠地识别出用户语音中的模式,该模型必须具有大量类似语音的训练经验,以帮助它识别某些共同的特征。

这些处理典型智能手机用户日常生活的系统将会被训练成各种各样的普通人类语音——本质上是对话的录音。

贾斯瓦尔说:“这篇论文的目的是证明,这些机器学习算法最终会对大量有关一个人的性别或人口统计信息进行编码。”这些统计信息存储在公司的服务器上,为某个特定的移动应用程序或语音助手提供支持——这让用户容易被公司识别,或者更糟的是,让任何恶意的窃听者识别。

“敏感信息泄露的影响是深远的,”作者写道。“研究表明,在招聘、执法和信用评级方面,年龄、种族和性别等变量都存在歧视。”

这种识别音频数据的原始形式,甚至可以覆盖用户在应用程序的其他地方选择的“退出”选项。为了处理这个问题,服务转移到存储在云上预处理后获得的表示,以避免信息泄露。

以前的工作在编码音频数据时考虑到隐私,试图添加随机噪声到数据集。尽管这种技术在监听者不知道使用了何种噪声的情况下是有效的,但攻击者一旦能够访问生成匿名性的网络,这种方法就会崩溃。

相反,Jaiswal和Mower的教务长使用了对抗性的ML技术来减少原始音频存储之前的人口统计和私有特性的编码。剩下的是原始记录的抽象数据表示。作者使用这些表示来部分模糊对话的实际内容,消除了大量数据存储带来的隐私风险。

接下来的挑战是,确保这种隐私保护数据的新格式仍然可以用来有效地训练ML模型完成它们的主要任务。研究人员发现,随着对抗组件的强度增加,隐私度量大部分增加,并且主要任务的性能保持不变,或者只受到很小的影响。

作者写道:“我们发现,对于某些设置,性能要么保持不变,要么略有下降。”在许多情况下,他们甚至发现了一个显著的性能提升,这意味着,通过不学习性别和情绪标签之间的联系,使得模型对性别视而不见,从而增强了其稳健性。

贾斯瓦尔希望利用这些发现,让机器学习研究对现实世界中的用户来说更安全、更可靠。

“ML模型大多是黑盒模型,”她说,“这意味着你通常不知道它们具体编码了什么,它们拥有什么信息,或者这些信息是否可以用于好的或恶意的目的。”下一步是了解两种模型之间编码信息的区别,唯一的区别是其中一种模型接受过保护隐私的训练。”

“我们想要改善人类感知和与这些模型互动的方式。”

这项研究发表在2020年人工智能发展协会(AAAI)会议上发表的论文《情感识别的隐私增强多模态神经表征》(Privacy Enhanced Multimodal Neural representation for Emotion Recognition)上。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢