据国外媒体报道,基于语音助手的智能音箱在全世界越来越流行,数千万消费者使用智能音箱和他们的语音软件来玩游戏,寻找热门歌曲或查询百科常识。但是,更多的消费者不愿意邀请这些设备和他们强大的麦克风到他们的家中,因为他们担心有人可能在听。
很多时候,的确是有人在“偷听”。
据国外媒体报道,亚马逊公司在世界各地雇佣了数千名员工,帮助改进Alexa语音助手,为其Echo系列音箱系列提供动力。
这个庞大的团队聆听Echo业主的家中和办公室捕捉到的录音。这些录音被转录、注释,然后反馈到软件中,亚马逊这一团队的目的,是消除Alexa对人类语言理解的空白,并帮助它更好地响应消费者的语音命令。
根据七个参加过上述团队工作的人士透露,Alexa的语音审听过程突出了在训练软件算法中经常被忽视的人类角色。
在营销材料中,亚马逊表示,Alexa“生活在云中,而且总是变得越来越聪明。”但是就像许多软件工具都是为了从经验中学习而构建一样,人类也在给语音助手做一些教学工作。
知情人士称,该团队由承包商和亚马逊的全职员工组成,他们在从波士顿到哥斯达黎加、印度和罗马尼亚的分支机构工作,他们签署了保密协议,被禁止公开谈论该项目。
亚马逊布加勒斯特分支机构的两名工作人员表示,他们每天工作9个小时,每个审听者每班分析多达1000个语音片段。亚马逊布加勒斯特办公室占据了罗马尼亚首都新兴的皮佩拉区Globalworth大楼的最高三层。在摇摇欲坠的基础设施中,这座现代化的设施脱颖而出,大楼外部没有任何亚马逊标志。
这项工作基本上是平淡无奇的。波士顿的一名工作人员说,他积累的语音资料包括像“泰勒·斯威夫特”(Taylor Swift)这样的单一词语,他会对这些数据进行了注释,以表明搜索者指的是一位音乐艺术家。
偶尔,审听者会拿起一些Echo音箱东家可能宁愿保持隐私的东西:比如说,一个在淋浴时唱着难听歌曲的女人,或者是一个尖叫着求救的孩子。当团队需要帮助解析一个混乱的单词或遇到有趣的录音时,他们使用内部聊天室来共享文件。
这些工作人员经常会听到令人沮丧的对话,甚至可能是犯罪过程的声音。
其中两名员工说,他们发现了一起他们认为是性侵犯的事件。当类似的事情发生时,他们可能会在内部聊天室里分享这些情况,以此作为缓解工作压力的一种方式。
亚马逊表示,当员工听到令人不快的事情时,他们已经制定了如何进行处理的程序,但两名驻罗马尼亚的员工表示,在要求对此类案件进行指导后,他们被告知,亚马逊不会干预语音背后发生了什么。
亚马逊的一位发言人在一份电子邮件声明中表示:“我们认真对待客户个人信息的安全和隐私。为了改善客户体验,我们只对极小的Alexa录音样本进行了注释。例如,这些信息可以帮助我们培训语音识别和自然语言理解系统,这样Alexa就可以更好地理解您的请求,并确保该服务能够很好地为每个人工作。
“我们有严格的技术和业务保障措施,对滥用我们的制度采取零容忍政策。在工作流程中,员工无法直接访问某位用户或帐户的信息。所有信息都是高度保密的,我们使用多因素身份验证来限制访问、服务加密和检查我们的控制环境,以保护用户隐私。”
亚马逊在其营销和隐私政策材料中没有明确表示,人类员工正在收听Alexa收集的一些对话的录音。“我们利用你对Alexa的要求来训练我们的语音识别和自然语言理解系统,”该公司在一份常见问题列表中说。
在Alexa的隐私设置中,该公司为用户提供了在开发新功能时禁用其录音的选项。彭博社查看的一张屏幕截图显示,发送给Alexa审听人员的录音没有提供用户的全名和地址,但是与某位智能音箱用户的账号、用户的名字和设备的序列号相关联。
今年早些时候,美国媒体《The Intercept》报道称,亚马逊旗下子公司RING的员工在该公司门铃摄像头拍摄的视频中手动识别车辆和人员,以期更好地训练该软件自己完成这项工作。
美国密歇根大学(University Of Michigan)教授弗洛里安·朔布(Florian Schaub)研究了智能音箱的隐私问题,他说:“你不一定会想到另一个人在兴致浓厚地倾听你说的话。我认为我们已经习惯于这样的假设,即这些机器只是在做神奇的机器学习。但事实是,仍然需要人类员工处理。”
他补充说:“这是否涉及隐私问题,取决于亚马逊和其他公司对他们手工注释的信息类型有多谨慎,以及他们如何向其他人展示这些信息。”
2014年Echo智能音箱首次亮相之后,亚马逊的发明推动了语音软件在家庭环境中的使用。
不久之后,谷歌公司它推出了自己版本的智能音箱,名为Google Home,随后苹果公司也推出了自家的的HomePod。
在中国市场,也有许多公司开始销售智能音箱。科技市场研究公司Canalys的数据显示,去年全球消费者购买了7800万台智能音箱。数以百万计的人使用语音软件与智能手机上的语音助手进行交互。
Alexa软件设计用于连续录制音频片段,收听唤醒词,默认情况下是“Alexa”,但人们可以将其更改为“Echo”或“Computer”。当检测到唤醒字时,智能音箱顶部的光环变为蓝色,表明设备正在记录并向亚马逊的网络服务器发送命令。
大多数现代语音识别系统都依赖于模仿人脑的神经网络。软件通过在大量数据中发现规律和模式,从而一边工作一边学习。
为Echo和其他智能音箱提供动力的算法使用概率模型进行有根据的猜测。如果有人问Alexa附近有没有希腊餐馆,算法知道用户可能是在找餐馆,而不是教堂或社区中心。
但有时Alexa也会弄错——尤其是在处理新的俚语、地区口语或英语以外的其他语言时。在法语中,avec sa,“和他在一起”或者“和她在一起”等表达方式可能会把软件搞糊涂,以为有人在使用Alexa的唤醒词。
另外,Hecho在西班牙语中代表事实或行为,有时被误解为Echo。诸如此类,这就是亚马逊招募人工助手来弥补算法不足的原因。
苹果的Siri也有人工助手,他们负责判断语音助手对请求的解释是否与该人所说的一致。根据苹果的一份安全白皮书,他们审查的录音片段没有个人身份信息,并与一个随机标识符捆绑存储六个月。在此之后,数据将从其随机标识信息中去除,但可能会被存储更长时间,以提高Siri的语音识别能力。
该公司表示,在谷歌,一些审听者可以从“谷歌助手”那里获取一些音频片段,以帮助培训和改进产品,但它与任何个人身份信息都没有关联,音频也进行了修改。
亚马逊公司最近发布了一篇招聘布加勒斯特“Alexa数据服务公司”(Alexa Data Services)质量保证经理的启事,招聘启事中描述了人类员工扮演的角色:“Alexa每天倾听成千上万的人跟她谈论不同的主题和不同的语言,她需要我们的帮助来理解这一切。”招聘广告继续说:“这是你从未见过的大数据处理。我们每天都在创造、标记、策划和分析大量的讲话。”
据一位熟悉该工作流程的人士透露,亚马逊对语音数据的审查过程始于Alexa随机抽取一小部分用户的录音,并将这些音频文件发送给远方的员工和承包商。
一些Alexa审听者的任务是转录用户的命令,将录音与Alexa的自动转录文本进行比较,或者注释用户和机器之间的交互。那个人问了什么?Alexa提供了有效的答复了吗?
其他人会记下他们听到的每一句话,包括背景对话——即使是在孩子说话的时候。有时,审听人会听到用户讨论诸如姓名或银行详细信息之类的私人细节,在这种情况下,他们应该在一个表示“关键数据”的对话框中打勾。然后转到下一个音频文件。
根据亚马逊的网站,除非Echo检测到唤醒词或按下按钮激活,否则音频不会被存储。但有时,Alexa似乎开始录制声音,没有任何提示,一个听不懂的噪音意味着音频文件已经开始录制。
无论激活是否错误,审听人都必须对语音内容进行转录。一位知情人士说,当Alexa没有收到唤醒指令或被意外触发时,审听人每天记录多达100段录音。
据两位亚马逊审听人说,在世界各地的家庭中,Echo智能音箱的用户经常猜测谁可能在听,“你为美国国安局工作吗”他们还问:“Alexa,有人在听我们说话吗?”(腾讯科技审校/承曦)