以后像双十一这种购物节,要防的可不仅仅是败家媳妇,可能还有你家那只表达欲比较强的宠物!
据法新社报道,一只来自英国的鹦鹉,通过模仿主人声音,利用智能声控音箱 Echo 在亚马逊网站上成功下单,买下一个价值 10 英镑(13.5 美元)的礼品盒。
那这只名叫鹦鹉究竟是如何做到的呢?
这只名叫巴迪的鹦鹉能够成功下单靠的是亚历克萨(Alexa)语音助手,它可以帮助用户通过 Echo 智能声控音箱在亚马逊网站上进行购物。
《太阳报》网站上的一段视频显示,鹦鹉叫了声“Alexa”,然后扬声器开始亮起蓝灯,表示它正在听从用户的需求。机器回复到:“你想订什么呢?”巴迪随后胡言乱语一番,当时主人并没有把这事太放在心上,直到她收到一份订单显示,已经订购了一些金色的礼品盒。
鹦鹉竟然能模仿人的声音进行购物,这听上去是不是有些令人难以置信?
接下来,一支来自浙大的团队用 Echo 所做的事情,可能更加颠覆你的想象!因为他们也神不知鬼不觉的让 Echo 进行了购物,比这只鹦鹉做的更加隐蔽。
我们探索的,是 20 至 20000 赫兹之外的世界
来自浙江大学电气工程学院智能系统安全实验室(USSLab) 的一群学霸以“搞破坏”而声名远扬,在“头头”徐文渊教授的带领下,把市面上最火的智能设备语音助手系统黑了个遍,其中包括谷歌的 Google Assistant、苹果的 Siri、亚马逊的 Alexa、三星的 S Voice、微软的 Cortana 以及华为的 HiVoice 等。
团队成员冀晓宇老师告诉雷锋网,“海豚攻击”的原理就是通过利用麦克风的硬件漏洞,成功“黑”进智能设备的语音助手系统,通过发出人耳无法听到的超声波语音,让语音助手执行他们所下达的指令。
由于这个实验的特性,Echo 理所当然的成为了他们的攻击对象。
语音助手的工作路径,就是通过麦克风收录人类语音,语音识别系统加以识别,把语音转化为文本,系统依文本执行指令。产品设计师沿着这个思路一路往前,设备变得越来越“听话”,人们也越来越享受到“声控”的便利。
徐文渊这样向雷锋网编辑解释智能语音识别系统的工作原理。
如上图所示,智能语音识别要先进行声音抓取(对麦克风收进来的声音进行放大和过滤,让它更容易辨识),然后再进行激活,如果没被激活,则要继续进行声音识别,如果已经激活,则可以开始下一步的命令,这也是我们文章开头看到的那一幕。
鹦鹉叫了声“Alexa”,然后扬声器开始亮起蓝灯,表示它已经激活,正在听从用户的需求。并回复到:“你想订什么呢?”
正如在图中右下角看到的很多应用,既有聊天应用、导航系统,也有类似跟 Siri 等智能聊天机器人。徐文渊和团队所做的超声波语音的研究,正是在此过程中进行的。
一般来讲,人耳可以听到的声音在 20 至 20000 赫兹之间,而徐文渊团队发起的攻击,用的是 20000 至 40000 赫兹的超声波语音指令,它像海豚的叫声一样,人耳是听不见的,所以这项攻击也被叫做“海豚攻击”。
当把普通语音转换成超声波的形式之后,麦克风依然能够接收,并继续转化为语音系统能够识别的语音信号。只是整个过程人耳朵听不见。这就是漏洞所在。
如何把普通语音转换为超声波?
麦克风作为一种基本的电子器件,它将声音信号转换为电信号。“这是模拟信号转换为数字信息的第一道门。”团队的着眼点,就是在模拟信号转换成数字信号 0 和 1 之前的各种安全问题。这与人们熟知的处理数字信号漏洞的病毒查杀各有分工。
雷锋网发现,在今年的 hackpwn 上,团队成员闫琛就对他们的破解进行了如下的解释。
信息分模拟信号和数字信号。模拟信号是比较底层的更加能够反映物理的信号,数字信号则是方便我们处理和传输的信号。作为物联网设备包括三个环节,第一是感知,第二是处理,第三是传输。通常的安全研究,像密码学、漏洞挖掘都是集中在数字,特别是集中在处理层和传输层。模拟信号其实是作为比较底层的信号,它的安全直接决定上层数据的安全,并且可以严重影响整个系统的安全。
那针对底层信号,如何把普通语言转化为超声波呢?闫琛这样解释。
我们对超声波进行了调制,在麦克风之后会出现与原声音接近的波形。
他们在攻击中,对超声波进行了调制,调制过程如上图所示,左上是声音波形,左下是超声波载波,右边则是调制成功的超声波。
从图中我们可以发现,他们有相似的曲线。
也就是说,在智能语音进行识别的过程中,人声和这段超声波所识别出来的意思是一样的。
这也是为什么,超声波能在神不知鬼不觉的状态下,让语音助手来干这干那。比如,对于想做恶作剧的人来说,超声波可以通过 Siri 为你设置凌晨 3 点的闹钟,而且是周一到周日~~~
如何才能用 Echo 更安全的购物?
目前,用 Echo 购物所使用的 Alexa 语音助手,它的语音购买功能仅支持亚马逊 prime 的用户。普通用户只能通过语音添加商品到购物车,不能直接购买。
闫琛对雷锋网说,Echo 为用户提供的安全选项有两点,一是可以关闭语音购买功能,二是可以在下单之前说一个预先设置的四位数密码。
徐文渊说,在解放双手的欲求的驱使下,语音助手在未来的生活中必将扮演越来越重要的角色,成为智能家居、智能办公的重要部分。即便“无声”操控听起来让人很没有安全感,但这绝不意味着“天要塌下来了”,你的邻居目前还不太可能操纵你家客厅的设备。“
我们进行攻击时,距离不能太远,因为我们那个设备属于那种直接用的设备,所以它在功能上面是有限的,我们只是想证明一下这个攻击是可行的,没有在设备上花太多精力去找能力比较强的。在实验当中,echo 是要在两米之内,手机可能要更近一点,因为超声波本来就有方向性,所以需要把发射器对着你的麦克风。
徐文渊希望,可以在语音功能的起步阶段,发现并弥补漏洞,在它们广泛应用到更多领域具有更多功能之前,预见风险,控制风险。
目前,各大 IT 设计制造厂商对浙大这群“破坏者”们的研究动向充满兴趣。徐文渊也做出如下解释。
我们一直与业界有沟通,在研究结果正式发表之前,已递交给苹果、华为等厂商,并提出“补漏”建议。
具体到这项海豚攻击,团队提出了两种方法,一是加固硬件,二是开发能够更加精准区分机器声与人声的软件。
参考来源:DolphinAttack: Inaudible Voice Commands
论文链接:https://arxiv.org/pdf/1708.09537.pdf