導(dǎo)讀:人們對智能音箱這款新產(chǎn)品的疑惑越來越多。從“它在監(jiān)聽我嗎”延伸至:它休眠時會收聲嗎?收聲之后,是否會存儲和傳輸這些對話?這些聲音真的會被人聽到嗎?以及,它會被黑客攻擊,變成一個“竊聽器”嗎?
圖片來自“123rf.com.cn”
女兒過生日時,朋友送給司蘭一臺智能音箱,是市場上常見的主流品牌的款式,小方盒子、價格不高。司蘭對新奇事物的興趣一般,就隨手?jǐn)[放在了客廳,倒是6歲的女兒愛上了這個小音箱,總是纏著它講故事。
逐漸地,司蘭對這個智能音箱產(chǎn)生了好感?!昂喼笔呛逋奚衿鳌?,欣喜之余,她開始在淘寶上瀏覽相關(guān)產(chǎn)品,計劃買一臺配置更高、音質(zhì)更好的款式。
直到數(shù)月前的一天,司蘭無意間打開了與智能音箱連接的手機App,卻意外發(fā)現(xiàn),其中記錄的一段文字,正是自己與丈夫剛剛聊天內(nèi)容的文字轉(zhuǎn)寫。令她驚訝的是,這段對話發(fā)生在女兒聽完故事之后,理論上,音箱已經(jīng)處于休眠狀態(tài),不應(yīng)收取聲音,更不應(yīng)該將內(nèi)容傳輸至手機、并轉(zhuǎn)為文字。
“它一直在偷聽我們家里的談話嗎?”疑慮浮現(xiàn)在司蘭的心頭。家人也對智能音箱產(chǎn)生了忌憚,新機購買計劃自然擱淺,對于已有的這臺音箱,司蘭則選擇了“斷電”,“女兒喜歡聽故事,聽的時候開一會,聽完就拔電源”。最近四、五個月,他們都是這樣使用的。
正在“監(jiān)聽”的音箱
智能音箱第一起廣為人知的“竊聽事件”發(fā)生于美國俄勒岡州。
2018年5月,Danielle的丈夫接到一位下屬的電話:“馬上拔掉你的Echo設(shè)備插頭,你被黑客攻擊了!”Danielle居住在俄勒岡州波特蘭市,家中擁有四臺亞馬遜智能音箱Echo設(shè)備。當(dāng)天早些時候,她丈夫的這位下屬接到一份錄音文檔,隨手打開后,卻聽到了Danielle和丈夫在家中的私密談話,夫妻倆正在商量使用哪個牌子的硬木地板。
震驚之下,Danielle拔掉了所有Echo設(shè)備電源,迅速撥打亞馬遜客服電話尋求解釋,同時,她將這一事件爆料給哥倫比亞廣播公司。
對于這一事故,亞馬遜給出的回復(fù)是“誤操作”,意思是,在運行時,Echo設(shè)備將一段對話的內(nèi)容誤解為指令,以為用戶希望將此前的語音內(nèi)容發(fā)送給通訊錄中的某個人,隨即執(zhí)行了這一指令。
Echo是亞馬遜推出的智能音箱,搭載其語音助手Alexa。截至2018年年中,Echo在美累計出貨約3500萬臺;根據(jù)CIRP預(yù)測,其市占率達到70%,遠超其它品牌。
頭部產(chǎn)品出事,消息迅速被廣泛傳播和發(fā)酵。不久之后,Echo的第二起“事故”又出現(xiàn)了。一位德國用戶向當(dāng)?shù)仉s志《c’t》爆料,當(dāng)他讓亞馬遜發(fā)給自己個人活動的語音數(shù)據(jù)時,卻收到了一個可供下載的100MB壓縮文件,下載內(nèi)容是一份解釋Alexa語音命令的PDF分類記錄,以及1700份陌生人對話錄音。
《c‘t》聽取了其中的部分錄音,發(fā)現(xiàn)根據(jù)對話內(nèi)容,可以“拼湊”出的生活細節(jié)包括:在家和外出的時間,家里其它品牌的智能設(shè)備,家中人員的性別,甚至包括用戶沐浴的聲音。
盡管亞馬遜對以上兩起事故均已致歉,卻未能掩蓋一個在輿論中逐漸成型的猜測:作為一款新興設(shè)備,智能音箱的“竊聽”或許不僅是隱患、而且真實存在?!八牭絾拘言~就可以啟動工作,那是否意味著,智能音箱正在隨時隨地聽取我們的談話?”司蘭這樣懷疑。
最近數(shù)月中,智能設(shè)備相關(guān)的更多“竊聽”事故正在被曝出。今年7月,據(jù)國外媒體報道,蘋果的一名承包商稱,為了提升Siri的產(chǎn)品能力,蘋果會雇傭外部承包商審聽錄音,其中包括了Siri在意外被激活時收錄的私密對話,例如醫(yī)療信息、毒品交易和其它信息。
無獨有偶,同月,有消息傳出,谷歌智能助手會將錄下的聲音文件提供給公司員工,甚至世界各地的谷歌第三方承包商也能定期聽取這些談話內(nèi)容。
對于智能音箱及內(nèi)置于各設(shè)備中的語音助手的疑慮正在蔓延,不僅是“竊聽”,智能音箱偶爾出現(xiàn)的自啟動現(xiàn)象也刺激了一部分用戶。從去年起,先后有用戶表示,Echo在未被喚醒時,卻出現(xiàn)了“呵呵”的笑聲,令人毛骨悚然。
類似現(xiàn)象也出現(xiàn)在一些國內(nèi)的智能音箱上。一位用戶透露說,家中擺放的智能音箱多次突然匯報“設(shè)備正在進行系統(tǒng)升級,已更新**個應(yīng)用”,“雖說很正常的內(nèi)容,但家里沒其他人,音箱突然說話,每次都嚇我一跳?!鄙踔劣幸淮?,在她邀請朋友到家中做客,彼此相談甚歡時,智能音箱突然被喚醒了,并毫無預(yù)兆地為眾人播放了一首林俊杰的《殺手》。
“帶屏”音箱則帶來了影像方面的疑慮,隨著“竊聽事故”增多,有用戶懷疑稱,自家的帶屏音箱有“回家看看”的功能,既然可以遠程直播家里正在進行的情景,是否也會同時將這些影像記錄下來,傳輸至其它地方?
人們對智能音箱這款新產(chǎn)品的疑惑越來越多。從“它在監(jiān)聽我嗎”延伸至:它休眠時會收聲嗎?收聲之后,是否會存儲和傳輸這些對話?這些聲音真的會被人聽到嗎?以及,它會被黑客攻擊,變成一個“竊聽器”嗎?
謠傳與真相
“最近一年,身邊很多朋友買智能音箱前,都會來問我監(jiān)聽問題”,張思成說。他先后在多家公司的智能音箱部門工作,被朋友們視為行業(yè)專家?!氨容^有趣的是,問完之后,幾乎每個人都還是買了音箱。”
據(jù)張思成及多位熟悉智能音箱的從業(yè)者介紹,智能音箱的識別工作分為“本地”和“云端”兩種情況,在智能音箱處于未喚醒狀態(tài)時,為本地工作狀態(tài),雖然會收錄外界聲音,但不會對這些聲音進行存儲與語義識別。“喚醒前相當(dāng)于在做聲波識別的工作,”徐家明介紹說,“(智能音箱)將收錄的聲音與喚醒詞做對比,聲波相符時,才會自動打開。”徐家明是一位智能音箱產(chǎn)品經(jīng)理。
張思成否認(rèn)了“偷偷監(jiān)聽”的傳言,據(jù)他了解,市場主流的多款國產(chǎn)智能音箱無一存在主觀故意監(jiān)聽的情況。
“這是一件成本很高的事情”,張思成認(rèn)為。他這樣算了一筆賬:假設(shè)一家企業(yè)累計售出100萬臺音箱,有20萬日活,如果企業(yè)要啟動這些音箱做24小時監(jiān)聽,就算每秒鐘產(chǎn)生100k數(shù)據(jù),乘以20萬的話,累計起來傳輸帶寬、存儲和計算的花費相當(dāng)驚人。
更關(guān)鍵的是,在當(dāng)前的技術(shù)處理能力下,企業(yè)尚不能將這些龐大而又碎片化的錄音轉(zhuǎn)化為有商業(yè)價值的有效信息。在張思成看來,就算不考慮道德層面,只看商業(yè)利益,企業(yè)也沒有動機去做主觀的信息收集。
據(jù)張思成回憶,在去年的一項由國家工信部主導(dǎo)的智能音箱檢測工作中,在未喚醒狀態(tài)下,各家智能音箱傳輸?shù)臄?shù)據(jù)量均僅為KB級別,對于語音資料而言,這一數(shù)據(jù)量幾乎可以忽略不計。
與“竊聽”傳言較為相符的內(nèi)容是“喚醒詞”之后的智能音箱工作模式。
張思成和徐家明均承認(rèn),音箱被喚醒后,將進入云端工作狀態(tài),將收取的聲音傳輸至云端服務(wù)器,完成語音語義識別和反饋工作?!斑@是無法避免的,”張思成有些無奈,他提到,目前智能音箱內(nèi)置的運算能力,無法支撐AI類的語音語義計算,更無法在本地實現(xiàn)識別能力的提升。
為了避免網(wǎng)絡(luò)故障和隱私問題,在一些客戶定制的全屋智能中,張思成的公司曾提供過僅在本地運算的語音方案。不過,這將使功能性變得非常單一,僅支持固定命令,例如,主人回家后,可告訴語音助手“打開燈”,但若換成“打開這盞燈”,它便無法識別。
按照智能音箱的產(chǎn)品策略,當(dāng)用戶結(jié)束命令,如數(shù)秒內(nèi)無新聲音出現(xiàn),機器則會恢復(fù)休眠狀態(tài)?!懊考移放圃O(shè)定不太一樣,有的是3秒內(nèi)、有的是5秒內(nèi),”徐家明透露。然而,在實際工作中,由于智能音箱整體成熟度有限,“喚醒”和“休眠”均有可能出現(xiàn)誤差。“例如剛好有聲音和喚醒詞相似,或者命令結(jié)束后有其他聲響,使智能音箱以為需要繼續(xù)工作,它就會持續(xù)收音,而用戶對此是不知道的?!睋?jù)他推測,包括司蘭在內(nèi),眾多用戶遭遇的所謂“竊聽事件”,均源于這類原因。
據(jù)多位從業(yè)者介紹,目前智能音箱行業(yè)內(nèi)較理想的“誤喚醒率”約為每48小時2次,更糟糕的情況則達到每24小時2-3次,這無疑意味著誤操作下較高的所謂“竊聽”頻率?!皩τ诟骷移放苼碚f,當(dāng)下最關(guān)鍵的都是提高AI能力,減少誤操作,收集來的語料是最好的訓(xùn)練素材?!毙旒颐魈岬健?/p>
今年4月,彭博社的調(diào)查報道顯示,亞馬遜在全球有數(shù)千名工作人員負責(zé)人工聽取和檢查用戶與Alexa的對話,并對這些錄音進行標(biāo)注、檢查、反饋,以降低誤操作,幫助Alexa更好地響應(yīng)指令。位于羅馬里亞的兩名亞馬遜員工提到,他們一天需要工作9小時,解析音頻多達1000條。
“這在行業(yè)中其實不是秘密,”張思成認(rèn)為,不僅是國外品牌,在國內(nèi)幾家主流智能音箱品牌中,均有“人工審聽”環(huán)節(jié)。為盡量保護用戶隱私,錄音在被人工聽取前會進行數(shù)據(jù)脫敏、打散,盡管員工會聽到錄音對話,甚至涉及私密事務(wù),但并不能識別用戶的具體身份?!霸谠贫诉^程中,音頻文件本身不會跟用戶賬號信息、設(shè)備信息相對應(yīng),主要是為了優(yōu)化指令?!眹鴥?nèi)一家主流智能音箱廠商回應(yīng)表示。
“被人工審聽的語料不足總量的1%,主要集中在識別困難的內(nèi)容上,比如,當(dāng)音箱回答‘我不懂你在說什么’,這句之前的內(nèi)容,會優(yōu)先選擇為人工審聽,”張思成解釋說。在他此前任職的公司中,當(dāng)某些新功能上線時,為提高其準(zhǔn)確率,某些特定語料的審聽比例會提升至10%左右;不過,這類工作的持續(xù)時間很短,往往“用幾天時間攻關(guān)后,就恢復(fù)正常比例了”。徐家明同樣認(rèn)為,隨著AI模型識別能力的提高,企業(yè)采用人工審聽的比例或?qū)兴档汀?/p>
智能音箱所錄取的語料不會被永久存儲,前述音箱廠商稱,在完成識別后,音頻文件會被刪除?!懊恳患冶A粑募臅r間不等,我們這邊大概是幾個月?!毙旒颐餮a充說。
無所遁形
無疑,智能音箱和其它語音助手類產(chǎn)品,尚且不是一個成熟品類。
這使此類產(chǎn)品存在諸多漏洞,例如誤喚醒,再例如“黑客攻擊”。去年8月,在美國拉斯維加斯舉行的全球黑客大會Defcon大會上,騰訊安全團隊僅用26秒便成功破解了亞馬遜的Echo,遠程控制指定設(shè)備,使該設(shè)備在未喚醒、不提示的靜默狀態(tài)下自動錄音,并將錄音文件通過網(wǎng)絡(luò)發(fā)送給遠程服務(wù)器。
“當(dāng)2300臺音箱中,有1臺智能音箱被物理攻擊,其他的智能音箱都可以通過局域網(wǎng)內(nèi)的非接觸式攻擊被黑客置入后門,成為黑客的遠程竊聽器。”在破解時間后不久,騰訊安全專家伍惠宇在一場演講中表示。當(dāng)然,在騰訊將這些漏洞提交后,亞馬遜已經(jīng)完成了這部分的修復(fù)和更新。
在另一層面上,正是興起時間短、成熟度低,迄今為止,智能音箱尚未形成任何黑灰產(chǎn)業(yè)鏈。錄音語料在企業(yè)被賦予相當(dāng)嚴(yán)格的保密級別,張思成透露說,在他所任職的公司,涉及錄音的工作均會在公司內(nèi)完成,雖因人員有限,將部分保密級別較低的識別工作外包,也會要求外包人員來到公司完成識別工作。
“在國內(nèi)市場上,還沒有聽說任何一家企業(yè)將語料轉(zhuǎn)賣的情況,沒有聽到過成功竊聽的案例,同樣,據(jù)我所知,智能音箱還不會利用收聽到的語料,為每一位用戶形成全景畫像。”張思成肯定地說,“說到底,現(xiàn)在智能音箱還笨得要死,提取有效信息成本太高,我個人覺得,在未來3到5年內(nèi),都不用擔(dān)心音箱帶來的隱私問題。”
但他也和其他從業(yè)者一樣,并不否認(rèn)以上種種“尚未發(fā)生”的情況,會在技術(shù)更為成熟的未來均有“發(fā)生”的可能。
作為這個新興行業(yè)的從業(yè)者,張思成已經(jīng)可以坦然接受技術(shù)與隱私難以平衡的問題,“在物聯(lián)網(wǎng)、AI時代,我們是沒有隱私、無所遁形的”,即便沒有智能音箱,通過手機和電腦,每個人的信息、喜好、習(xí)慣等種種信息,早已被各家公司所掌握,本質(zhì)上,這并無不同。
除非在計算能力更為強大的未來,全部智能產(chǎn)品均在本地運算,全部斷網(wǎng),只有偶爾更新系統(tǒng)時聯(lián)網(wǎng)。張思成認(rèn)為,這但對普通人而言,這種高技術(shù)難度、低商業(yè)價值的設(shè)想過于遙遠,也過于不切實際。
面對這些焦慮,一些人選擇了遠離智能音箱。一位技術(shù)人員稱,其已經(jīng)將家中智能音箱徹底斷電,亦不再有購買其它智能家居的計劃;而張思成已經(jīng)默默接受,他購買了三、四臺智能音箱放置于家中,本來是用于工作測試,后來也就習(xí)慣了它們的存在。
在技術(shù)探測隱私的邊緣,張思成的底線是“不形成危害”。他將智能音箱置于客廳和門廳,這樣,即使一些語音資料被泄露,也不會對他與家人形成實質(zhì)危害,“智能音箱的收聲范圍大約是3到5米,很難隔墻收集,臥室基本聽不到,實在有私密話題的時候,也可以拔掉電源再講”。
他不能接受的是影像泄露,“我絕不會買一臺帶攝像頭的音箱、或者其它帶攝像頭的產(chǎn)品放置在臥室”,他很清晰地認(rèn)識到,一旦泄露影像,將是難以挽回的重大危害:不止一位從業(yè)者透露,聯(lián)網(wǎng)的攝像頭設(shè)備,的確會將影像回傳至服務(wù)器,這些資料會被嚴(yán)格保密,但仍存在理論上的外泄風(fēng)險。
你無法隱藏自己,所以,只能采用最基本的方法來保護自己——這是張思成的理論。
不過,有些人也抱有更樂觀的態(tài)度,“智能音箱正處于野蠻生長的初級階段,擴展到整個智能家居,都會經(jīng)歷這些初級階段,這時的隱私保護,只能依賴于廠家自律,”徐家明堅信,“當(dāng)這些產(chǎn)品徹底普及之后,一定會有更高級別的隱私規(guī)范出現(xiàn),統(tǒng)一行業(yè)、限制權(quán)限,并作為強制標(biāo)準(zhǔn)來執(zhí)行?!?/p>