技術(shù)
導(dǎo)讀:也許掌管人類技術(shù)進(jìn)化的神不小心打個(gè)盹,眼動(dòng)追蹤就會(huì)跳出慢吞吞的軌道,從捷徑瞬時(shí)擁抱人間。
有點(diǎn)常識(shí)的人都知道,戒毒這件事兒,生理依賴容易擺脫,心癮卻很難除。
一般的戒毒機(jī)構(gòu),往往只以戒毒者避免接觸毒品的期限為參照,三個(gè)月或六個(gè)月,或者一兩年,在此期間戒毒者如果表現(xiàn)正常,便被視為戒毒成功。由于心癮未除,有許多人不久之后又會(huì)重新沾染上毒癮而不得不再次戒毒,甚至多次反復(fù)。
只依賴生理診斷而缺乏一套心理毒癮的診斷方式,顯然是導(dǎo)致毒癮久戒不除根的重要原因。
而現(xiàn)在,能判斷戒毒者是否心理戒毒成功的診斷方法出現(xiàn)了。
根據(jù)香港《星島日?qǐng)?bào)》的報(bào)道,香港教育大學(xué)于近日首次在戒毒研究上應(yīng)用了“眼動(dòng)追蹤”技術(shù)。通過對(duì)戒毒者注視毒品的時(shí)間和位置的判斷分析,便可確定其是否已經(jīng)完全戒除“心癮”,而且正確率高達(dá)90%以上。
姑且不說這一新聞背后的技術(shù)能力究竟如何,單單“眼動(dòng)追蹤”四個(gè)字,就足以讓人們“眼動(dòng)”,令其又重新回到了大家的視野中。那么,“眼動(dòng)追蹤”在今天到底是一個(gè)什么樣的狀況?它主要用在哪些方面?前景又如何呢?
針對(duì)這些問題,我們來嘗試著做一些解答。
01
VR:眼動(dòng)追蹤的最佳拍檔
眼動(dòng)追蹤技術(shù),顧名思義,就是通過圖像采集設(shè)備對(duì)眼球運(yùn)動(dòng)的信息進(jìn)行捕捉,實(shí)現(xiàn)對(duì)眼球的跟蹤和分析,從而服務(wù)于具體的場(chǎng)景當(dāng)中,如心理分析、電子設(shè)備屏幕切換甚至是對(duì)設(shè)備進(jìn)行控制等。不難看出,眼動(dòng)追蹤包括三個(gè)步驟:一,攝像頭、紅外線等采集設(shè)備對(duì)眼球運(yùn)動(dòng)進(jìn)行捕捉;二,終端對(duì)眼球運(yùn)動(dòng)軌跡等信息進(jìn)行綜合分析和判斷;三,發(fā)出指令,做出符合主體意愿的決策或提示。
由此我們很容易想到用這種技術(shù)來實(shí)現(xiàn)屏幕或電子書翻頁,而且這也是筆者曾經(jīng)年少時(shí)最渴望的事情。其實(shí)放到如今,這充其量算是眼動(dòng)追蹤技術(shù)比較低級(jí)別的應(yīng)用。早在2017年微軟也將這項(xiàng)技術(shù)內(nèi)置到了Windows10中。
但Windows10似乎比較雞肋,當(dāng)年看演示打字的時(shí)候的確很科幻,但實(shí)用性太差,遠(yuǎn)不及人手的打字效率,再加上其他應(yīng)用的缺乏,眼動(dòng)追蹤最終還是淪為了微軟買產(chǎn)品的噱頭而已。
但從這個(gè)已經(jīng)可以被看做失敗的案例中我們可以略微窺出:眼動(dòng)追蹤固然好,沒有應(yīng)用也不行。而遍觀如今的種種科技,能令眼動(dòng)追蹤技術(shù)大放異彩的,或許就是VR。Tobii也將VR視作其眼動(dòng)追蹤技術(shù)落地的最佳載體,并推出了適配VR頭盔的設(shè)備Pro Glasses 2,但一支鋼筆大小東西,用在VR頭盔之類的設(shè)備上實(shí)在是有點(diǎn)占空間。
另一個(gè)問題是,目前的VR產(chǎn)品在呈現(xiàn)游戲或其他應(yīng)用的圖像時(shí),往往是對(duì)所有的場(chǎng)景統(tǒng)統(tǒng)渲染,眼睛看到的地方清晰無比,看不到的地方也毫不含糊。
我們顯然可以從中看出三個(gè)弊端:容易造成眩暈感;對(duì)眼球觀察之外的場(chǎng)景渲染造成計(jì)算浪費(fèi)的同時(shí)也給設(shè)備計(jì)算帶來負(fù)擔(dān);算力增加,設(shè)備的體積自然小不到哪兒去。難道把硬件再做大一點(diǎn)?那頭盔就更不方便了。
而眼動(dòng)追蹤,則正可以用來解決這個(gè)問題。
Tobii對(duì)此開發(fā)了視網(wǎng)膜中心渲染技術(shù),通過對(duì)眼球的追蹤,將人眼注視的區(qū)域進(jìn)行高清渲染,而對(duì)眼球之外的區(qū)域進(jìn)行模糊化處理,這符合人在看物體時(shí)的一般特點(diǎn)。
Tobii的思路正確無比,但實(shí)際效果卻很有限。畢竟是圖像處理,Tobii顯然不太擅長(zhǎng)——等等,說到圖像處理,難道還有比AI更適合的方法嗎?
02
AI:技術(shù)行進(jìn)的明白方向
自從2014年收購Oculus以來,facebook在VR上下的工夫一直都沒有減少,砸錢砸得不計(jì)成本。這些投入也被外界稱為“為未來買單”,facebook扔進(jìn)大海的石子并沒有沉沒了事兒,也是激起了幾多浪花的。比如基于眼動(dòng)追蹤技術(shù)的VR圖像渲染上。
去年5月份,facebook推出了Half Dome原型機(jī),其集成了眼動(dòng)追蹤相機(jī)、寬視場(chǎng)光學(xué)系統(tǒng)和可獨(dú)立變焦顯示器,就是為了取得和人眼觀察事物一致的效果:對(duì)視線之外的區(qū)域進(jìn)行模糊處理,以達(dá)到沉浸式體驗(yàn)。同樣,這款原型機(jī)發(fā)布的時(shí)候和Tobii水平差不多,由于硬件和算法的限制,渲染的逼真程度很難讓人評(píng)價(jià)為體驗(yàn)良好。而去年12月,facebook就為其匹配了人工智能渲染系統(tǒng)Deep Focus。
那么,Deep Focus加持的圖像渲染和Tobii以及Half Dome原型機(jī)的區(qū)別在哪里呢?一個(gè)詞來回答就是:自然模糊。
對(duì)注視點(diǎn)之外的畫面進(jìn)行模糊處理是方向,但這其中的問題也有很多:清晰區(qū)域和模糊區(qū)域的過渡是否平滑自然?注視點(diǎn)移動(dòng)過程中圖像由模糊到清晰的轉(zhuǎn)化是否自然?
不自然的過渡是這樣的:
自然的過渡則是這樣的:
顯然下圖要比上圖有更自然的注視點(diǎn)邊緣模糊處理。這也成為了Deep Focus努力的方向。而如果純粹是用算力來解決問題,那對(duì)本身體積就存在限制的VR頭顯又提出了要求。因此facebook reality lab的研究者選擇了另外一個(gè)方向:利用深度學(xué)習(xí)來實(shí)現(xiàn)自然模糊。為此,研究團(tuán)隊(duì)需要大量的數(shù)據(jù)來對(duì)人工智能系統(tǒng)進(jìn)行訓(xùn)練。但問題是上哪兒去找這么多數(shù)據(jù)呢?
于是他們隨機(jī)生成了由大量對(duì)象組成的場(chǎng)景,然后交由Deep Focus來對(duì)這些對(duì)象的紋理等特征進(jìn)行學(xué)習(xí)訓(xùn)練,從而生成逼真的渲染模糊效果。經(jīng)過接近一年的訓(xùn)練,Deep Focus已經(jīng)可以做出相當(dāng)出色的渲染表現(xiàn)。
利用最新的人工智能技術(shù)來追蹤研究并做出實(shí)時(shí)的圖像處理,看起來是一個(gè)非常不錯(cuò)的主意。對(duì)facebook而言,或許它只是一種增強(qiáng)VR沉浸式體驗(yàn)的措施;而對(duì)整個(gè)眼動(dòng)追蹤技術(shù)應(yīng)用層面而言,人工智能更大的意義則在于提供了一條行之有效的研究方向。
03
爆發(fā):沖破障礙與應(yīng)用的未來之景
我們?cè)倩氐窖矍蚋櫦夹g(shù)本身來。進(jìn)入2019年,以5G網(wǎng)絡(luò)商用為標(biāo)志,越來越多的聲音認(rèn)為5G的大帶寬、低延遲的特性將助推VR的復(fù)興,乃至產(chǎn)業(yè)的爆發(fā)。能不能用“爆發(fā)”來修飾一番,似乎已經(jīng)成為衡量某個(gè)技術(shù)或產(chǎn)業(yè)應(yīng)用價(jià)值的標(biāo)志之一。那么,對(duì)眼動(dòng)追蹤技術(shù)而言,無論是傳統(tǒng)的硬件廠商Tobii還是以facebook為代表的人工智能公司,似乎也都一刻也沒有停止對(duì)它的技術(shù)演進(jìn)。我們也套用一下:當(dāng)AI入場(chǎng)之后,眼動(dòng)追蹤技術(shù)的應(yīng)用是否也面臨爆發(fā)呢?
以下這些,或許將成為所謂“爆發(fā)”前夜必須要考慮的問題。
·支撐即時(shí)反饋的終端計(jì)算性能。對(duì)眼動(dòng)的跟蹤、信息捕捉、分析處理和判斷需要在極端的時(shí)間內(nèi)完成,F(xiàn)acebook的Deep Focus雖然用AI實(shí)現(xiàn)了自然模糊的高級(jí)別應(yīng)用,但這是建立在擁有四顆高性能GPU電腦的基礎(chǔ)上,如果想要順利搭載在VR頭盔甚至是手機(jī)、手表等電子設(shè)備上,則必須要兼顧體積和計(jì)算的性能?;蛘?,開發(fā)出更強(qiáng)大的算法。
·“無效”眼動(dòng)的精確排除。人的眼球運(yùn)動(dòng)并非都是有意而為,如何排除無意識(shí)的眼球運(yùn)動(dòng)干擾,則需要下一步進(jìn)行重點(diǎn)研究。
·應(yīng)用生態(tài)的大面積擴(kuò)展。今天看來,一件新技術(shù)要想獲得大規(guī)模的推廣應(yīng)用,除了硬件層面的匹配之外,還要有相應(yīng)數(shù)量級(jí)的應(yīng)用支撐,尤其是能夠產(chǎn)生剛需或制造剛需的應(yīng)用。VR確實(shí)很有代表性,但只有VR顯然是不夠的,更何況VR自身也處于技術(shù)演進(jìn)的過程中。那么,為眼動(dòng)追蹤技術(shù)打開更多的應(yīng)用可能,也應(yīng)該同步于對(duì)它的技術(shù)研究。
比如將眼動(dòng)追蹤與腦機(jī)接口結(jié)合起來,通過對(duì)無形腦電波的捕捉和外在眼球的跟蹤,來判斷大腦的意圖傾向;為言語障礙、行動(dòng)不便等人士提供醫(yī)療幫助,比如打字、呼救等;又或者用在汽車中的駕駛員疲勞監(jiān)測(cè)、車機(jī)交互,成為手指、語音之外的第三種交互方式,增進(jìn)人機(jī)交互的親密度等等。
可見,在解決方案日漸成熟的前提下,眼動(dòng)追蹤其實(shí)是具備了成為科技“爆款”的潛質(zhì)的:擁有廣闊無比的應(yīng)用場(chǎng)景。只不過硬性的需求尚未形成,而技術(shù)的支撐仍然孱弱,眼動(dòng)追蹤技術(shù)在未來一段時(shí)期可能仍然會(huì)處于不溫不火的狀態(tài)。
但技術(shù)的發(fā)展趨勢(shì)有時(shí)候總會(huì)超乎我們的想象,AI概念提出60年后才迎來真正的爆發(fā),也許掌管人類技術(shù)進(jìn)化的神不小心打個(gè)盹,眼動(dòng)追蹤就會(huì)跳出慢吞吞的軌道,從捷徑瞬時(shí)擁抱人間。