導(dǎo)讀:索尼研發(fā)的VR手柄克服了這一局限性,較精準(zhǔn)地再現(xiàn)用戶每個(gè)手指的動(dòng)作。
近日,索尼研究人員研發(fā)一款VR手柄,可以較精準(zhǔn)地跟蹤玩家手指的動(dòng)作。據(jù)傳,這一技術(shù)或?qū)⒂糜谒髂嵯乱淮鶳S游戲機(jī)。
VR提供一種沉浸式體驗(yàn),手勢的自然交互對于用戶的體驗(yàn)十分重要,現(xiàn)有的VR手柄在這一點(diǎn)上還有缺陷。比如,F(xiàn)acebook旗下VR手柄產(chǎn)品Oculus Touch只在食指和中指部位設(shè)置觸發(fā)器,能夠感知到的手部動(dòng)作較少。
索尼研發(fā)的VR手柄克服了這一局限性,較精準(zhǔn)地再現(xiàn)用戶每個(gè)手指的動(dòng)作。
這項(xiàng)研究發(fā)表在美國計(jì)算機(jī)協(xié)會(huì)(ACM)官網(wǎng)上,論文題目為《接近傳感器手持設(shè)備手勢估計(jì)的機(jī)器學(xué)習(xí)技術(shù)評價(jià)(Evaluation of Machine Learning Techniques for Hand Pose Estimation on Handheld Device with Proximity Sensor)》。
論文鏈接:
https://dl.acm.org/doi/fullHtml/10.1145/3313831.3376712#BibPLXBIB0032
一、傳感器+神經(jīng)網(wǎng)絡(luò):檢測、預(yù)測兩手抓
據(jù)了解,現(xiàn)有的手指動(dòng)作追蹤技術(shù)主要依靠兩種硬件來實(shí)現(xiàn):能捕捉手指運(yùn)動(dòng)的攝像頭和電容式接近傳感器。
前者受到物理控制器的限制,Oculus Touch就屬于這一類。后者能實(shí)現(xiàn)更精確的動(dòng)作識別,但是技術(shù)還不成熟。
索尼研究人員設(shè)想,可以結(jié)合電容式傳感器和神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)更精準(zhǔn)的手勢追蹤。
用手柄上的電容式傳感器檢測出用戶手勢變化,用神經(jīng)網(wǎng)絡(luò)模型預(yù)測出用戶手指在三維空間的運(yùn)動(dòng)情況。為了設(shè)計(jì)出最佳方案,研究人員計(jì)劃選用兩種不同的神經(jīng)網(wǎng)絡(luò)。
二、用62個(gè)傳感器制作VR手柄原型
基于上述設(shè)想,索尼研究人員設(shè)計(jì)出VR手柄原型。
首先,研究人員在手柄握把部分安裝62個(gè)電容式接近傳感器,使傳感器盡可能多地覆蓋手柄曲面和頂面。傳感器尺寸為10mm*8mm,輸入電流頻率為87.5kHz。
然后,研究人員為神經(jīng)網(wǎng)絡(luò)模型建立訓(xùn)練集。
為VR手柄原型建立CV模型,將其置于一個(gè)UV空間中。選擇12位手形不同的人(男性8人,女性4人)作為參與者,用動(dòng)作捕捉系統(tǒng)OptiTrack以60幀率捕捉參與者動(dòng)作。每個(gè)參與者用右手做出11套不同手勢。每個(gè)動(dòng)作重復(fù)4次,前3次用于訓(xùn)練,第四次用于驗(yàn)證。
準(zhǔn)備好的訓(xùn)練集包含344015幀圖像,驗(yàn)證集包含111165幀圖像。
接下來,研究人員基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)ResNet-18來構(gòu)建直接回歸網(wǎng)絡(luò)(Direct Regression Network),基于2.5D熱圖回歸架構(gòu)(2.5D heatmap regression architecture)構(gòu)建熱圖檢測網(wǎng)絡(luò)(Heatmap Detection Network)。
用動(dòng)量為0.9的隨機(jī)梯度下降優(yōu)化器來訓(xùn)練這兩個(gè)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)模型儲(chǔ)存誤差最小的模型。直接回歸網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.03,熱圖檢測網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.01。
三、模型精度較高:能抓起小物體,還能進(jìn)行交流
研究人員用驗(yàn)證數(shù)據(jù)集評估了兩個(gè)神經(jīng)網(wǎng)絡(luò)模型的性能。結(jié)果顯示,直接回歸神經(jīng)網(wǎng)絡(luò)模型更精確地預(yù)測了手部動(dòng)作。直接回歸神經(jīng)網(wǎng)絡(luò)模型平均絕對誤差(MAE)更小,為11.02mm。
研究人員還對比了手勢追蹤模型與其他模型的性能。2018年,Le等研究者設(shè)計(jì)出一款基于電容傳感器的手柄,平均絕對誤差為15.2mm。相比之下,索尼的解決方案精度更高。
另外,研究人員用英特爾酷睿i7-6950X 3.0GHz CPU和NVIDIA GTX1080 GPU成功演示了手勢追蹤模型,演示場景包括操縱小物體和用手指進(jìn)行非語言交流。
結(jié)語:將繼續(xù)提升精度
索尼研究人員結(jié)合電容式接近傳感器和神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)出一款精度較高的VR手柄,或能提升VR游戲的用戶體驗(yàn)。
除此以外,研究人員認(rèn)為這個(gè)模型還可以用于游戲之外的領(lǐng)域,比如非語言交流應(yīng)用。
研究人員下一步計(jì)劃繼續(xù)提升模型精度,使其能夠反映更多用戶手掌的特征,比如手指長度。
文章來源:TechXplore,ACM