來(lái)源:量子位
你是否也有過(guò)這樣的時(shí)候。
廚具清潔正水聲大作,手機(jī)突然響了起來(lái)。這時(shí)你滿手泡沫水漬,大腦瞬間空白:
sad。
那,語(yǔ)音控制?
Siri 表示周圍水聲太大我好像不明白你在說(shuō)什么。
至于手勢(shì)控制……我手要空著還會(huì)有這個(gè)問(wèn)題嗎!
那有沒(méi)有更 nice 的一種方式呢?
這個(gè)可以有——牙齒控制了解一下。
通過(guò)牙齒動(dòng)作 *(teeth gestures)* 來(lái)代替常規(guī)輸入方式。
這就是來(lái)自康奈爾大學(xué) SciFi 實(shí)驗(yàn)室的一項(xiàng)新研究——TeethTap。
效果展示
TeethTap 是一種可穿戴系統(tǒng),主要由耳后佩戴的 IMU 和接觸式麥克風(fēng)組成。
已經(jīng)可以通過(guò)捕捉并識(shí)別耳朵周圍不同的牙齒動(dòng)作來(lái)實(shí)現(xiàn)一些簡(jiǎn)單功能。
而在最終的用戶測(cè)試階段里,TeethTap 成功識(shí)別了 11 位參與者的 1382 個(gè)牙齒動(dòng)作中的 1256 個(gè),平均準(zhǔn)確度達(dá) 90.9%。
如果能將這套系統(tǒng)集成到相關(guān)設(shè)備,那么既不用動(dòng)手,也不用顧忌環(huán)境噪音的設(shè)備控制方式,或許就真的未來(lái)可期了。
那么,它到底是怎么實(shí)現(xiàn)的呢?
13 種基礎(chǔ)牙齒動(dòng)作
好,現(xiàn)在,先咬個(gè)牙。
注意到了嗎,你在活動(dòng)牙齒時(shí),你的舌頭、下頜骨,以及口腔肌肉都會(huì)隨之運(yùn)動(dòng)。
而研究人員在設(shè)計(jì)基本牙齒動(dòng)作時(shí),便是受此啟發(fā)。
對(duì)于牙齒接觸的范圍,以舌頭朝向(引申到下頜方向)為 y 軸,以側(cè)面運(yùn)動(dòng)方向?yàn)?x 軸,這里 x-y 平面的四個(gè)極限點(diǎn)就可以描述為現(xiàn)實(shí)動(dòng)作里的前、后、左、右。
對(duì)于牙齒接觸的方式,則類比鼠標(biāo)動(dòng)作:?jiǎn)螕簦焖僖Ш喜⑨尫牛㈦p擊(兩次快速咬合并釋放)、長(zhǎng)按(保持咬合,延遲釋放)。
通過(guò)以上兩個(gè)維度,共設(shè)計(jì)了 13 種基礎(chǔ)的 " 牙齒動(dòng)作 "(teeth gestures)。
就像 26 個(gè)英語(yǔ)字母可以組成無(wú)數(shù)單詞一樣,這 13 個(gè) " 基本動(dòng)作 " 也可以組合成為各種生活中的常用指令。
" 動(dòng)聲結(jié)合 " 的硬件設(shè)備
在動(dòng)作(語(yǔ)音)與指令交互時(shí),現(xiàn)有手段大多通過(guò)人體特定部位的復(fù)雜傳感器(如眼動(dòng)儀)來(lái)識(shí)別手勢(shì),主要有運(yùn)動(dòng)感測(cè)(如 IMU)和聲音感測(cè)(如麥克風(fēng))兩個(gè)方向。
而 TeethTap 則采用運(yùn)動(dòng)感測(cè)與聲音感測(cè)相結(jié)合的硬件設(shè)備,來(lái)探索面部手勢(shì)識(shí)別的可能性。
TeethTap 主要由兩個(gè)接觸式麥克風(fēng)(BU-30179-000)和兩個(gè)慣性測(cè)量單元(IMU)組成。看外形有點(diǎn)像造型奇怪,設(shè)備繁多的運(yùn)動(dòng)耳機(jī)。
自然彎曲的 PLA 燈絲將 IMU 傳感器壓在耳朵下方的下頜骨處,并將麥克風(fēng)固定到耳后的顳骨上,而麥克風(fēng)則連接到可以放大和過(guò)濾聲音信號(hào)的定制 PCB 板上。
在運(yùn)動(dòng)時(shí),來(lái)自麥克風(fēng)(聲傳感器)的濾波數(shù)據(jù)和來(lái)自 IMU 的陀螺儀數(shù)據(jù),分別通過(guò)板載 12 位的 ADC 和 I2C 通信發(fā)送到微控制器(HUZZAH32)。
最后,HUZZAH32 將數(shù)據(jù)發(fā)送到計(jì)算機(jī)以使用 WiFi 進(jìn)行處理。
從去躁到識(shí)別
那么上述的數(shù)據(jù)分析及傳輸算法具體是怎么實(shí)現(xiàn)的呢?
流程圖是這樣:
首先從連續(xù)數(shù)據(jù)流中劃分一個(gè)以 2s 為單位的滑動(dòng)窗口,隨著數(shù)據(jù)不斷流入流出,滑動(dòng)窗口也進(jìn)行 20 次 /s 的移動(dòng)。
當(dāng)檢查到音頻數(shù)據(jù)出現(xiàn)足夠的尖峰時(shí),再檢查陀螺儀的 y 軸絕對(duì)最大值是否超過(guò)預(yù)定的能量閾值,以此來(lái)判定是否有動(dòng)作發(fā)生。
而對(duì)于咀嚼或說(shuō)話等可行為能產(chǎn)生的噪聲干擾,研究人員也實(shí)現(xiàn)了帶有線性核的 SVM 模型分類器,對(duì)接收數(shù)據(jù)里的噪聲段和動(dòng)作段進(jìn)行了區(qū)分。
在對(duì)數(shù)據(jù)進(jìn)行分割并過(guò)濾掉噪聲之后,再使用 K 近鄰算法(k = 1)對(duì)手勢(shì)進(jìn)行分類。
再使用 DTW 距離函數(shù)在每次迭代中輸出一個(gè)值,最終將具有最小距離值的手勢(shì)確定為預(yù)測(cè)動(dòng)作。
團(tuán)隊(duì)介紹
SciFi 是位于康奈爾大學(xué)計(jì)算機(jī)與信息科學(xué)系的跨學(xué)科實(shí)驗(yàn)室。
目前已在活動(dòng)識(shí)別,健康感測(cè)和自然用戶界面等多個(gè)領(lǐng)域上進(jìn)行了新應(yīng)用的開(kāi)發(fā)。
而對(duì)于現(xiàn)在的這款 TeethTap,作者也坦然承認(rèn)只是概念性的展示,所以不管是在外表美觀程度還是功能性上都還有所欠缺。
而未來(lái)的整體思路是以足夠小的電子元件,將整個(gè)系統(tǒng)集成在耳機(jī)、聽(tīng)筒,甚至是一副眼鏡框架上。
等等?