來源:量子位
你是否也有過這樣的時候。
廚具清潔正水聲大作,手機突然響了起來。這時你滿手泡沫水漬,大腦瞬間空白:
sad。
那,語音控制?
Siri 表示周圍水聲太大我好像不明白你在說什么。
至于手勢控制……我手要空著還會有這個問題嗎!
那有沒有更 nice 的一種方式呢?
這個可以有——牙齒控制了解一下。
通過牙齒動作 *(teeth gestures)* 來代替常規輸入方式。
這就是來自康奈爾大學 SciFi 實驗室的一項新研究——TeethTap。
效果展示
TeethTap 是一種可穿戴系統,主要由耳后佩戴的 IMU 和接觸式麥克風組成。
已經可以通過捕捉并識別耳朵周圍不同的牙齒動作來實現一些簡單功能。
而在最終的用戶測試階段里,TeethTap 成功識別了 11 位參與者的 1382 個牙齒動作中的 1256 個,平均準確度達 90.9%。
如果能將這套系統集成到相關設備,那么既不用動手,也不用顧忌環境噪音的設備控制方式,或許就真的未來可期了。
那么,它到底是怎么實現的呢?
13 種基礎牙齒動作
好,現在,先咬個牙。
注意到了嗎,你在活動牙齒時,你的舌頭、下頜骨,以及口腔肌肉都會隨之運動。
而研究人員在設計基本牙齒動作時,便是受此啟發。
對于牙齒接觸的范圍,以舌頭朝向(引申到下頜方向)為 y 軸,以側面運動方向為 x 軸,這里 x-y 平面的四個極限點就可以描述為現實動作里的前、后、左、右。
對于牙齒接觸的方式,則類比鼠標動作:單擊(快速咬合并釋放)、雙擊(兩次快速咬合并釋放)、長按(保持咬合,延遲釋放)。
通過以上兩個維度,共設計了 13 種基礎的 " 牙齒動作 "(teeth gestures)。
就像 26 個英語字母可以組成無數單詞一樣,這 13 個 " 基本動作 " 也可以組合成為各種生活中的常用指令。
" 動聲結合 " 的硬件設備
在動作(語音)與指令交互時,現有手段大多通過人體特定部位的復雜傳感器(如眼動儀)來識別手勢,主要有運動感測(如 IMU)和聲音感測(如麥克風)兩個方向。
而 TeethTap 則采用運動感測與聲音感測相結合的硬件設備,來探索面部手勢識別的可能性。
TeethTap 主要由兩個接觸式麥克風(BU-30179-000)和兩個慣性測量單元(IMU)組成。看外形有點像造型奇怪,設備繁多的運動耳機。
自然彎曲的 PLA 燈絲將 IMU 傳感器壓在耳朵下方的下頜骨處,并將麥克風固定到耳后的顳骨上,而麥克風則連接到可以放大和過濾聲音信號的定制 PCB 板上。
在運動時,來自麥克風(聲傳感器)的濾波數據和來自 IMU 的陀螺儀數據,分別通過板載 12 位的 ADC 和 I2C 通信發送到微控制器(HUZZAH32)。
最后,HUZZAH32 將數據發送到計算機以使用 WiFi 進行處理。
從去躁到識別
那么上述的數據分析及傳輸算法具體是怎么實現的呢?
流程圖是這樣:
首先從連續數據流中劃分一個以 2s 為單位的滑動窗口,隨著數據不斷流入流出,滑動窗口也進行 20 次 /s 的移動。
當檢查到音頻數據出現足夠的尖峰時,再檢查陀螺儀的 y 軸絕對最大值是否超過預定的能量閾值,以此來判定是否有動作發生。
而對于咀嚼或說話等可行為能產生的噪聲干擾,研究人員也實現了帶有線性核的 SVM 模型分類器,對接收數據里的噪聲段和動作段進行了區分。
在對數據進行分割并過濾掉噪聲之后,再使用 K 近鄰算法(k = 1)對手勢進行分類。
再使用 DTW 距離函數在每次迭代中輸出一個值,最終將具有最小距離值的手勢確定為預測動作。
團隊介紹
SciFi 是位于康奈爾大學計算機與信息科學系的跨學科實驗室。
目前已在活動識別,健康感測和自然用戶界面等多個領域上進行了新應用的開發。
而對于現在的這款 TeethTap,作者也坦然承認只是概念性的展示,所以不管是在外表美觀程度還是功能性上都還有所欠缺。
而未來的整體思路是以足夠小的電子元件,將整個系統集成在耳機、聽筒,甚至是一副眼鏡框架上。
等等?