從諾基亞到iPhone X,手機在這些年產生了天翻地覆的變化。按鍵消失了、邊框消失了、連耳機孔都消失了,屏幕越來越大、攝像頭也越來越清晰……
不過人們很難感知到的一點變化是,通話中的噪聲變得越來越小了。在機場、火車站一類地方嘈雜的背景音中,清晰地聽到彼此的聲音并不是一件容易的事,麥克風會把環境音一起收集起來,接聽時會受到巨大的干擾。
為了解決這個問題,手機廠商做出了很大努力。目前主流的解決方案是雙麥克風,一個放在靠近嘴巴的地方收集人聲,一個放在頂端或背部收集環境音,再通過算法將人聲從背景音中剝離出來,傳送到手機的另一端。
但雙麥克風+算法真的是主動降噪最好的選擇嗎?
兩個麥克風,仍然解決不了一個老問題
顯然不是這樣的。
首先雙麥克風降噪本身就有一定的局限性,因為算法要在手機終端運行,所以規模不能太大,實現效果也相對有限。具體表現為,有時用戶不再說話時,靠近嘴部的麥克風收集的其實還是環境噪音,對于人聲剝離的計算會產生一種斷斷續續的狀況。而且當用戶使用藍牙耳機或有線耳機通話時,手機端的雙麥克風降噪算法往往又會失效。
同時雙麥克風在工業設計上也會造成很多阻礙。兩個麥克風會讓聲學音頻路徑的設計更加復雜,在ODM和OEM角度都會增加生產設計成本。尤其在如今手機越來越追求屏占比和輕巧的今天,元件自然是越少越好。
而且在一些使用場合中,用來收集人聲的麥克風不一定會被放在人們的嘴邊。例如在錄音,或者應用一些App上的對講機功能時,人習慣將手機放置在桌子上,或者拿在舉例嘴略遠地方。這時兩個麥克風很難接收到不同的聲音,讓算法起不到作用。
如果腦洞開的再大一點,未來我們的手機不一定還是如今的平板形狀。也許是能卷起來的曲面屏手機,也許是眼鏡形態,未來通話的交互方式,也不一定是將手機的一部分放在嘴邊收聲。
總之,這種雙麥克風降噪模式絕不是主動降噪最終的解決方案。
并不新鮮的DNN降噪,怎樣才能落實應用?
其實早在2015年,中國科技大學語音與語言信息處理國家工程實驗室就創作了關于通過深度神經網絡+單麥克風實現主動降噪的論文。具體實現方式是,建立含有噪聲+人聲和純凈人聲的數據集,以深度神經網絡為架構訓練出分離噪聲和人聲的“語音增強回歸”算法。
在初步試驗后,這種算法的結果還不錯。從訓練成本來看,即使用人工合成的數據,算法結果仍然表現優秀。也就是說算法的應用者不需要面對到現實世界收集數據,可能會侵犯隱私的難題。從應用上來說,這一算法的降噪能力并不比雙麥克模式差,甚至還能克服雙麥克風克服不不了的間斷噪聲問題,有時候人們在走路或跑動時接電話會形成偶爾出現的間斷噪聲,以往的雙麥克風模式很難捕捉到這種噪聲,但語音增強回歸算法就能將人聲從中剝離開來。
不過這種算法在這幾年間都沒有得到很好的應用,原因很簡單,深度神經網絡模型往往體量較大,很難實現在終端上運行,如果在云端運行,又難免會因為延遲狀況不能在實時通話中應用,要知道人類對于交談時延遲的忍耐最多只有200毫秒。可要是用在語音的后期處理上,好像也并沒有什么意義,只要換個收聲好一點的話筒就能解決問題,還能保證音質還原。
不過隨著這兩年以來終端算力的增長,以及對AI算法的不斷優化,在終端部署這類模型已經逐漸成為可能。例如一些藍牙耳機已經部署上了可以在本地運行的RNNoise算法,通過簡單的運算來分離單一收音來源的噪聲。
除了手機,AI降噪還有更廣闊的舞臺
這種本地AI降噪技術的應用舞臺,不僅僅在手機一種產品上。除了手機通話之外,我們其實無處不受通話噪音的干擾,尤其當語音交互應用的越來也多時,這些問題也越來越嚴重。
比如在游戲直播時,主播的聲音可能會被外放的游戲聲音干擾,必須高價購買專用聲卡和麥克風才能和粉絲暢快的溝通。又比如車載場景下的語音交互,又有可能被駕車時嘈雜的背景音和導航的聲音干擾,最后逼得一些車聯網方案將麥克風陣列裝置在了方向盤上。以及這幾年很流行的智能音箱,為了防止家庭環境中的噪音干擾,需要在麥克風陣列上增加很多成本,像是蘋果的HomePod就足足安裝了6個麥克風陣列……
但這一切都在被語音增強回歸算法和終端計算所改變。
就像最近,一家名為Krisp的創業企業集合了相關算法推出了一款應用于PC端的軟件,利用PC端本地算力來運行模型,降低PC端收音的噪音。不需要昂貴的聲卡和外置麥克風,和Skype等等軟件也不會產生沖突。同時Krisp還計劃推出針對于游戲的定制版本,專門應對游戲語音、游戲直播時被游戲背景音樂困難的問題。
目前這款軟件在英偉達的GPU、英特爾的CPU/GNA和ARM的芯片上都能運行,和高通的合作也在洽談之中。也就是說如今的PC版本只是開始,未來只要能應用這些芯片的終端,都可以應用上Krisp的軟件,實現在終端的實時主動噪音抑制。
算法路徑逐漸清晰,軟件市場會迎來下一個爆發期嗎?
因此Krisp也展示出了充分的市場前景,受到了資本的青睞,在首輪融資中就融到了150萬美元。Krisp的出現也帶出了一個問題:隨著終端算力的提升和小規模AI算法的發展,這種軟件替代硬件的模式是否會迎來上一個商業上的小爆發?
在終端功能的實現上,永遠都有算法和硬件兩條路。降噪可以用雙麥克風解決,也可以用AI算法解決;拍照效果可以用雙攝提升,也可以用單目攝像頭+算法來提升;電量不足可以增大電池容量,也可以用資源調度算法解決……
雖然以往我們都是通過硬件上的研發來解決,但這其中也存在不小的問題:硬件的頻繁更新會給廠商帶來巨大的生產和研發成本,這些成本轉嫁到消費者身上時,會導致高端和低端機型在硬件上差距太大,其實還會給開發者帶來負擔。而且現在硬件追求輕薄小巧,更加大了硬件創新的難度。
但今天我們有了用算法解決問題的條件,事情就會產生很多變化。
首先很多原本在貴價產品上才有的功能,會出現“平價替代”方案。例如此前iPhone X用3D結構光實現的Animoji,如今在快手一類的產品上也可以用AI算法實現類似功能。
同時算法的更新迭代比硬件更加敏捷高效,用戶體驗可以得到極大的提升。一些創新功能可以更快速的來到用戶面前并得到反饋。
最后,終端產品在研發成本和產品形態上都有了更廣闊的想象空間。尤其是未來5G應用后,算法模型也許也不再需要拘泥于終端算力,或許會徹底改變我們使用終端產品的方式。
如此看來,或許幾年之后軟件市場會迎來自移動應用之后的又一次發展機會,起跑線已經劃好,就待哨聲吹響了。
【來源:鈦媒體 作者:腦極體】