聽(tīng) 6 秒鐘語(yǔ)音,這個(gè) AI 就能知道你長(zhǎng)什么樣

人工智能
2019
06/09
23:29
愛(ài)范兒
分享
評(píng)論

聲音可以暴露很多信息,比如說(shuō),廣東人跟東北人講的普通話永遠(yuǎn)都不是一個(gè)味兒。

而麻省理工學(xué)院(MIT)最近一項(xiàng)研究發(fā)現(xiàn),經(jīng)過(guò)訓(xùn)練的 AI 不僅能從聲音里辨別出你的性別、年齡和種族,甚至能猜出你大概長(zhǎng)什么樣。這些「秘密」都藏不住了。

▲ 圖自《華爾街日?qǐng)?bào)》

研究人員用一個(gè)由數(shù)百萬(wàn) YouTube 視頻剪輯組成的數(shù)據(jù)集,對(duì)一個(gè)名為 Speech2Face 的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行自我訓(xùn)練,從最終結(jié)果來(lái)看,6 秒語(yǔ)音對(duì)人臉進(jìn)行還原的效果還算不錯(cuò)。

▲ 一共 6 組結(jié)果示例,左邊是視頻里的人像,右邊是 AI 根據(jù)聲音還原的效果

Speech2Face 模型的運(yùn)作大概分為兩部分,一個(gè)是語(yǔ)音編碼器,負(fù)責(zé)對(duì)輸入的語(yǔ)音進(jìn)行分析,預(yù)測(cè)出相關(guān)的面部特征;另一個(gè)則是面部解碼器,對(duì)輸入的面部特征進(jìn)行整合產(chǎn)生圖像。

MIT 研究團(tuán)隊(duì)指出,他們的目的不是為了準(zhǔn)確地還原說(shuō)話者的模樣,Speech2Face 模型主要是為了研究語(yǔ)音跟相貌之間的相關(guān)性。

從訓(xùn)練結(jié)果看,Speech2Face 能較好地識(shí)別出性別,對(duì)白種人和亞洲人也能較好地分辨出來(lái),另外對(duì) 30-40 歲和 70 歲的年齡段聲音命中率稍微高一些。

▲ Speech2Face 似乎傾向?qū)?30 歲以下的說(shuō)話者年齡猜大,將 40-70 歲的說(shuō)話者年齡猜小

除了比較基礎(chǔ)的性別、年齡和種族,Speech2Face 甚至能猜中一些面部特征,比如說(shuō)鼻子的結(jié)構(gòu)、嘴唇的厚度和形狀、咬合情況,以及大概的面部骨架。基本上輸入的語(yǔ)音時(shí)間越長(zhǎng),AI 的準(zhǔn)確度會(huì)越高。

當(dāng)然 AI 的「聽(tīng)覺(jué)」也會(huì)出錯(cuò)。研究人員發(fā)現(xiàn),它會(huì)將未經(jīng)歷變聲期的小男孩識(shí)別為女性,對(duì)一些說(shuō)話者的口音判斷錯(cuò)誤,也會(huì)搞混年紀(jì) …… 這一點(diǎn)完全可以理解,畢竟聲音還是會(huì)騙人的,夜夜伴你入睡的萌妹奶音主播,實(shí)際上說(shuō)不定就是個(gè)摳腳硬漢。

▲ Speech2Face 的一些錯(cuò)誤示例

研究人員指出,Speech2Face 的局限性,部分原因來(lái)自數(shù)據(jù)集里的說(shuō)話者本身種族多樣性不夠豐富,這也導(dǎo)致了它辨認(rèn)黑種人聲音的能力比較弱。

至于他們對(duì)這個(gè) AI 模型的應(yīng)用,則有一個(gè)很可愛(ài)的想象:只需要說(shuō)幾句話,未來(lái) Animoji 和 Gboard 等功能或許就能根據(jù)聲音生成你的卡通頭像。

▲ 圖自 Independent

不管你信或不信,藏在我們聲音的秘密都正被開發(fā)研究,投入各式各樣的場(chǎng)景應(yīng)用。

卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)副教授 Rita Singh 也主導(dǎo)過(guò)一項(xiàng)類似的研究,能從聲音猜測(cè)說(shuō)話者的年齡、身高、體重、環(huán)境噪音和說(shuō)話時(shí)的空間類型等信息。她認(rèn)為聲音里藏著豐富而獨(dú)特的信息,「就像是你的 DNA 或指紋」。

這項(xiàng)技術(shù)后來(lái)升級(jí)成跟 Speech2Face 相似的語(yǔ)音分析系統(tǒng),還原人臉的準(zhǔn)確度達(dá)到 60%-70%,目前正被美國(guó)海岸警衛(wèi)隊(duì)用于縮小調(diào)查范圍找到惡作劇報(bào)警者。據(jù)稱,他們每年會(huì)接到約 150 個(gè)惡作劇電話,這些行為被視作浪費(fèi)警力,甚至?xí)獾叫淌缕鹪V。

▲ 聽(tīng)起來(lái)就像是刑偵劇里的犯罪側(cè)寫師

目前,匯豐、渣打、摩根大通等銀行都在用「聲紋」作為身份識(shí)別的一種方式(voice ID),可以檢測(cè)你的賬戶是否被盜。

大都會(huì)人壽保險(xiǎn)公司的客服中心,會(huì)用一套 AI 系統(tǒng)幫忙識(shí)別客戶的情緒和感受,平均準(zhǔn)確率達(dá)到 82%;一些保險(xiǎn)公司甚至?xí)璐伺袛鄟?lái)電者有沒(méi)有騙保的意圖——如果說(shuō)話時(shí)出現(xiàn)微小停頓,很可能就是在提供虛假信息。

除此之外,經(jīng)過(guò)訓(xùn)練的 AI 還被一些公司用于招聘,從應(yīng)聘者的說(shuō)話模式分析出性格特征,判斷是否適合在招崗位。

而豐田汽車曾經(jīng)在 2017 年 CES 大會(huì)展出 Concept-i 概念車型,車內(nèi)配備紅外攝像頭、傳感器、車載語(yǔ)音識(shí)別和對(duì)話系統(tǒng),它們將協(xié)作判斷司機(jī)是不是處于疲勞駕駛狀態(tài)并作出提醒。

跟 MIT 的卡通頭像相比,Singh 教授的想法似乎要更長(zhǎng)遠(yuǎn)且宏大一些。她希望,有朝一日語(yǔ)音識(shí)別技術(shù)可以用于遠(yuǎn)程確診帕金森等疾病。

▲ 圖自 NewScientist

而目前已經(jīng)有研究發(fā)現(xiàn),冠狀動(dòng)脈疾病患者在聲音上會(huì)留有不同的頻率標(biāo)志。未來(lái),「聽(tīng)聲看病」說(shuō)不定也會(huì)跟「聽(tīng)聲識(shí)臉」一樣成真。

【來(lái)源:愛(ài)范兒】

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
ai
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

困難重重的AI“辯味”。
人工智能
今天凌晨,一年一度的蘋果WWDC 19全球開發(fā)者大會(huì)在美國(guó)圣何塞舉辦,蘋果更新了自家系統(tǒng)平臺(tái)macOS、iOS、watchOS、tvOS以及今年剛剛加入的iPadOS。
業(yè)界
5月27日消息,人工智能的飛速發(fā)展,能給傳媒帶來(lái)什么樣的發(fā)展機(jī)遇?
業(yè)界
今天,YC中國(guó)在中關(guān)村舉辦創(chuàng)業(yè)者見(jiàn)面會(huì),YC中國(guó)創(chuàng)始人及CEO、YC全球研究院院長(zhǎng)陸奇圍繞《技術(shù)驅(qū)動(dòng)創(chuàng)業(yè)帶來(lái)的創(chuàng)業(yè)機(jī)會(huì)》主題展開深度分享。
業(yè)界
北京時(shí)間今天凌晨,谷歌I/O開發(fā)者大會(huì)拉開序幕,谷歌推出Pixel 3A以及Pixel 3A XL兩款新機(jī)型以及Nest Hub Max控制中樞,還宣布了Android Q新系統(tǒng)和Assistant(谷歌助手)的最新進(jìn)展。
業(yè)界

相關(guān)推薦

1
3
主站蜘蛛池模板: 国产成人在线网址| 中文字幕亚洲欧美| 欧美理论片在线观看| 岛国免费在线观看| 久久精品视频亚洲| 欧美性猛交xxxx乱大交极品| 人人超碰人人爱超碰国产| 老司机美女一级毛片| 国语对白刺激做受xxxxx在线| 亚洲va中文字幕无码| 欧美黑人粗大xxxxbbbb| 国产乱子伦一区二区三区| 99精品在线播放| 成人免费草草视频| 久久久久免费精品国产| 波多野吉衣免费一区| 免费鲁丝片一级在线观看| 色yeye香蕉凹凸视频在线观看| 国产国语在线播放视频| 99视频在线看观免费| 怡红院免费的全部视频| 亚洲一级毛片在线观| 欧美野外多人交3| 国产网站麻豆精品视频| 国产精品欧美一区二区三区不卡 | 57pao一国产成永久免费| 天天看天天摸天天操| 一级做a爰片久久毛片图片| 欧美性猛交xxxx乱大交3| 亚洲黑人嫩小videos| 第272章推倒孕妇秦| 午夜国产大片免费观看| 好男人官网在线播放| 国产精品久久毛片| 6080午夜一级毛片免费看6080夜福利 | 亚洲乱码日产精品BD在线观看| 欧美日韩亚洲国产精品| 亚洲欧美视频网站| 波多野42部无码喷潮在线| 人人爽人人爽人人爽人人片av| 男人的天堂久久|