無需穿戴設備,“AI時空導游”安安“說走就走”,帶你“瞬移”旅游景點,目及之處皆是美景、遠觀近瞧隨心所欲,開啟身臨其境的沉浸式“云旅游”。根據不同場景,安安還能在甜美、端莊、酷辣造型中“無縫切換”,表情豐富、情感細膩、理解力強,是個很專業的AI導游。
這個AI能力“硬核”的虛擬導游,集成了“訊飛超腦2030計劃”的多模感知、多維表達、深度理解等多項前沿技術,給人機交互帶來全新的沉浸式體驗,真人和虛擬人可以非常自然地“穿越”不同場景對話,在安徽合肥體育中心就能現場體驗。
11月18日,2022科大訊飛全球1024開發者節正式啟幕,下午的發布會上,科大訊飛AI研究院副院長高建清以“AI新紀元,訊飛超腦2030”為主題,解密“訊飛超腦2030計劃”階段性技術突破,一大波“預演未來”的創新應用將走入生活,讓AI惠及每個人。
“無監督學習”新突破,“AI超腦”更懂知識
“支撐‘訊飛超腦2030計劃’的發展,有兩個關鍵算法亟待突破,無監督學習和知識推理。”高建清說,前者要實現實用化、場景化的預訓練技術,后者要構建基于知識檢索、決策以及融合的推理系統。
科大訊飛設計了基于無監督學習的預訓練框架,并創新使用了少量有監督數據進行優化,大幅提升訓練效率。
針對多模語音識別、情感識別等多模態任務,全新的預訓練框架對音頻、人臉等不同模態的輸入“一視同仁”,利用其中內容、表情及身份等信息的關聯性進行融合,可設計出不同的訓練目標。而少量有監督數據構建碼本,讓訓練機時下降八成,實現了實用化預訓練。 在無監督學習的預訓練算法框架下,訊飛開放了輕量化的中文語音、中英文多模態預訓練模型,高建清說,“預訓練模型支持語音識別、聲紋識別、情感識別、多模態語音識別等多個任務,參數量遠遠少于業界公開的模型,但效果卻達到了業界最優。”
在知識推理方面,以回答“面包在低溫下會馬上發霉嗎”為例,機器要理解“低溫變質慢”等常識,在引入海量知識的基礎上,要用預訓練模型進行知識重要性排序,也要融合知識與問題進行推理,才能與人暢聊“面包變質的二三事”。同時,提出了知識與問題融合的Across attention model,實現問題和知識之間的充分交互,從而實現更有效的知識推理。
此外,科大訊飛還探索將神經網絡與符號推理相結合,實現了推理過程的可解釋性。應用于小學平面幾何題上,這個推理系統讓AI答題的正確率從完全不可用,提升到了90%的水平,顯著優于傳統推理系統。
“唇形+語音”多模態感知,“喚醒”人機交互新模式
環境太吵、人聲太多,語音交互怎么辦?在“訊飛超腦2030計劃”中,科大訊飛用“唇形+語音”的多模態語音增強技術,喚醒智能語音交互新模式。
“機器想更自然地與人類進行交互,需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態發展到多模態,逐步擬人化。”高建清表示。
繼“語音識別在多人討論場景下效果做到70%”“多點噪聲干擾場景做到了可用”之后,今年,科大訊飛挑戰商場、醫院、地鐵等復雜場景,提出了全新的多模態語音增強與識別框架。結合視頻信息輸入,新技術可以利用人臉、唇形、語音等多模態信息的互補,將主說話人的干凈人聲從嘈雜背景環境中分離出來,顯著提升開放場景的識別效果。
一個典型的場景是,當你在嘈雜的環境中通話,旁邊其他人也在說話,搭載了多模感知技術的應用系統只“聽”到你的聲音,不受旁邊嘈雜音干擾,從而非常順利地完成溝通。
此外,科大訊飛還提出基于多元語義評價的“語音識別一體化”框架,在語音輸入過程中,通過“語義糾錯+語音識別”聯合優化來提升語音識別的可懂度。“這一方案,從用戶主觀理解度層面有了極大改善,是真正站在用戶體驗的角度優化系統的一種方法”,高建清表示,這個算法主要解決“語音識別準確率高,但用戶體驗不好”的現實問題。
多情感多風格語音合成,虛擬人有溫度有個性
如何讓機器的聲音媲美人類?這是AIGC領域需求量大、技術門檻高的難題。
高建清分享了科大訊飛在語音合成技術領域的新突破——多風格多情感合成系統SMART-TTS,語音合成從簡單的信息播報“變身”具備喜怒哀樂情感的語音助手。
“系統充分利用了文本和語音的‘無監督預訓練’,實現了從文本到聲學特征、再到語音的端到端建模。”高建清介紹,SMART-TTS系統可提供“高興、抱歉、撒嬌、嚴肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺”等11種情感,每種情感有20檔強弱度不同的調節能力;也能提供聲音的創造能力,如停頓、重音、語速等,可以根據自己喜好調節,真正實現了合成系統媲
美具備個性化特點的真人表達能力。
這是什么意思?現場播放的視頻展示了SMART-TTS的多風格多情感語音合成能力:當你漫步林蔭路,TA可以用字正腔圓的“播音腔”為你讀新聞;當你結束一天工作準備入睡,TA可以輕聲細語讀為你散文;當你驅車去公司上班,TA可以用你最喜歡的歌手聲音告訴你走哪條路不堵車;當你和家人一起觀看紀錄片,TA可以為紀錄片不同人物配音。人機交互表達自然、情感飽滿。目前,訊飛有聲APP和訊飛開放平臺都開放了SMART-TTS語音合成系統,開發者可以在訊飛有聲直接下載體驗,或在開放平臺進行調用。
同樣隸屬于AIGC范疇,在聲音和虛擬形象生成技術方面,科大訊飛實現了語義可控的聲音、形象生成,語義驅動的情感、動作表達。比如:你輸入“一頭長發”,系統智能生成溫柔大方的女性形象,聲音端莊又不失甜美;輸入“英俊瀟灑”,生成有一些商務范的男生形象,聲音略帶磁性。高建清透露,訊飛開放平臺將開放500個虛擬合成的聲音。
此外,訊飛還實現了語音語義驅動的動作合成,通過對語音節奏、韻律體會和語義理解,虛擬人可以隨時、流暢地切換動作,擁有更加自然的肢體語言。“與傳統動作庫相比,這套語義驅動的系統在動作擬人度及契合度方面,有明顯的效果提升。”高建清表示。
創新交互系統認知技術,AI對話“滔滔不絕”
想讓AI告訴你《獨行月球》這部電影講什么?沒問題!今年,科大訊飛在交互系統的認知關鍵技術取得突破性進展,今年以來,依托科大訊飛建設的認知智能國家重點實驗室相關團隊在認知智能技術突破方面奪得3項國際冠軍——在常識推理挑戰賽CommonsenseQA 2.0中刷新機器常識推理水平世界紀錄,在科學常識推理挑戰賽OpenBookQA中以準確率94.2%的絕對優勢奪冠,在常識推理挑戰賽QASC中以多模型準確率93.48%、單模型準確
率92.07%奪冠,后兩項比賽更是超越人類平均水平。
隨著核心源頭技術創新和系統性創新的持續突破,AI擁有更加“智慧”的語義理解和對話生成能力。“好的人機交互系統,在開放式的場景下要具備深度理解能力,并能了解交互對象從而發起主動的對話。”高建清說,圍繞認知智能技術,訊飛實現了于語義圖網絡的開放場景語義理解,基于事理圖譜的對話管理,基于知識學習的可控對話生成。
其中,面向開放世界的基于圖表示的深度語義理解體系,增加了關系預測模塊,形成信息豐富的語義完備的語義表示圖,并將要素和關系都進行具體化,可以更精準的理解用戶的意圖,從而更準確回答用戶問題,解決了AI對開放問題無能為力的痛點。目前,訊飛定義了1517個意圖、近2000個事件,“通過這個框架的提出,我們在深度語義理解技術上又邁進了一大步。”
基于知識學習的可控對話生成框架,包括知識學習、大規模對話生成兩個模塊,可根據對話上下文,從知識庫中檢索到對話涉及的相關知識,結合外部知識及對話內容,生成更可控、更合理的回復。根據評估,基于知識學習的對話生成,相對于通用對話生成,平均得分從2.8提升到3.7分。
AI與運動“碰撞”,機器狗能上樓爬坡
在AI科技館,四足機器狗“小黑”是妥妥的“流量”擔當,不僅能走路、跑步、上臺階、攀爬、穿越復雜地形,還能握手、作揖,運動能力超強。這只機器狗,是“訊飛超腦2030計劃”在運動智能方面的階段性成果。
近年來,世界各大科技公司積極投身機器狗研發浪潮,但受限于算法技術,現階段機器狗大部分仍處于“模仿動作”的初級仿生階段,只具備基礎的平地行走功能,在跨越臺階和爬坡場景下表現并不理想,為解決行業痛點,科大訊飛提出了基于多模態強化學習的運動控制算法。
“這一算法的重點是,通過無偏差信息輸入的評價網絡,指導帶噪信息輸入的動作網絡訓練,最終實現可預測目標關節位置和真實關節位置。”高建清介紹,得益于這些技術創新,訊飛機器狗在上樓、爬坡等方面的能力取得了顯著提升,草地、沙地、石子路、枕木、圓盤等復雜地形也無所畏懼。
技術“立地”專業領域,用AI解決社會剛需命題
會上,高建清還分享了“訊飛超腦2030計劃”的技術應用。
除了文章開頭提到的沉浸式虛擬導游外,訊飛基于多模態交互、以及醫療認知技術,研發了一套抑郁癥定量篩查系統。“可模擬心理醫生的問診思路進行交互設計,用戶通過與機器聊天的方式即可初步實現病情的定量評估,篩查效果達到91.2%,超過業界最好的水平。”
目前,這一系統已經在北京安定醫院等醫療機構進行了試點應用。“未來,基于定量篩查基礎能力,我們將研發抑郁癥篩查平臺,向更多的學校推廣,助力青少年的心理成長。”高建清表示。
作為“訊飛超腦2030計劃”的階段性成果,今年訊飛打造了多款專業虛擬人,分別用于客服、助理、招聘、財務、法務等行業的工作,他們都具有一個共同的特點——豐富的專業知識。通過深入學習行業知識,訊飛定制研發了多行業交互大腦,目前已為金融、電信、媒體等多行業提供專業虛擬人解決方案,為“數字經濟”服務。
“在‘訊飛超腦2030計劃’遠景目標的牽引下,我們的AI科技樹正不斷發展壯大,既有以基礎算法為代表的主干的發展,也有各技術體系的不斷拓展。未來,我們會繼續堅持以源頭創新引領技術突破,以產業目標牽引技術發展,用開放的生態促進行業繁榮,和大家一起用人工智能建設美好世界。”高建清說。