機器之心報道
參與:張倩、蛋醬、Jamin
在 AI 攝像頭走進課堂后,偽裝認真聽課也是越來越難了。近日,港科大、哈工程的研究者開發(fā)了一種用 AI 攝像頭記錄、分析學生情感變化的系統(tǒng),不僅能知道學生什么時候開始走神,還能具體看到每個學生一整節(jié)課的「心路歷程」。
關(guān)于 AI 在課堂上所能完成的監(jiān)控工作,很多人已經(jīng)習以為常。
「一位教授在授課結(jié)束后查看他的電腦。借助一款軟件,他能看到這一整堂課中學生的情緒變化。在上課 30 分鐘之后,大部分學生已經(jīng)失去興趣并開始走神,這也大概是他講跑題的那個時間點。所以教授做了個記錄,提醒自己以后不要跑題。」
現(xiàn)實中的課堂大多還不是這個樣子,但隨著技術(shù)的發(fā)展,這樣的情景會越來越普遍。
近日,一篇有關(guān)課堂監(jiān)控技術(shù)的論文刊登在《IEEE Transactions on Visualization and Computer Graphics》上。在論文中,來自香港科技大學、哈爾濱工程大學等機構(gòu)的研究者提出了一種名為 EmotionCues 的系統(tǒng)。該系統(tǒng)主要關(guān)注如何記錄學生面部表情,并據(jù)此來分析學生在課堂上的情緒變化、注意力集中程度。
作者之一、香港科技大學計算機教授屈華民介紹說,這個系統(tǒng)「為教師提供了一種更快速、更方便去衡量學生在課堂上參與度的方法。」
這項研究的初衷是「善意」的:依靠該系統(tǒng)去監(jiān)控學生在課堂上的情緒反饋,判斷學生在什么時候開始感到無聊,什么時候注意力更加集中,以此來提醒老師該如何改善課堂內(nèi)容、提高授課質(zhì)量。
研究團隊在兩間教室里對提出的系統(tǒng)進行了測試,一間教室是香港科技大學的學生,代表高校學生群體;另一間教室是日本某所幼兒園,代表低齡學生群體。
測試發(fā)現(xiàn),這套視覺分析系統(tǒng)在檢測那些「明顯情緒」方面效果比較好,比如學習興趣較為強烈時的愉悅感。但系統(tǒng)對于「憤怒」或者「悲傷」等表情的解讀能力還是有所欠缺。學生們可能只是單純地專注于課堂內(nèi)容本身,僅僅因為深入思考而皺了一下眉頭,卻容易被系統(tǒng)解讀為「憤怒」。
系統(tǒng)的工作流程
下圖 2 展示了整個系統(tǒng)的工作流程,包括數(shù)據(jù)處理和視覺探索兩大階段。
圖 2。
數(shù)據(jù)處理過程
第一階段是處理一系列原始數(shù)據(jù)并利用計算機視覺算法提取出情感信息,包括面部檢測、面部識別、情感識別、特征抽取等步驟。
在面部檢測步驟中,研究者采用 MTCNN(多任務級聯(lián)卷積網(wǎng)絡,一種用于預測面部和 Landmark 位置的深度卷積網(wǎng)絡)去檢測每個樣本幀中的人臉。
在面部識別階段,面部對比的通常方法是對圖像進行矢量化操作。研究者采用了 facenet(一種在面部識別中較為完善的深度學習模型),它可以直接學習從面部圖像到緊致歐式空間的映射。
在情感識別階段,研究者出于直觀和可理解方面的考慮,選擇使用了分類模型。他們微調(diào)了一個 CNN 模型(ResNet-50),采用了 FER 2013 數(shù)據(jù)集。這一數(shù)據(jù)集一直廣泛用于面部表情識別。
考慮到情緒識別可能沒那么準確,研究者挑出了一些影響因素(如人臉大小、遮擋情況、圖像分辨率、照明情況等),并在系統(tǒng)中對它們進行了視覺編碼,以此判斷學生們的情感狀況。
這些影響因素可能在系統(tǒng)情緒分析中起到了比較關(guān)鍵的作用。比如離攝像頭比較遠的人,他的臉部在視頻中占據(jù)的面積比較小,就更容易被錯誤識別。除此之外,一個人的臉如果經(jīng)常被他人遮擋,也會有更高的系統(tǒng)誤判風險。研究者將這些因素整合到了系統(tǒng)分析流程之中,提供了更加豐富的交互功能來改進系統(tǒng)性能。
交互式的視覺系統(tǒng)
第二階段是根據(jù)五大要求(細節(jié)見論文)設計一個交互式的視覺系統(tǒng),該系統(tǒng)可以支持兩種粒度的課堂視頻視覺分析,包括學生的總體情感演變和某個學生單獨的情感演變過程。
研究者基于 Vue.js 前端框架和 Flask 后端框架實現(xiàn)了一個基于 web 的系統(tǒng),如下圖 3 所示。該系統(tǒng)包括三大視圖:摘要視圖(summary view,圖 3a-b);人物視圖(character view,圖 3c)和視頻視圖(video view,F(xiàn)ig. 3d)。
圖 3。
為老師提供學生情感變化的總體情況非常重要,因此研究者設計了一個摘要視圖,讓老師看到學生情感的靜態(tài)和動態(tài)演變數(shù)據(jù)。圖 3(a)顯示的是學生的情感檔案,用于展示學生的情感分布(靜態(tài)摘要);圖 3(b)顯示的是學生的情感變化曲線(動態(tài)摘要)。
人物視圖通過肖像類標志符號,將所選定目標人物的情緒狀態(tài)可視化地表現(xiàn)出來。不同情感肖像之間的差異使得用戶能夠識別和比較不同人物的特征。如下圖 5 所示,研究者在設計中采用了定制化的餅狀圖:
圖 5:情感變化的可視化圖示。
通過這種定制化的餅狀圖設計,用戶可以很容易地觀察到詳細的情感信息以及對其感興趣的影響因素。同時,屏幕快照功能使得不同人之間的情感信息比較變得更加容易。如果用戶希望查看詳細信息,可以單擊感興趣的快照進行查看。快照的示例位于人物視圖(圖 3c)的左側(cè)。
在系統(tǒng)中,研究者提供了原始視頻以供用戶在視頻視圖(圖 3d)中瀏覽。同時,用戶可以用不同速度播放視頻,當用戶將視頻暫停時,每一幀中對應的面部都會被高亮顯示。用戶還可以根據(jù)自己對情感流的觀察挑選出感興趣的部分進行進一步的探索和挖掘。
「改善」教學,還是「監(jiān)控」教學?
這項研究的初衷是幫助授課者收集學生反饋、提升教學質(zhì)量。但事實真能如其所愿嗎?
相比于依據(jù)視頻記錄去分析情緒,在國內(nèi)的課堂中,還有更夸張的「智能頭環(huán)」。
在浙江金華某小學的課堂之上,每一個座位上的學生都戴著一個狀如「金箍」的黑色頭環(huán),專注時亮紅燈,走神時亮藍燈,這個注意力分數(shù)每 10 分鐘發(fā)送一次到授課教師的電腦,并同步到家長微信群中,讓身在校外的家長隨時掌握孩子的上課狀態(tài)。
但這種頭環(huán),或者此類課堂監(jiān)控技術(shù),面對著非常多的質(zhì)疑。比如倫理問題:它暴露了學生在課堂中的個人情緒,讓教師能夠知道誰在課堂上專注或不專注。這涉及到學生的隱私問題。
另外,在一節(jié) 40 分鐘的課程中,學生的注意力本就不可能保持全程專注,持續(xù)性監(jiān)控學生的注意力并對任何注意力不專注的行為進行校正沒有意義。
還有一方面,這種監(jiān)控系統(tǒng)可能會分散教師和學生的注意力,因為身在其中的人會覺得有一雙眼睛「無時無刻不在盯著自己」。如果是頭戴金箍,這種情緒會變得更加明顯。這種被實時監(jiān)控的感覺會在一定程度上會影響課堂參與者自由發(fā)表意見。
參考鏈接:
https://spectrum.ieee.org/the-human-os/biomedical/devices/ai-tracks-emotions-in-the-classroom
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8948010
1 月 16 日,新一期 AAAI 2020 線上分享,我們邀請到了曠視研究院算法研究員萬昭祎,為我們介紹他們在論文中提出的高性能實時文字檢測算法和更魯棒的文字識別框架。