6月7日17點,2017年第一日高考結束,數學學科停筆交卷的鈴聲劃破長空。
北京第八十中學望京校區人潮涌動,結束數學廝殺的考生正陸續走出考場,有歡有悲,神色各異。
也在此時,相隔5公里外的麗都皇冠假日酒店,另一場同樣試題的考試已經展開,名為Aidam的人工智能程序,據稱在200技術工程師、經歷3年研發、吃下50萬道考題后,開始正式嘗試2017年新課標文科數學卷。
為了對照,主辦方教育科技公司學霸君,還邀請了去年6位各省高考狀元,兩兩組隊組合作為人族代表——又是一場人機大戰吶。
同一時間,相隔千里之外的四川省成都市高新區,另一場機器答題的活動也已經開始。
比起Aidam,這家名為準星云學科技的成都公司取名更為直接:AI-MATHS,據說已經是一位平均分達90的數學答題機手。
唯一不同的是,兩場千里相隔的“機器高考”,學霸君讓Aidam選擇了聯網,準星云學讓AI-MATHS選擇了單機。
人工智能太熱鬧,但凡掏出來搞個“人機大戰”,或許都能搞個大事情。
就在一周前,人類最頂尖的圍棋選手柯潔九段在烏鎮被AlphaGo完敗,所有吃瓜群眾都在問:下一個被完全擊敗的智力領域,在哪里?
全民關注的高考,成為了學霸君、成都準星云學瞄準的熱點。當然,他們還不是全部。
中國范圍內,還有更為知名的玩家科大訊飛,這家總部位于合肥的AI公司,之前最為著名的口號是2020年讓AI考上一本。
而且從現在研發的進展來說,科大訊飛研發的將是一個“高考文科AI”,他們將進行語文、數學、地理和歷史等四門學科的集中研發。
更早之前,訊飛還通過論文發表的形式對外公布,聯合哈工大進行的英語完形填空和閱讀理解有不錯進展,準確率達70%以上。
值得注意的是,這些高考AI的進展背后,雖有商業目的的熱點行為,但更關鍵的是,這也是一次“國家計劃”。
時間回到兩年前。
2015年7月21日,全名為“基于大數據的類人智能關鍵技術與系統”(簡稱“類人智能”)的國家863計劃項目正式啟動。
項目以科大訊飛為牽頭單位,聯合清華大學、中科院自動化所、北京大學、北京理工大學等超過30家科研院校和企業共同負責項目的研發與實施,主要針對大數據所帶來的新的技術與挑戰,研究相關類腦計算關鍵技術和類人答題系統,希望通過這個項目的實施,研制出能夠參加高考并考取大學的智能機器人。
明確來說,“高考機器人”是國家863計劃“類人智能”的重要研究目標之一。
而在技術目標上,這個國家計劃希望能夠在可預見的將來,通過強化學習能力,“高考機器人”不僅可以儲存知識和高考題型,還將具有邏輯推理能力。
此外通過建立模型和算法,可以讓機器在大數據中找到數據之間的關系和差異,讓這個模型的結果和人的表現很接近,甚至在最終結果上超過人的表現。
實際上,量子位還獲悉,科大訊飛在該計劃中主攻語文、數學、歷史和地理四門學科,而本次在成都開考的“AI-MATHS”也是計劃組成員,只是專攻數學而已。
高考AI背后的技術
不過,或許更加直接的問題是,通過讓機器參加高考,到底可以解決哪些方面的AI問題?又會遭遇哪些技術挑戰?
量子位得到了科大訊飛輪值總裁吳曉如的回答,他說,人工智能本身就是對人類智能的一種模擬、擴展和延伸,所以拿它去參加測試,也就是要看看機器能達到一個什么樣的人工智能水平。
并且在具體攻關中,讓機器高考,還具體包括了題目理解、知識表現、邏輯推理等,涉及怎樣用人機互助的方式獲得知識,還有在符號邏輯方面,讓機器來學會表達。比如作文、閱讀理解,就既需要讀懂文章、去理解題目的意思,同時還需要去理解相應的常識。
△ 學霸君首席科學家談考試機器人原理
那背后的具體人工智能如何發揮技術之力?
學霸君方面給出的答案是:深度學習、專家系統和自然語言理解為核心的復雜系統。
首先是基于深度神經網絡的句法和語義分析器,實現在大數據——海量題庫中不斷強化和擴充訓練集。
其次是構建模擬器,用來模擬人類世界中的知識圖譜和常識。對于學霸君來說,具體就是利用K12中數學應用題數據,讓機器模擬“習”得知識圖譜和常識,逐步提升其對于真實世界的接近程度。
第三是為解題準備的精準推理算法,主要是基于人工智能的專家系統。在該方面,學霸君的做法是利用資深老師和工程師在7000萬題目之上構建了推理引擎和龐雜的知識元——還稱這是機器在所有的解題路徑中探索出的最簡明的一種。
最終,直接展現上來說,就是要模仿人腦的感知、記憶、認知、分析、建立經驗知識庫、聯想、判斷、決策整個過程,可以挑戰中學框架范圍內的所有題目,就是找到數千萬人類學霸的解體經驗——如同AlphaGo在學習人類棋譜后成為圍棋高手。
不過,這其中最大的挑戰來自形式化語言是自動解題,這對于機器是挑戰極大,關鍵在于“簡明完備”。尤其是涉及到概率等應用題,挑戰又上升了幾個數量級,在知識圖譜基礎上,需要探索出一種兼容句法和語義轉化的表示方法,能夠支持代數、幾何、概率題等。
微軟亞洲研究院還非常具體地解釋過機器在考數學方面會遭遇的挑戰:
首先涉及自然語言理解。一方面,對于一道題目的文字描述,計算機需要知道并理解其中包含的概念,對于人類很簡單的概念,對機器卻需要自然語言理解方面的“造詣”。
舉例來說,“一加一等于幾”以及“小明有一個蘋果和一個梨,問小明有幾個水果”,同樣本質是“1+1=?”的兩道題,在題型概念上是一樣的,表達方式卻截然不同。計算機需要知道如何把以上兩道問題都抽象成兩個對象相加。
另一方面,機器抽取題目中各個概念變量的關系也十分具有難度。其次,在一定程度上理解文字之后,數學解題需要通過邏輯推理生成解題公式。最后,計算機需要具有一定有關現實世界的常識去理解自然語言里面一些隱式的指代。
他山之石:AI2
讓人工智能考試這件事,并不只有中國人在研究。
位于美國西雅圖的艾倫人工智能研究所(AI2)成立于2014年,創辦者是微軟的聯合創始人保羅·艾倫,CEO是知名的人工智能專家Oren Etzioni博士。
目前AI2主要進行四個項目研究。
Aristo(亞里士多):這是一個結合了機器閱讀和NLP、文字蘊含和推論、不確定推理、大型語料庫的統計技術、圖表理解等多項人工智能技術,開發而成的第一個有關科學的“知識機器”。
Semantic Scholar(語義學者):基于NLP、數據挖掘、計算機視覺等技術,構建而成的搜索引擎,能幫助科學家更有效的發現和回顧研究論文。
Plato(柏拉圖):聚焦于從圖像和視頻中提取視覺知識,用以豐富傳統上基于文本資源形成的知識庫。
Euclid(歐幾里得):這個系統試圖在標準化測試(如SAT)中,回答數學、幾何方面的問題。幾何問題需要文本和圖表能力的創新及組合。
這其中,Aristo和Euclid跟高考AI有點像,舉例說明。
比方你問Aristo:一年的哪個季節,兔子的毛皮最厚?
A.秋季 B.春季 C.夏季 D.冬季
Aristo回答:D。如果你查看詳情,Aristo會進一步解釋說,回答的依據來自Barrons四年級學習指南,指南里提到熊的毛皮在冬天最為厚實。所以Aristo推斷兔子也一樣,這個回答的置信度是60.14%。
如果你問Euclid:如果從-5到x的連續整數和是13,那么x等于幾?
Euclid回答:7。它對這個題目的拆解思考如下圖所示。
之前獨家采訪圖靈獎得主Raj Reddy時,這位人工智能先驅曾經對量子位談起AI2的研究,因為Etzioni是他的學生之一。
Reddy說AI2用了生物學AP(美國大學預修課程)教材,構建了一套知識系統,準備讓電腦通過AP考試?;撕枚鄷r間,還有好多錢,最后發現行不通。
“在我看來,這個方法根本就是錯的。在搞AP生物知識之前,應該先搞明白高中生物;搞中學生物之前,應該先搞明白小學科學。Oren去了之后就是這么做的,他們先研究中學的生物課程,現在已經能回答60%的問題。”Reddy說。
關于Reddy這次采訪,這里是傳送門:《對話圖靈獎得主Raj Reddy》。
爭議:一場炒作?
不過,要做高考答題方面的AlphaGo,聽起來簡單做起來難,不少從業者覺得當前技術達不到。
同樣在研發“高考機器人”的科大訊飛就表示,對于目前的展示方式的權威性有疑惑,因為就科大訊飛牽頭的863課題來說,人工智能能力通過高考去實現,是有硬指標的。
按照科研的通常做法,以及科技部的要求,需要按照一種完全沒有任何疑義和漏洞的測試方法進行,即這個測試要在完全斷網的狀態下進行。
其次,要確保在測試之前機器是沒有辦法獲取任何題目相關內容,也就是說需要“同步”進行,而不是考試試題已然公開的情況下。
第三,在整個處理過程中,要有完全可監督的第三方,符合公正性。
并且在實際操作中,還必須把整個測試過程的日志,即機器上所輸出的、詳細的中間處理過程全部要輸出來,以便來確認,這是一個完全由機器自動、一步一步求解過來的過程。
質疑不只限于操作方式。
相對其他學科,機器考高考數學要“相對”容易一些。一方面,數學更多的是依據符號邏輯,數學題目的語言理解相對比較容易,因為相對而言都是一些比較標準化、結構化的描述語言或出題語言,所以機器較好理解。
另一方面,數學中很少有“一千個讀者有一千個哈姆雷特”的現象,很多定理、公理和自動證明等,在幾十年前就已經有了一系列研究成功,所以目前數學方面的進展還算不錯。
但是,最大的難點在于“應用題”,因為涉及到常識理解,目前還有較為明顯的短板。
科大訊飛方面還解釋稱,同屬863計劃中“高考機器人”研發的“AI-MATHS”,除了自身研發能力,也和電子科技大學數學攻關組保持對接,目前機器解答數學應用題方面,因為涉及常識理解的問題,仍是最大挑戰所在。
此外,創新工場人工智能工程院副院長王詠剛,也認為目前的技術遠未達到可以應對高考試卷中各類試題的水平。
這位前Google工程師表示,“高考機器人”需要將機器視覺、自然語言處理、知識圖譜、機器推理、機器閱讀理解等AI方法綜合起來,可以部分解決少數類型的文科、理科試卷中的試題,但要說能夠應對各類試題,甚至還要跟高考狀元等PK,并不現實。
甚至目前的技術水平,科研層面的檢驗也沒有看到有所突破。
王詠剛介紹稱,在科研領域,一些單獨的計算機解題類任務,比如閱讀理解,求解代數題,完形填空,知識問答等,目前都有相對客觀的測試標準,相對完善的數據集,比較成熟的評估體系。
所以他認為,如果這一類“高考機器人”采用的AI技術真的有科研突破層面的意義,那首先應該做的不是參加高考,而是在權威期刊或權威會議上發表論文,接受同行評議。
對于類似項目對標AlphaGo,王詠剛覺得應該先發或者同時發布學術論文,通過科研同行評測認可,不然會有商業炒作嫌疑。
這位創新工場人工智能工程院副院長還認為即便“直播”也不能完全令人信服,比如現在因為保密的原因,機器是在高考結束后才開始答卷的,而且機器運行時是否有網絡和物理層面的隔離,也難以證實。
最后,對于機器做出來的試卷如何評判,也需要有相關標準先定義。
當然,也有人更加直接地表示,這樣的“高考機器人”商業炒作意義大于實際。
一位人工智能領域的知名CEO告訴量子位,不看好高考機器人,因為讓機器理解題目并不是一件容易的事兒,即便是可能相對有希望的數學,在很多題型上讀題難解題更難。
新時代的圖靈測試
當然,雖然吹得有點過,但現在的“機器人高考”也并非全無價值。
首先,最直觀方面肯定是客觀上加速了人工智能的民主化,可以讓更多人了解人工智能在教育領域的應用和變革,對于更多機構、學校、老師、家長和學生,也能夠利用最新進展,幫助提升應試能力和效率。
△ 衡水中學學生曬練習題 如果借助AI可能不再會有這么多
比如使機器判卷、個性化指導、個性化作業、教案改進等變成可能,老師的教學效率和學生的學習效果都可以得到大幅度提升,從孔子以來就開始追求的教育終極問題——因材施教,將不斷趨近現實。
其次,如牽頭參與“高考機器人”項目的科大訊飛所言,根本目標不是為了這個高考,而是聚集科學家對一些人工智能問題進行攻關,產生一批成果,然后在更多領域,比如像機器翻譯這樣涉及語言理解的任務當中,去應用這些成果。
比如同樣的成果就能遷移應用到客服系統中,以及車載人機交互系統里。類似的領域都需要讓機器預先對一些行業知識擁有理解,同時基于這個理解的結果,能夠做一些決策判斷、一些相關問題的回復。
當然,訊飛方面還向量子位提供了一種此前鮮被提及的意義——圖靈測試。
訊飛研究院院長胡國平介紹說,在傳統歷史上,大家比較多的是以通過“圖靈測試”的方式來進行,讓一個機器和一個參加測試的人坐在一個外部不可見的空間里,然后測試人提出一些問題,由機器和被測試人分別來作答。
作答以后,如果這個提問的人分不清哪個答案是機器作答的、哪個是人作答的時候,我們就覺得這個機器通過了圖靈測試。
但是現在有了新情況,隨著后臺海量數據庫的增長,以及一些簡單的規則和方法運用,傳統的圖靈測試可能正在“過時”。
比如2014年6月,就有報道稱俄羅斯有一些人工智能的軟件已經通過了圖靈測試,機器擁有了相當于13歲少年的智力。另外,也有一些其他的人工智能軟件,也在現在數據和技術進展中通過了圖靈測試。
所以圖靈測試之外,該用怎樣的標準衡量最新的人工智能發展水平?高考是不是有資格?
如果把高考看作衡量人的知識水平、理解能力、推理能力等相關智能能力水平的測試工具,那顯然借此衡量人工智能的能力,也可以接受。
更何況在“機器學習”大行其道的當下,高考作為人類學校幾十年學習之后的選拔,也能對學習過程形成參照。
高考人機大戰結果
最終,從17點開始答題的人工智能Aidam,在聯網的基礎上,通過云計算,在400臺主服務器和1000臺輔助服務器支持下,耗時9分47秒交卷,選做題23題12分得0分,壓軸題得6分,選擇錯2個丟10分,總得分134分。
另外兩兩合力的狀元也在1小時計時后全部交卷,最高分146,最低分119,還有一組得分140,三組平均得分135分,象征性贏得了“人機大戰”勝利。
另一場位于成都高新區進行的比賽,準星云學的AI-MATHS,斷網單機,使用了11臺服務器,對2017年高考北京文科數學卷耗時22分鐘,得分105分,對2017年高考文科全國卷II用時10分鐘,得分100分。
來源: 量子位