6月7日17點(diǎn),2017年第一日高考結(jié)束,數(shù)學(xué)學(xué)科停筆交卷的鈴聲劃破長(zhǎng)空。
北京第八十中學(xué)望京校區(qū)人潮涌動(dòng),結(jié)束數(shù)學(xué)廝殺的考生正陸續(xù)走出考場(chǎng),有歡有悲,神色各異。
也在此時(shí),相隔5公里外的麗都皇冠假日酒店,另一場(chǎng)同樣試題的考試已經(jīng)展開,名為Aidam的人工智能程序,據(jù)稱在200技術(shù)工程師、經(jīng)歷3年研發(fā)、吃下50萬道考題后,開始正式嘗試2017年新課標(biāo)文科數(shù)學(xué)卷。
為了對(duì)照,主辦方教育科技公司學(xué)霸君,還邀請(qǐng)了去年6位各省高考狀元,兩兩組隊(duì)組合作為人族代表——又是一場(chǎng)人機(jī)大戰(zhàn)吶。
同一時(shí)間,相隔千里之外的四川省成都市高新區(qū),另一場(chǎng)機(jī)器答題的活動(dòng)也已經(jīng)開始。
比起Aidam,這家名為準(zhǔn)星云學(xué)科技的成都公司取名更為直接:AI-MATHS,據(jù)說已經(jīng)是一位平均分達(dá)90的數(shù)學(xué)答題機(jī)手。
唯一不同的是,兩場(chǎng)千里相隔的“機(jī)器高考”,學(xué)霸君讓Aidam選擇了聯(lián)網(wǎng),準(zhǔn)星云學(xué)讓AI-MATHS選擇了單機(jī)。
人工智能太熱鬧,但凡掏出來搞個(gè)“人機(jī)大戰(zhàn)”,或許都能搞個(gè)大事情。
就在一周前,人類最頂尖的圍棋選手柯潔九段在烏鎮(zhèn)被AlphaGo完敗,所有吃瓜群眾都在問:下一個(gè)被完全擊敗的智力領(lǐng)域,在哪里?
全民關(guān)注的高考,成為了學(xué)霸君、成都準(zhǔn)星云學(xué)瞄準(zhǔn)的熱點(diǎn)。當(dāng)然,他們還不是全部。
中國(guó)范圍內(nèi),還有更為知名的玩家科大訊飛,這家總部位于合肥的AI公司,之前最為著名的口號(hào)是2020年讓AI考上一本。
而且從現(xiàn)在研發(fā)的進(jìn)展來說,科大訊飛研發(fā)的將是一個(gè)“高考文科AI”,他們將進(jìn)行語文、數(shù)學(xué)、地理和歷史等四門學(xué)科的集中研發(fā)。
更早之前,訊飛還通過論文發(fā)表的形式對(duì)外公布,聯(lián)合哈工大進(jìn)行的英語完形填空和閱讀理解有不錯(cuò)進(jìn)展,準(zhǔn)確率達(dá)70%以上。
值得注意的是,這些高考AI的進(jìn)展背后,雖有商業(yè)目的的熱點(diǎn)行為,但更關(guān)鍵的是,這也是一次“國(guó)家計(jì)劃”。
時(shí)間回到兩年前。
2015年7月21日,全名為“基于大數(shù)據(jù)的類人智能關(guān)鍵技術(shù)與系統(tǒng)”(簡(jiǎn)稱“類人智能”)的國(guó)家863計(jì)劃項(xiàng)目正式啟動(dòng)。
項(xiàng)目以科大訊飛為牽頭單位,聯(lián)合清華大學(xué)、中科院自動(dòng)化所、北京大學(xué)、北京理工大學(xué)等超過30家科研院校和企業(yè)共同負(fù)責(zé)項(xiàng)目的研發(fā)與實(shí)施,主要針對(duì)大數(shù)據(jù)所帶來的新的技術(shù)與挑戰(zhàn),研究相關(guān)類腦計(jì)算關(guān)鍵技術(shù)和類人答題系統(tǒng),希望通過這個(gè)項(xiàng)目的實(shí)施,研制出能夠參加高考并考取大學(xué)的智能機(jī)器人。
明確來說,“高考機(jī)器人”是國(guó)家863計(jì)劃“類人智能”的重要研究目標(biāo)之一。
而在技術(shù)目標(biāo)上,這個(gè)國(guó)家計(jì)劃希望能夠在可預(yù)見的將來,通過強(qiáng)化學(xué)習(xí)能力,“高考機(jī)器人”不僅可以儲(chǔ)存知識(shí)和高考題型,還將具有邏輯推理能力。
此外通過建立模型和算法,可以讓機(jī)器在大數(shù)據(jù)中找到數(shù)據(jù)之間的關(guān)系和差異,讓這個(gè)模型的結(jié)果和人的表現(xiàn)很接近,甚至在最終結(jié)果上超過人的表現(xiàn)。
實(shí)際上,量子位還獲悉,科大訊飛在該計(jì)劃中主攻語文、數(shù)學(xué)、歷史和地理四門學(xué)科,而本次在成都開考的“AI-MATHS”也是計(jì)劃組成員,只是專攻數(shù)學(xué)而已。
高考AI背后的技術(shù)
不過,或許更加直接的問題是,通過讓機(jī)器參加高考,到底可以解決哪些方面的AI問題?又會(huì)遭遇哪些技術(shù)挑戰(zhàn)?
量子位得到了科大訊飛輪值總裁吳曉如的回答,他說,人工智能本身就是對(duì)人類智能的一種模擬、擴(kuò)展和延伸,所以拿它去參加測(cè)試,也就是要看看機(jī)器能達(dá)到一個(gè)什么樣的人工智能水平。
并且在具體攻關(guān)中,讓機(jī)器高考,還具體包括了題目理解、知識(shí)表現(xiàn)、邏輯推理等,涉及怎樣用人機(jī)互助的方式獲得知識(shí),還有在符號(hào)邏輯方面,讓機(jī)器來學(xué)會(huì)表達(dá)。比如作文、閱讀理解,就既需要讀懂文章、去理解題目的意思,同時(shí)還需要去理解相應(yīng)的常識(shí)。
△ 學(xué)霸君首席科學(xué)家談考試機(jī)器人原理
那背后的具體人工智能如何發(fā)揮技術(shù)之力?
學(xué)霸君方面給出的答案是:深度學(xué)習(xí)、專家系統(tǒng)和自然語言理解為核心的復(fù)雜系統(tǒng)。
首先是基于深度神經(jīng)網(wǎng)絡(luò)的句法和語義分析器,實(shí)現(xiàn)在大數(shù)據(jù)——海量題庫中不斷強(qiáng)化和擴(kuò)充訓(xùn)練集。
其次是構(gòu)建模擬器,用來模擬人類世界中的知識(shí)圖譜和常識(shí)。對(duì)于學(xué)霸君來說,具體就是利用K12中數(shù)學(xué)應(yīng)用題數(shù)據(jù),讓機(jī)器模擬“習(xí)”得知識(shí)圖譜和常識(shí),逐步提升其對(duì)于真實(shí)世界的接近程度。
第三是為解題準(zhǔn)備的精準(zhǔn)推理算法,主要是基于人工智能的專家系統(tǒng)。在該方面,學(xué)霸君的做法是利用資深老師和工程師在7000萬題目之上構(gòu)建了推理引擎和龐雜的知識(shí)元——還稱這是機(jī)器在所有的解題路徑中探索出的最簡(jiǎn)明的一種。
最終,直接展現(xiàn)上來說,就是要模仿人腦的感知、記憶、認(rèn)知、分析、建立經(jīng)驗(yàn)知識(shí)庫、聯(lián)想、判斷、決策整個(gè)過程,可以挑戰(zhàn)中學(xué)框架范圍內(nèi)的所有題目,就是找到數(shù)千萬人類學(xué)霸的解體經(jīng)驗(yàn)——如同AlphaGo在學(xué)習(xí)人類棋譜后成為圍棋高手。
不過,這其中最大的挑戰(zhàn)來自形式化語言是自動(dòng)解題,這對(duì)于機(jī)器是挑戰(zhàn)極大,關(guān)鍵在于“簡(jiǎn)明完備”。尤其是涉及到概率等應(yīng)用題,挑戰(zhàn)又上升了幾個(gè)數(shù)量級(jí),在知識(shí)圖譜基礎(chǔ)上,需要探索出一種兼容句法和語義轉(zhuǎn)化的表示方法,能夠支持代數(shù)、幾何、概率題等。
微軟亞洲研究院還非常具體地解釋過機(jī)器在考數(shù)學(xué)方面會(huì)遭遇的挑戰(zhàn):
首先涉及自然語言理解。一方面,對(duì)于一道題目的文字描述,計(jì)算機(jī)需要知道并理解其中包含的概念,對(duì)于人類很簡(jiǎn)單的概念,對(duì)機(jī)器卻需要自然語言理解方面的“造詣”。
舉例來說,“一加一等于幾”以及“小明有一個(gè)蘋果和一個(gè)梨,問小明有幾個(gè)水果”,同樣本質(zhì)是“1+1=?”的兩道題,在題型概念上是一樣的,表達(dá)方式卻截然不同。計(jì)算機(jī)需要知道如何把以上兩道問題都抽象成兩個(gè)對(duì)象相加。
另一方面,機(jī)器抽取題目中各個(gè)概念變量的關(guān)系也十分具有難度。其次,在一定程度上理解文字之后,數(shù)學(xué)解題需要通過邏輯推理生成解題公式。最后,計(jì)算機(jī)需要具有一定有關(guān)現(xiàn)實(shí)世界的常識(shí)去理解自然語言里面一些隱式的指代。
他山之石:AI2
讓人工智能考試這件事,并不只有中國(guó)人在研究。
位于美國(guó)西雅圖的艾倫人工智能研究所(AI2)成立于2014年,創(chuàng)辦者是微軟的聯(lián)合創(chuàng)始人保羅·艾倫,CEO是知名的人工智能專家Oren Etzioni博士。
目前AI2主要進(jìn)行四個(gè)項(xiàng)目研究。
Aristo(亞里士多):這是一個(gè)結(jié)合了機(jī)器閱讀和NLP、文字蘊(yùn)含和推論、不確定推理、大型語料庫的統(tǒng)計(jì)技術(shù)、圖表理解等多項(xiàng)人工智能技術(shù),開發(fā)而成的第一個(gè)有關(guān)科學(xué)的“知識(shí)機(jī)器”。
Semantic Scholar(語義學(xué)者):基于NLP、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺等技術(shù),構(gòu)建而成的搜索引擎,能幫助科學(xué)家更有效的發(fā)現(xiàn)和回顧研究論文。
Plato(柏拉圖):聚焦于從圖像和視頻中提取視覺知識(shí),用以豐富傳統(tǒng)上基于文本資源形成的知識(shí)庫。
Euclid(歐幾里得):這個(gè)系統(tǒng)試圖在標(biāo)準(zhǔn)化測(cè)試(如SAT)中,回答數(shù)學(xué)、幾何方面的問題。幾何問題需要文本和圖表能力的創(chuàng)新及組合。
這其中,Aristo和Euclid跟高考AI有點(diǎn)像,舉例說明。
比方你問Aristo:一年的哪個(gè)季節(jié),兔子的毛皮最厚?
A.秋季 B.春季 C.夏季 D.冬季
Aristo回答:D。如果你查看詳情,Aristo會(huì)進(jìn)一步解釋說,回答的依據(jù)來自Barrons四年級(jí)學(xué)習(xí)指南,指南里提到熊的毛皮在冬天最為厚實(shí)。所以Aristo推斷兔子也一樣,這個(gè)回答的置信度是60.14%。
如果你問Euclid:如果從-5到x的連續(xù)整數(shù)和是13,那么x等于幾?
Euclid回答:7。它對(duì)這個(gè)題目的拆解思考如下圖所示。
之前獨(dú)家采訪圖靈獎(jiǎng)得主Raj Reddy時(shí),這位人工智能先驅(qū)曾經(jīng)對(duì)量子位談起AI2的研究,因?yàn)镋tzioni是他的學(xué)生之一。
Reddy說AI2用了生物學(xué)AP(美國(guó)大學(xué)預(yù)修課程)教材,構(gòu)建了一套知識(shí)系統(tǒng),準(zhǔn)備讓電腦通過AP考試。花了好多時(shí)間,還有好多錢,最后發(fā)現(xiàn)行不通。
“在我看來,這個(gè)方法根本就是錯(cuò)的。在搞AP生物知識(shí)之前,應(yīng)該先搞明白高中生物;搞中學(xué)生物之前,應(yīng)該先搞明白小學(xué)科學(xué)。Oren去了之后就是這么做的,他們先研究中學(xué)的生物課程,現(xiàn)在已經(jīng)能回答60%的問題。”Reddy說。
關(guān)于Reddy這次采訪,這里是傳送門:《對(duì)話圖靈獎(jiǎng)得主Raj Reddy》。
爭(zhēng)議:一場(chǎng)炒作?
不過,要做高考答題方面的AlphaGo,聽起來簡(jiǎn)單做起來難,不少?gòu)臉I(yè)者覺得當(dāng)前技術(shù)達(dá)不到。
同樣在研發(fā)“高考機(jī)器人”的科大訊飛就表示,對(duì)于目前的展示方式的權(quán)威性有疑惑,因?yàn)榫涂拼笥嶏w牽頭的863課題來說,人工智能能力通過高考去實(shí)現(xiàn),是有硬指標(biāo)的。
按照科研的通常做法,以及科技部的要求,需要按照一種完全沒有任何疑義和漏洞的測(cè)試方法進(jìn)行,即這個(gè)測(cè)試要在完全斷網(wǎng)的狀態(tài)下進(jìn)行。
其次,要確保在測(cè)試之前機(jī)器是沒有辦法獲取任何題目相關(guān)內(nèi)容,也就是說需要“同步”進(jìn)行,而不是考試試題已然公開的情況下。
第三,在整個(gè)處理過程中,要有完全可監(jiān)督的第三方,符合公正性。
并且在實(shí)際操作中,還必須把整個(gè)測(cè)試過程的日志,即機(jī)器上所輸出的、詳細(xì)的中間處理過程全部要輸出來,以便來確認(rèn),這是一個(gè)完全由機(jī)器自動(dòng)、一步一步求解過來的過程。
質(zhì)疑不只限于操作方式。
相對(duì)其他學(xué)科,機(jī)器考高考數(shù)學(xué)要“相對(duì)”容易一些。一方面,數(shù)學(xué)更多的是依據(jù)符號(hào)邏輯,數(shù)學(xué)題目的語言理解相對(duì)比較容易,因?yàn)橄鄬?duì)而言都是一些比較標(biāo)準(zhǔn)化、結(jié)構(gòu)化的描述語言或出題語言,所以機(jī)器較好理解。
另一方面,數(shù)學(xué)中很少有“一千個(gè)讀者有一千個(gè)哈姆雷特”的現(xiàn)象,很多定理、公理和自動(dòng)證明等,在幾十年前就已經(jīng)有了一系列研究成功,所以目前數(shù)學(xué)方面的進(jìn)展還算不錯(cuò)。
但是,最大的難點(diǎn)在于“應(yīng)用題”,因?yàn)樯婕暗匠WR(shí)理解,目前還有較為明顯的短板。
科大訊飛方面還解釋稱,同屬863計(jì)劃中“高考機(jī)器人”研發(fā)的“AI-MATHS”,除了自身研發(fā)能力,也和電子科技大學(xué)數(shù)學(xué)攻關(guān)組保持對(duì)接,目前機(jī)器解答數(shù)學(xué)應(yīng)用題方面,因?yàn)樯婕俺WR(shí)理解的問題,仍是最大挑戰(zhàn)所在。
此外,創(chuàng)新工場(chǎng)人工智能工程院副院長(zhǎng)王詠剛,也認(rèn)為目前的技術(shù)遠(yuǎn)未達(dá)到可以應(yīng)對(duì)高考試卷中各類試題的水平。
這位前Google工程師表示,“高考機(jī)器人”需要將機(jī)器視覺、自然語言處理、知識(shí)圖譜、機(jī)器推理、機(jī)器閱讀理解等AI方法綜合起來,可以部分解決少數(shù)類型的文科、理科試卷中的試題,但要說能夠應(yīng)對(duì)各類試題,甚至還要跟高考狀元等PK,并不現(xiàn)實(shí)。
甚至目前的技術(shù)水平,科研層面的檢驗(yàn)也沒有看到有所突破。
王詠剛介紹稱,在科研領(lǐng)域,一些單獨(dú)的計(jì)算機(jī)解題類任務(wù),比如閱讀理解,求解代數(shù)題,完形填空,知識(shí)問答等,目前都有相對(duì)客觀的測(cè)試標(biāo)準(zhǔn),相對(duì)完善的數(shù)據(jù)集,比較成熟的評(píng)估體系。
所以他認(rèn)為,如果這一類“高考機(jī)器人”采用的AI技術(shù)真的有科研突破層面的意義,那首先應(yīng)該做的不是參加高考,而是在權(quán)威期刊或權(quán)威會(huì)議上發(fā)表論文,接受同行評(píng)議。
對(duì)于類似項(xiàng)目對(duì)標(biāo)AlphaGo,王詠剛覺得應(yīng)該先發(fā)或者同時(shí)發(fā)布學(xué)術(shù)論文,通過科研同行評(píng)測(cè)認(rèn)可,不然會(huì)有商業(yè)炒作嫌疑。
這位創(chuàng)新工場(chǎng)人工智能工程院副院長(zhǎng)還認(rèn)為即便“直播”也不能完全令人信服,比如現(xiàn)在因?yàn)楸C艿脑颍瑱C(jī)器是在高考結(jié)束后才開始答卷的,而且機(jī)器運(yùn)行時(shí)是否有網(wǎng)絡(luò)和物理層面的隔離,也難以證實(shí)。
最后,對(duì)于機(jī)器做出來的試卷如何評(píng)判,也需要有相關(guān)標(biāo)準(zhǔn)先定義。
當(dāng)然,也有人更加直接地表示,這樣的“高考機(jī)器人”商業(yè)炒作意義大于實(shí)際。
一位人工智能領(lǐng)域的知名CEO告訴量子位,不看好高考機(jī)器人,因?yàn)樽寵C(jī)器理解題目并不是一件容易的事兒,即便是可能相對(duì)有希望的數(shù)學(xué),在很多題型上讀題難解題更難。
新時(shí)代的圖靈測(cè)試
當(dāng)然,雖然吹得有點(diǎn)過,但現(xiàn)在的“機(jī)器人高考”也并非全無價(jià)值。
首先,最直觀方面肯定是客觀上加速了人工智能的民主化,可以讓更多人了解人工智能在教育領(lǐng)域的應(yīng)用和變革,對(duì)于更多機(jī)構(gòu)、學(xué)校、老師、家長(zhǎng)和學(xué)生,也能夠利用最新進(jìn)展,幫助提升應(yīng)試能力和效率。
△ 衡水中學(xué)學(xué)生曬練習(xí)題 如果借助AI可能不再會(huì)有這么多
比如使機(jī)器判卷、個(gè)性化指導(dǎo)、個(gè)性化作業(yè)、教案改進(jìn)等變成可能,老師的教學(xué)效率和學(xué)生的學(xué)習(xí)效果都可以得到大幅度提升,從孔子以來就開始追求的教育終極問題——因材施教,將不斷趨近現(xiàn)實(shí)。
其次,如牽頭參與“高考機(jī)器人”項(xiàng)目的科大訊飛所言,根本目標(biāo)不是為了這個(gè)高考,而是聚集科學(xué)家對(duì)一些人工智能問題進(jìn)行攻關(guān),產(chǎn)生一批成果,然后在更多領(lǐng)域,比如像機(jī)器翻譯這樣涉及語言理解的任務(wù)當(dāng)中,去應(yīng)用這些成果。
比如同樣的成果就能遷移應(yīng)用到客服系統(tǒng)中,以及車載人機(jī)交互系統(tǒng)里。類似的領(lǐng)域都需要讓機(jī)器預(yù)先對(duì)一些行業(yè)知識(shí)擁有理解,同時(shí)基于這個(gè)理解的結(jié)果,能夠做一些決策判斷、一些相關(guān)問題的回復(fù)。
當(dāng)然,訊飛方面還向量子位提供了一種此前鮮被提及的意義——圖靈測(cè)試。
訊飛研究院院長(zhǎng)胡國(guó)平介紹說,在傳統(tǒng)歷史上,大家比較多的是以通過“圖靈測(cè)試”的方式來進(jìn)行,讓一個(gè)機(jī)器和一個(gè)參加測(cè)試的人坐在一個(gè)外部不可見的空間里,然后測(cè)試人提出一些問題,由機(jī)器和被測(cè)試人分別來作答。
作答以后,如果這個(gè)提問的人分不清哪個(gè)答案是機(jī)器作答的、哪個(gè)是人作答的時(shí)候,我們就覺得這個(gè)機(jī)器通過了圖靈測(cè)試。
但是現(xiàn)在有了新情況,隨著后臺(tái)海量數(shù)據(jù)庫的增長(zhǎng),以及一些簡(jiǎn)單的規(guī)則和方法運(yùn)用,傳統(tǒng)的圖靈測(cè)試可能正在“過時(shí)”。
比如2014年6月,就有報(bào)道稱俄羅斯有一些人工智能的軟件已經(jīng)通過了圖靈測(cè)試,機(jī)器擁有了相當(dāng)于13歲少年的智力。另外,也有一些其他的人工智能軟件,也在現(xiàn)在數(shù)據(jù)和技術(shù)進(jìn)展中通過了圖靈測(cè)試。
所以圖靈測(cè)試之外,該用怎樣的標(biāo)準(zhǔn)衡量最新的人工智能發(fā)展水平?高考是不是有資格?
如果把高考看作衡量人的知識(shí)水平、理解能力、推理能力等相關(guān)智能能力水平的測(cè)試工具,那顯然借此衡量人工智能的能力,也可以接受。
更何況在“機(jī)器學(xué)習(xí)”大行其道的當(dāng)下,高考作為人類學(xué)校幾十年學(xué)習(xí)之后的選拔,也能對(duì)學(xué)習(xí)過程形成參照。
高考人機(jī)大戰(zhàn)結(jié)果
最終,從17點(diǎn)開始答題的人工智能Aidam,在聯(lián)網(wǎng)的基礎(chǔ)上,通過云計(jì)算,在400臺(tái)主服務(wù)器和1000臺(tái)輔助服務(wù)器支持下,耗時(shí)9分47秒交卷,選做題23題12分得0分,壓軸題得6分,選擇錯(cuò)2個(gè)丟10分,總得分134分。
另外兩兩合力的狀元也在1小時(shí)計(jì)時(shí)后全部交卷,最高分146,最低分119,還有一組得分140,三組平均得分135分,象征性贏得了“人機(jī)大戰(zhàn)”勝利。
另一場(chǎng)位于成都高新區(qū)進(jìn)行的比賽,準(zhǔn)星云學(xué)的AI-MATHS,斷網(wǎng)單機(jī),使用了11臺(tái)服務(wù)器,對(duì)2017年高考北京文科數(shù)學(xué)卷耗時(shí)22分鐘,得分105分,對(duì)2017年高考文科全國(guó)卷II用時(shí)10分鐘,得分100分。
來源: 量子位