來源:CSDN
作者 | DARTMOUTHCOLLEGE 責(zé)編 | 歐陽姝黎
第二次世界大戰(zhàn)期間,英國情報(bào)人員在一具尸體上放置了虛假文件,以愚弄納粹德國,誘使其對希臘發(fā)動(dòng)襲擊。這種代號 " 碎肉行動(dòng) "(Operation Mincemeat)的措施取得了成功,并掩蓋了盟軍入侵西西里島的意圖。
間諜活動(dòng)中的 " 金絲雀陷阱 " 技術(shù)通過傳播多種版本的假文件來隱藏秘密。金絲雀陷阱可以用來發(fā)掘泄露的信息,或者像第二次世界大戰(zhàn)期間發(fā)生的那樣,用制造分散注意力的消息來隱藏真正有價(jià)值的信息。
最近,達(dá)特茅斯學(xué)院計(jì)算機(jī)系設(shè)計(jì)了一個(gè)新型數(shù)據(jù)保護(hù)系統(tǒng) --WE-FORGE,便可以使用人工智能技術(shù)構(gòu)建金絲雀陷阱。
在知識產(chǎn)權(quán)犯罪活動(dòng)日益猖獗的今天,這一研究具有十足的現(xiàn)實(shí)意義:創(chuàng)新型公司對技術(shù)進(jìn)行了大量的投資,然而,往往一個(gè)小成本的網(wǎng)絡(luò)攻擊就可以使攻擊者竊取價(jià)值數(shù)以億計(jì)的新技術(shù)。
此前,F(xiàn)ORGE(Fake Online Repository Generation Engine)系統(tǒng)已經(jīng)被用于幫助解決這個(gè)問題,它可以自動(dòng)生成任何真實(shí)文件的 N 個(gè) " 假 " 版本,從而使攻擊者必須確定他們從被攻擊網(wǎng)絡(luò)中泄露的 N+1 個(gè)文件中哪一個(gè)是真實(shí)文件。但 FORGE 這個(gè)解決方案仍有兩個(gè)主要缺點(diǎn):
(1)FORGE 首先需要本體(ontologies)生成假文件;
(2)FORGE 需要通過以下方式生成假文件:識別原始文件中的 " 目標(biāo) " 概念,然后用 " 替代 " 概念來替代它們。
而本文提出的 WE-FORGE 系統(tǒng),基于 Word-Embedding 技術(shù),完全消除了對本體的需求,可以自動(dòng)制造虛假文件,來保護(hù)藥物設(shè)計(jì)和軍事技術(shù)等方面的知識產(chǎn)權(quán)。
論文題為 Using Word Embeddings to Deter Intellectual Property Theft through Automated Generation of Fake Documents,發(fā)表在 ACM Transactions on Management Information Systems 上。
根據(jù)論文,WE-FORGE 的主要幾大貢獻(xiàn)如下:
1、開發(fā)了一個(gè)融合詞嵌入和聚類的架構(gòu),以識別概念的潛在替代。
2、將選擇最佳概念替換和最佳替換的問題定為兩個(gè) Joint Concept Replacement 問題(JCR)。
3、為了確保生成的假文件集的多樣性,在 JCR 問題的目標(biāo)函數(shù)中加入了一個(gè)正則化項(xiàng)以確保這一點(diǎn)。
此外,WE-FORGE 算法確保隨機(jī)地選擇替代品,從而減少了攻擊者可以輕易地反向工程的機(jī)會。
達(dá)特茅斯學(xué)院網(wǎng)絡(luò)安全、技術(shù)和社會學(xué)領(lǐng)域杰出教授,安全、技術(shù)和社會學(xué)研究所主任 V.S.Subrahmanian 說:" 該系統(tǒng)生成的文件與原始文件非常相似,是具有可信度的,但又與原始文件有很大差異,實(shí)際上它們是錯(cuò)誤的。"
事實(shí)上,網(wǎng)絡(luò)安全專家已經(jīng)在使用 " 金絲雀陷阱 " 或 " 蜂蜜文件 " 以及外語翻譯技術(shù)來制造誘餌,以欺騙潛在的攻擊者。
但 WE-FORGE 進(jìn)一步改進(jìn)了這些技術(shù),使用自然語言處理自動(dòng)生成多個(gè)可信和不正確的假文件。該系統(tǒng)還添加了隨機(jī)性元素,以防攻擊者輕易識別出真正的文檔。
WE-FORGE 可以用來生成許多技術(shù)設(shè)計(jì)文件的偽造版本。當(dāng)攻擊者入侵一個(gè)系統(tǒng)時(shí),他們面臨的艱巨任務(wù)是找出眾多類似文檔中真實(shí)的那一個(gè)。
Subrahmanian 表示:" 我們使用這種技術(shù)迫使攻擊者浪費(fèi)時(shí)間和精力來識別正確的文檔。此外,他們對自己找到的結(jié)果也是存疑的。"
該系統(tǒng)創(chuàng)建虛假技術(shù)文檔的前景可期。
根據(jù)該團(tuán)隊(duì)的研究,一項(xiàng)專利可以包含超過 1000 個(gè)概念和多達(dá) 20 個(gè)可能的替代部分。WE-FORGE 最終可能會用來計(jì)算在單個(gè)技術(shù)文檔中可替換節(jié)點(diǎn)的數(shù)百萬種可能性。
Subrahmanian 表示:" 不法分子現(xiàn)在正在竊取知識產(chǎn)權(quán)并免受懲罰。這一系統(tǒng)增加了竊賊在竊取政府或行業(yè)機(jī)密時(shí)所需的成本。"
WE-FORGE 算法的工作原理是計(jì)算文檔中概念之間的相似性,并分析每個(gè)單詞與文檔的相關(guān)性。然后,系統(tǒng)將概念分類到堆棧中并為每個(gè)組計(jì)算可能的候選對象。
Guarini ’ 21 的 Dongkai Chen 表示:"WE-FORGE 也可以從原始文件的作者那里獲得輸入。人類和機(jī)器的聰明才智結(jié)合在一起,會讓知識產(chǎn)權(quán)竊取者付出更多代價(jià)。"
作為研究的一部分,該團(tuán)隊(duì)偽造了一系列計(jì)算機(jī)科學(xué)和化學(xué)專利,并邀請專家來判斷哪些文件是真實(shí)的。結(jié)果表明,WE-FORGE 系統(tǒng)能夠 " 為每個(gè)任務(wù)持續(xù)生成高度可信的虛假文件。"
與其他工具不同,WE-FORGE 不是簡單地隱藏信息而是專門偽造技術(shù)信息,比如密碼。WE-FORGE 改進(jìn)了系統(tǒng)的早期版本 FORGE,刪除了創(chuàng)建面向特定技術(shù)操作的耗時(shí)需求,還不確保了假消息之間有更豐富的多樣性,并遵循一種改進(jìn)的方法來選擇要替換的部分。
當(dāng)然,未來還有許多重要的研究方向。比如說,F(xiàn)ORGE 和 WE-FORGE 只修改文件的文本部分。但是一個(gè)文件可以包含不同類型的相互聯(lián)系的實(shí)體,如數(shù)字、流程圖和表格,仍需要確保文本的變化在這些類型的實(shí)體中得到一致的反映。
這將是該研究邁向更廣闊的應(yīng)用空間的下一步。