谷歌AR工具Google Lens登陸全球Google Go市場,帶來更好的理解能力

VR/AR
2019
09/08
23:56
映維網
分享
評論

來源:映維網 作者 廣州客

谷歌在今年五月舉行的I/O大會宣布將視覺AR工具Lens納入至Google Go。但Google Go最初只支持Android Go設備,并且只登陸了特定市場的Google Play。然而,谷歌已于最近將這一工具帶到全球范圍內的Play Store。

在全世界范圍內,有數以百萬計的人是首次上網,而他們很多都是全球8億多名不具備讀寫能力的成年人中的一員,或者剛剛搬到陌生城市或城鎮的新居民。作為一款基于智能手機攝像頭的工具,Google Lens具備幫助所述人群的潛力。Lens主要利用了計算機視覺,機器學習和谷歌Knowledge Graph,并能夠將現實世界的所見之物放到視覺搜索欄,從而識別相關的對象,或者將現實世界的文本復制粘貼至智能手機。

谷歌指出:“為了幫助更多的人群,我們需要創建一個能夠支持更多基礎機型的版本。所以在2019 I/O大會中,我們發布了一款面向Google Go的Lens版本,支持基本的入門設備。我們同時納入了旨在幫助存在閱讀挑戰和其他語言挑戰的用戶的全新功能。”

谷歌在一篇博文中指出,為了支持所述的讀寫功能,Google Go版本的Lens需要在一系列的設備中捕獲高質量的文本,然后識別文本,理解其結構,翻譯并進行疊加,最后再誦讀出來。

1. 圖像捕獲

入門級設備的圖像捕獲相當具有挑戰性,因為你需要兼容一系列不同的設備,而它們大多數都不具備旗艦機的性能。為了構建一個能夠以最小延遲可靠捕獲高質量圖像的通用工具,谷歌將Google Go中的Lens變成了一個全新Android支持庫的早期采用者:CameraX。包含在Jetpack(一套針對Android開發者的庫,工具和指南)的CameraX是Android Camera2 API的抽象層,可解決設備兼容性問題,所以開發者無需編寫自己的設備專用代碼。

為了平衡捕獲延遲和性能影響,谷歌利用CameraX實現了兩種捕獲策略。對于高端手機,它們足以提供恒定的高分辨率幀,所以系統能夠瞬間完成捕獲。對于相對低端的設備,由于CPU性能有限,流式傳輸所述幀可能會導致攝像頭滯后,所以谷歌是在用戶點擊捕獲時處理幀,并生成單個按需高分辨率圖像。

2. 文本識別

當Google Go中的Lens捕獲圖像后,它需要理解相關的形狀,及構成單詞,句子和段落的字母。所以,圖像將按比例縮小并傳送到Lens服務器,然后執行處理。接下來,應用光學字符識別(Optical Character Recognition;OCR),后者利用Region Proposal Network來檢測可以合并成用于文本識別的行的字符級邊界框。

將字符框合并為單詞是一個分為兩步的順序過程。第一步是應用Hough Transform;第二步是利用Text Flow。無論是直的,彎的,還是兩者混合,這個過程將可以確保系統識別和處理具有各種分布的文本。

由于Google Go的Lens所捕獲的圖像可能包含標牌,手寫字符或文檔等來源,所以這可能會出現一系列的其他挑戰。例如,文本可以被遮擋,而圖像可以是模糊的。所有這些問題都可能導致OCR引擎誤解每個單詞中的各種字符。為了糾正錯誤并提高單詞準確性,Google Go中的Lens利用周圍單詞的情景進行更正。它同時利用Knowledge Graph提供情景線索,例如單詞是不是專有名詞,所以不應進行拼寫糾正。

從腳本檢測到方向識別,再到文本識別,所有這些步驟都是由單獨的卷積神經網絡和一個額外的量化LSTM網絡(Long Short-Term Memory)來執行。另外,從ReCaptcha到Google Books的掃描圖像。模型接受了各種來源的數據訓練。

3. 理解結構

一旦識別出單個單詞,Lens必須確定如何將它們組合在一起。人類在現實世界中遇到的文本以多種不同的方式展示。例如,一份報紙的文章包括標題,文章和廣告。同時,公交時刻表中一列是目的地,另一列則有時間。盡管理解文本結構對人類來說非常自然,但計算機則不然。Lens使用卷積神經網絡來檢測連貫的文本塊,如列,或文本的一致樣式或顏色。然后,在每個塊中,它利用文本對齊,語言和段落的幾何關系等信號來確定其最終閱讀順序。

檢測文檔結構的另一個挑戰是,我們會從不同的角度拍攝文本,并且通常是翹曲的視角。這意味著我們無法恢復依賴于現成的檢測器,而是必須普遍化系統,從而使其能夠處理單應性失真。

4. 情景翻譯

為了向用戶提供最有用的信息,翻譯必須精確且具有情景上下文。Lens利用了神經機器翻譯算法。另外,為了提高翻譯的效用,這需要在原始文本的情景上下文中進行。例如,當翻譯ATM的指令時,重要的是要知道哪些按鈕對應于哪些指令。

挑戰的一部分是,翻譯后的文本可能比原文短得多或長得多。例如,德語句子往往比英語句子長。為了實現這種無縫疊加,Lens將譯文重新分配到相似長度的行中,并選擇適當的字體大小進行匹配。它同時能夠匹配翻譯的顏色及其背景。Lens可以分類像素是表示背景還是文本,然后從這兩個區域中采樣平均顏色,從而確保翻譯文本與原始文本匹配。

5. 誦讀文本

Google Go的Lens的最后一個挑戰是大聲誦讀文本。系統利用谷歌的文本轉語音(TTS)技術來生成高保真音頻(一種應用機器學習來消除歧義的服務),并使用它來生成基于DeepMind WaveNet的真實語音。

當與屏幕配對時,它們將變得更具情景性和實用性。Lens利用來自TTS服務的定時注釋來標記每個單詞的開頭,從而在誦讀時突出顯示屏幕的每個單詞,就類似于卡拉OK機。例如,用戶可以捕獲不同按鈕有著不同標簽的ATM屏幕圖像。這種卡拉OK效果將允許用戶知道哪個標簽適用于哪個按鈕。它同時可以幫助用戶學習如何發音相關單詞。

6. 展望未來

谷歌表示:“我們希望這些功能可以對數百萬人的日常生活產生積極影響。展望未來,我們將繼續對這些閱讀功能進行更新,包括改進文本結構理解(例如多列文本)和識別印度語腳本。在我們解決這些文本挑戰時,我們繼續尋找集合機器學習和智能手機攝像頭的新方式,從而幫助改善人們的生活質量。”

原文鏈接:https://yivian.com/news/65980.html

THE END
廣告、內容合作請點擊這里 尋求合作
AR
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

Diana Hu是Niantic的工程總監和Augmented Reality Platform負責人,她曾幫助開發了諸如《Pokemon Go》,《Ingress》和《哈利波特:巫師聯盟》等AR游戲。
VR
iOS 13的內部版本包括一個名為“STARTester”的應用程序,可以切換頭戴式模式。
業界
現在看來,AltspaceVR將成為Oculus Quest用戶的下一個社交VR平臺選擇(實際上,用戶早就可以通過SideQuest安裝這款應用程序,但現在是官方正式登陸Oculus應用市場)。
VR
據悉,特種玻璃和微晶玻璃廠商肖特將于9月4日至7日參展中國深圳國際光電博覽會(CIOE)(9號館9E20展位),并展示應用于消費級AR/MR智能眼鏡的新款光波導晶圓RealView。
VR
帕金森病是一種可以損害運動和協調能力的疾病,全世界有1000多萬人受其影響。每年大約有6萬美國人被診斷出患有帕金森癥,到2020年,我們將看到將近100萬帕金森病患者。值得慶幸的是,現在有研究人員正在利...
VR

相關推薦

1
3
主站蜘蛛池模板: 久久亚洲国产伦理| 再灬再灬再灬深一点舒服| 91高端极品外围在线观看| 性欧美大战久久久久久久| 国产ssss在线观看极品| 2020国产精品自拍| 在线精品免费视频| 一区二区三区高清视频在线观看| 日本精品视频一区二区| 免费国产成人午夜电影| 天堂资源最新版在线官网| 把水管开水放b里是什么感觉| 亚洲av中文无码乱人伦在线观看 | 天天躁天天弄天天爱| 中文字幕影片免费在线观看| 日韩国产成人精品视频人| 亚洲国产日韩欧美综合久久| 深夜特黄a级毛片免费播放| 公和熄三级中字电影久久| 色噜噜视频影院| 国产内射999视频一区| 欧美a在线观看| 国产精品久久精品视| 91精品久久久久久久久网影视| 天天想你电视剧| 一个人免费观看日本www视频| 欧洲熟妇色xxxx欧美老妇多毛网站 | 老熟女高潮一区二区三区| 国产呻吟久久久久久久92| 欧美乱妇高清无乱码亚洲欧美| 国产美女精品人人做人人爽| av在线亚洲欧洲日产一区二区| 小尤奈私拍视频在线观看| 两性色午夜免费视频| 欧美人与性动交另类| 亚洲熟妇av一区二区三区宅男| 狠狠躁夜夜躁人人爽天天古典| 免费精品无码AV片在线观看| 精品日产一区二区三区| 国产日韩精品一区二区在线观看 | 天堂√在线官网|