說起人工智能,大部分人不只是耳熟,更能一一列舉出身邊人工智能應用的例子:人臉識別,智能家電,語音識別。可如果問到什么是數據采集和標注,相信除了人工智能技術從業者外,了解這一領域的人真是寥寥無幾,但這阻擋不了數據采集標注在人工智能行業所扮演的關鍵作用,說數據采集標注是人工智能行業的發展基石,一點也不為過。
按照目前采用的主流技術模式,人工智能技術的關鍵在于能夠模進行深度學習,而深度學習的基礎,是以輸入為導向的數據算法——神經網絡,神經網絡結果的準確性則取決于接近于“無窮”量級的大數據。所以,進行大量精準的數據訓練,采集海量數據進行標注,是人工智能進行深度學習極其關鍵的一環。
業內人士介紹,大數據時代的科技分工更加細化,準確高效地對多種類型的數據進行采集、標注、篩選、分類,滿足客戶在機器識別領域進行科研、測試和產品開發等方面的不同需求,就能摒棄復雜的中間環節,大大提升人工智能深度學習的效率,這也成為人工智能時代最關鍵的一環。比如在數據標注方面,無論是人物表情標注、人臉多點標注、車輛標注、行進軌跡標注,還是特定符號標注、特殊場景標注、地圖位置標注,完美算法功能的實現完全取決于數據的精準標注。
那么,數據標注行業在整個人工智能領域處于什么樣的地位,未來又著怎樣的發展前景?龍貓數據的銷售總監謝林波和商務總監羅微波先生在接受媒體訪問時,對上述問題進行了專業的解答。
謝林波認為,數據采集標注和人工智能之間有著極強的協同增效關系,這個特點已經得到業界的足夠重視,幾乎是業內共識。如何將兩者之間的結界徹底打通?數據采集標注的質量是一個重要的紐帶和基石。人工智能本身不會識別物體,而要依靠海量的數據訓練。
以人臉識別技術為例,當人臉關鍵點被一一標注之后,計算機才能建立起對人臉的認知。而人臉關鍵點的數目并不固定,不同數目的背后連接的是不同的算法。數據標注就是把這些數據進行分類、甄別、標注,最終實現更為精準的識別。
謝林波表示,隨著人工智能產業的發展,數據采集樣本需求量越來越大、樣本分布越來越廣泛,標注要求越來越嚴格,這對于數據服務商——特別是龍貓數據這種全領域大型服務商,是一個很大的挑戰。依靠自主開發的智能采集標注平臺,龍貓把數據采集標注需求分發給平臺上百萬量級的眾包用戶,依靠他們閑暇的時間進行數據采集標注,可以快速搜集大量的數據樣本;數據標注有多重質量把關,保證了數據采集、標注、分類精確無誤。
之前說過,數據標注的質量會直接影響人工智能訓練的效果,龍貓的數據標注平臺有標注員培訓—標注員考核—標注—審核——抽審等多重環節,多重把關機制能夠確保最終產出高質量數據;對于復雜的數據需求,龍貓還會通過自己管理的線下團隊進行采集標注。
對于產業的未來發展,龍貓數據的商務總監羅微波表示,人工智能產業戰略地位不斷提升,無論從國家戰略層面還是行業本身來講,數據服務都是非常重要的一環,從目前的市場規模來看,數據服務行業處于高速增長期,發展潛力巨大,數據服務市場概念持續升溫,資本市場也非常關注。
謝林波表示,隨著數據服務行業市場的不斷成熟,公司業務也不斷拓展,服務能力不斷提升,龍貓數據目前仍在集中精力研發數據的開發采集和標注技術,打造高效穩定的團隊,下一步將持續規范人工智能數據服務市場,在目前合作的企業領域內拓展更多的跨行業客戶。
據介紹,龍貓數據目前在產品和服務的橫向發展和縱向延伸都做了升級,不僅開放了很多免費數據集服務社會,更創造性搭建出國內首個基于數據的人工智能綜合服務平臺,可以更大限度的滿足人工智能企業甚至是傳統行業企業日益增長的定制化數據需求。龍貓數據將持續踐行行業責任和使命,未來會進一步加大在人工智能數據質量和安全性方面的投入,爭取用最高的性價比,為更多客戶提供精準、安全、迅速的優質數據服務。
“用龍貓的專業,助推中國人工智能產業的騰飛。”謝林波信心滿滿地說。
【來源:搜狐科技】