人工智能時代 基礎數據服務大有可為

人工智能
2019
09/20
00:08
人民郵電報
分享
評論

來源:人民郵電報

人工智能基礎數據服務指為AI算法訓練及優化提供的數據采集、清洗、信息抽取、標注等服務,以采集和標注為主。人工智能概念爆發伊始,算法、算力、數據就是重要的三要素;進入落地階段,智能交互、人臉識別、無人駕駛等應用成為最大的熱門,AI公司開始比拼技術與產業的結合能力,而數據作為AI算法的“燃料”,是實現這一能力的必要條件,因此,為機器學習算法訓練、優化提供數據采集、標注等服務的人工智能基礎數據服務成為這一人工智能熱潮中必不可少的一環。如果說計算機工程師是AI的老師,那基礎數據服務就是老師手中的教材。

近日,艾瑞咨詢發布了《2019年中國人工智能基礎數據服務行業白皮書》(以下簡稱《白皮書》),對中國人工智能基礎數據服務行業進行了深度分析。《白皮書》指出, 2018年中國人工智能基礎數據服務市場規模為25.86億元,預計2025年市場規模將突破110億元,人工智能基礎數據服務將持續釋放其對于人工智能的基礎支撐價值。

行業進入成長期

格局逐漸清晰

伴隨國內人工智能熱潮爆發,大量的AI公司融了資,為了不斷提高算法精度,數據采標需求也空前爆發,一度催生了行業的繁榮。但早期的AI基礎數據服務門檻較低,玩家魚龍混雜,使行業標準模糊、服務質量參差不齊。隨著競爭加劇,AI公司對訓練數據的質量要求也不斷提高,并且當產業落地成為主旋律,需求方對垂直場景的定制化數據采標需求成為主流時,眾多小型AI基礎數據服務公司從數據質量和采標能力上達不到要求而被淘汰,或依附大平臺,行業格局逐漸清晰,頭部公司實力逐漸凸顯。隨著算法需求越來越旺盛,目前機器輔助標注、人工主要標注的手段需要改進提升,增強數據處理平臺持續學習和自學習能力,增加機器能夠標注維度、提升機器處理數據的精度,由機器承擔主要標注工作將成為下一階段的行業重心。未來,越來越多的長尾、小概率事件所產生的數據需求增加,人機協作標注的模式性價比不高,機器模擬或機器生成數據是解決這一問題的良好途徑,及早研發相應技術也將成為AI基礎數據服務商未來的“護城河”。

從產品形式來看,目前,國內AI基礎數據服務主要為數據集產品和數據資源定制服務,數據集產品往往是AI基礎數據服務商根據自身積累產出的標準數據集,以語音數據集為主,主體偏普通話語音、英文語音、方言語音等;為保證算法優勢,客戶更多采用定制化服務,由客戶提出具體需求,數據服務商直接對客戶提供的數據進行標注,或對數據進行采集并標注。大型的需求方為保障數據的安全,往往提供Web形式的自有標注平臺給執行方,以此對整體項目進行把控,也有一些AI基礎數據服務商向客戶提供私有化平臺建設服務,或將自身平臺與甲方系統兼容;除以上兩種形式外,部分AI基礎數據服務商還向算法服務進行拓展,提供算法訓練、模型搭建等服務。

商業模式來看,生產、獲客、部署合力驅動發展。人工智能基礎數據服務行業是典型的To B型業務,商業模式較為穩定。在生產方面,主要通過自建標注基地或標注團隊、搭建眾包平臺、采購供應商外包服務(BPO)等模式實現生產運營,大多企業主要采取眾包與外包模式,百度數據眾包、倍賽等企業自建標注基地或全職標注團隊,對于培訓較高素質工作人員、完善團隊管理有積極意義;在獲客方面,主要通過口碑傳播、學術會議與展會及代理渠道等模式進入市場,對銷售人員熟悉市場趨勢、客戶需求的要求較高;在實施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應對客戶對數據安全、交付周期與成本的個性化需求。

市場規模不斷擴大

行業穩健發展

2018年中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定制服務占比為86.2%,數據集產品占比為12.9%,其他數據資源應用服務占比為0.9%;行業年復合增長率為23.5%,預計2025年市場規模將突破110億元。從整體增速來看,行業發展較為穩健,下游人工智能行業持續發力將形成長期利好。

從細分結構來看,2018年中國人工智能基礎數據服務市場以語音、視覺、NLP領域的標注服務為主,同時提供采集與標注服務占比較少,這是由于生數據由需求方提供的情況較多,但這并不意味著市場中數據采集需求弱,相反,人工智能技術落地后產生了大量新興垂直領域的數據需求,然而這些數據采集難度大,能夠提供相關采集工具和服務的供應商將獲取競爭優勢。市場供給方主要由企業自建或直接獲取外包團隊的形式以及供應商組成,又以供應商為行業主要支撐力量,占比為79%。

從市場格局來看,目前人工智能基礎數據服務行業CR5占26%的市場份額,行業集中度較為適中,既非寡占型市場也非充分競爭市場,這一方面是由于百度數據眾包、海天瑞聲、數據堂等企業進入市場較早,積累了較多客戶資源;另一方面則是由于下游企業之前多采用公開數據集訓練模型,對數據的高精度要求時間尚短,受生態傳導效應滯后影響,市場門檻還不顯著,資金與研發實力較為薄弱的中小企業還有較肥沃的發展土壤。然而未來,隨著下游企業發展壯大,直接使用外包團隊成本低廉、數據安全可控性強,一些基礎性需求將由下游企業自給自足,外部的數據服務商現有的存量市場面臨下降,因此必須承擔高難度、前沿獨特性任務,這就要求其自身投入高精度、專業化數據處理工具的研發和人工智能算法基礎研究,以把握客戶需求,開拓增量市場,因此資金與研發實力成為較高行業門檻,同時受近年資本市場冷卻影響,一批中小型廠商面臨業務收縮,再者部分廠商如倍賽開始在業內并購,參考海外數據服務市場發展情況(海外行業巨頭Appen多次并購其他企業),并購也將成為市場趨勢,在多種因素疊加的影響下,行業集中度將提升。

五大需求痛點

決定服務標準

目前需求方在選擇數據服務時往往會遇到數據安全、采標能力、數據質量、管理能力、服務能力等痛點。對于數據安全,需求方希望基礎數據服務商有明確具體的安全管理流程,對數據傳輸、存儲,以及結項后的數據銷毀等環節比較重視。在采標能力方面,需求方算法越來越貼近業務,希望數據服務商對于自動駕駛、工業等有一定門檻的領域有采集能力,并且能理解客戶意圖,配合標注,甚至可以提出標注建議;根據市場反應,大多數數據服務公司首次交付項目時,數據的準確率普遍偏低,都需要一到兩次的返工,故需求方對無效數據少、準確率高的公司更加青睞。對于執行效率,一般AI基礎數據服務商都能在項目周期內完成,但管理能力較弱的公司很難在兼顧多個項目時做到精力集中、高質量地服務客戶,同時執行團隊的素養與信譽也是重要影響因素。服務意識是一項軟實力,需要AI基礎數據服務商能夠積極配合、快速響應需求方要求。

單純依據客戶各個項目的訴求進行數據采集和標注屬于被動執行,主觀能動性低、行業邊界有限,各家公司的產品和服務趨于同質化、競爭呈膠著狀態,制約著AI基礎數據服務的發展。《白皮書》指出,通過對需求方的研究,發現除安全性、質量、效率等核心關注點之外,越來越多的需求方對數據服務公司產生了主動服務的需求。希望數據公司能夠更懂算法技術、更懂需求場景,甚至能參與算法的研發,給出數據采標方面的優化建議,這也為數據服務商形成差異化競爭帶來了契機,尤其是在AI落地階段,在垂直場景中能夠形成一套集調研、咨詢、設計、采集、標注于一體的AI基礎數據整體解決辦法,將在收入和業務邊界上實現突破。

THE END
廣告、內容合作請點擊這里 尋求合作
ai
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

9月18日消息,今天華為全聯接大會在上海召開。大會上,華為副董事長胡厚崑表示華為現在狀態非常不錯,并且宣布了華為全新計算戰略。
業界
9月6日消息,據國外媒體報道,人工智能正在成為新加坡這個獨立島國如何參與新興技術的一個典型案例。
業界
9月5日消息,美圖公司在廣州美博會正式發布其自主研發的全景式AI皮膚檢測儀:美圖宜膚(meitueve)。
業界
據小米MIUI官方,小米AI實驗室AutoML團隊就自動化神經架構搜索(NAS)方面取得的成果,在近日首度接受了媒體公開采訪。
人工智能
7月25日消息,阿里巴巴旗下半導體公司平頭哥正式發布玄鐵910(XuanTie910),稱玄鐵910目前業界性能最強的一款RISC-V處理器。
業界

相關推薦

1
3
主站蜘蛛池模板: 老子影院午夜理伦手机| 97色偷偷色噜噜狠狠爱网站| 日韩精品成人一区二区三区| 国产精品日韩专区| 久久久久久久久久国产精品免费| 皇后羞辱打开双腿调教h| 国产精品人成在线播放新网站| 久久久精品国产sm最大网站| 欧美日韩你懂的| 国产h肉在线视频免费观看| 欧美成人18性| 嫩草影院精品视频在线观看| 亚洲卡一卡2卡三卡4麻豆| 琪琪see色原网中文| 国产夜趣福利免费视频| 2020国产在线| 成人自拍视频网| 久久婷婷五月综合色精品 | 男人与禽交的方法| 四虎.com官网| 六月丁香色婷婷| 影音先锋成人资源| 亚洲AV无一区二区三区久久| 欧美色视频日本| 四虎永久免费地址在线网站| 麻豆中文字幕在线观看| 夭天干天天做天天免费看| 久香草视频在线观看免费| 男人肌肌桶女肌肌网站| 国产在AJ精品| 久久久久777777人人人视频| 国产精品无码无需播放器| 99久久人人爽亚洲精品美女| 日日噜噜夜夜爽爽| 亚洲成aⅴ人片| 波多野结衣黑丝| 四虎网站1515hh四虎免费| 青青国产成人久久91| 国产精品秦先生手机在线| 99久久精品日本一区二区免费| 女人扒下裤让男人桶到爽|