為什么說人工智能公司要自建超算？

人工智能

2019

03/24

21:10

AI商業(yè)周刊

評論

3月19日，英特爾宣布將與高性能廠商Cray在美國能源部下屬的阿貢國家實(shí)驗(yàn)室建造第一臺每秒可進(jìn)行百億億次浮點(diǎn)運(yùn)算（exaflop）的超級計(jì)算機(jī)，專門為傳統(tǒng)高性能計(jì)算和人工智能（AI）設(shè)計(jì)。

而就在一周前的3月12日，英偉達(dá)宣布69億美元收購以色列公司Mellanox，后者是一家以高性能計(jì)算和網(wǎng)絡(luò)技術(shù)而聞名的芯片制造商，英偉達(dá)通過此次收購意在搶占數(shù)據(jù)中心。

不僅英特爾、英偉達(dá)這些科技巨頭在布局超算，人工智能創(chuàng)企也紛紛打造超算。商湯超算平臺的計(jì)算集群已搭載超過14000塊GPU，峰值計(jì)算達(dá)16億億次/秒，而國家“太湖之光”的峰值計(jì)算僅為12.5億億次/秒。

去年曠視宣布完成C輪融資時，創(chuàng)始人印奇也對媒體表示：曠視已經(jīng)在中國好幾個地方建了非常大的超算平臺，未來的算力還需要更多。算力就像當(dāng)年的存儲一樣，無論擴(kuò)展得多快，都會被消耗掉，需要不斷去投入。

其實(shí)，這些人工智能公司完全可以采用云服務(wù)的模式，比如租賃阿里云、騰訊云、AWS、中科曙光等共有云平臺的高性能計(jì)算服務(wù)。那么它們?yōu)楹渭娂娺x擇自建超算呢？

算法迭代快

計(jì)算力和算法是一組最佳CP，如果計(jì)算力和算法均是自己研發(fā)的，就會產(chǎn)生1+1大于2的“化學(xué)反應(yīng)”。因?yàn)樵瓌?chuàng)算法和算力兩者采用統(tǒng)一的接口時，更易于互相匹配和協(xié)調(diào)。且數(shù)據(jù)的收集、標(biāo)注、模型建立、模型訓(xùn)練到輸出SDK的每一個環(huán)節(jié)，都可以做到標(biāo)準(zhǔn)化和自動化，整個鏈條就會跑得更快，算法迭代速度更快。而公有云的超算很難滿足每個企業(yè)算法的匹配。

尤其在面臨新需求下的情況，比如需要1000個GPU卡聯(lián)合訓(xùn)練，阿里云、騰訊云等這些云平臺均沒有此類服務(wù)，那么新需求就沒法進(jìn)行下去。從長遠(yuǎn)來看，自建超算更利于探索新業(yè)務(wù)。

前不久，央視315爆出AI客服一年打40多億個騷擾電話，以及犯罪分子通過免費(fèi)公共WIFI竊取用戶消費(fèi)信息的現(xiàn)象引起熱議，其背后正是我國數(shù)據(jù)安全保護(hù)薄弱的影射。如果通過公有云平臺做模型訓(xùn)練，理論上云平臺都可以看到使用方數(shù)據(jù)。一旦數(shù)據(jù)被泄露，對使用方公司將是不可逆的打擊。

眼下，5G商用逐步臨近，5G 時代生產(chǎn)方式將發(fā)生革命性的變化，很多終端數(shù)據(jù)處理都可在云端跑。這也是英特爾、英偉達(dá)等巨頭企業(yè)近期極力打造超算平臺的原因之一，因?yàn)槌闶?G時代巨頭爭霸不可忽視的一面。

冰凍三尺非一日之寒，構(gòu)建超算不單是將幾千或者幾萬個GPU堆疊起來，還需要一套強(qiáng)大的“管理系統(tǒng)”――就像微軟Windows操作系統(tǒng)。例如阿里耗費(fèi)多年打造出“盤古分布式系統(tǒng)”，才成為阿里云的Windows。所以，對于人工智能公司，提前積累超算的經(jīng)驗(yàn)十分必要。

從資本角度來看，在5G大爆發(fā)的行業(yè)環(huán)境下，超算的價值愈加凸顯，自建超算有更大的想象空間。在滿足自身計(jì)算需求情況下，還可以租賃出去把服務(wù)賣給中小企業(yè)，或許還能盈利，也是一種商業(yè)模式。

價格便宜10倍

以阿里云平臺為例，筆者粗略算了一筆賬：

如果在阿里云平臺選擇一塊卡，包括8個Intel Platinum 8163處理器和1個NVIDIA V100，服務(wù)價格為每7620元/月，即9.144萬元/年。

一個以上配置的卡成本多少呢？筆者查閱發(fā)現(xiàn)，Intel Platinum 8163處理器的價格為1.5萬元/個，NVIDIA V100的價格為7.88萬元/個。所以1.5W*8+7.88*1=19.88萬元，再加上服務(wù)器（包括主板等硬件）0.5萬元左右，成本共計(jì)20.38萬元。

對比發(fā)現(xiàn)，選擇阿里云包月服務(wù)所需要的錢大約兩年就可以買一張卡，但一張卡的壽命遠(yuǎn)大于兩年，一般至少5-10年。顯然，自己組裝卡是更省錢的。

一位MISSION.ORG的作者Jeff Chen也對比過自建GPU計(jì)算機(jī)和租賃AWS云服務(wù)，竟然便宜10倍！

他組裝一臺GPU計(jì)算機(jī)，花了3千美元，其配置包括一個1080Ti GPU（你也可以用新的2080Ti來學(xué)習(xí)機(jī)器，只要再多花500美元），一個12核CPU，64GB RAM和1TB M.2 SSD。再加三個GPU，總共四個GPU。

我們非常保守地假設(shè)，因?yàn)镚PU迭代非常快，一塊用于深度學(xué)習(xí)的GPU在三年內(nèi)價值變成0。如下表所示，如果用它超過1年，把電費(fèi)算在內(nèi)也會便宜10倍，如果把亞馬遜一次購買多年的折扣算在內(nèi)，1年大概會便宜6倍，3年便宜4倍。4個GPU便宜21倍。

自建計(jì)算機(jī)和從AWS租賃的費(fèi)用比較。1個GPU版本便宜4-10倍，4個GPU版本便宜9-21倍，具體取決于利用率。AWS定價包括全年和3年租賃的折扣（35%，60%）。假設(shè)功耗為0.20美元/kWh，1臺GPU機(jī)器消耗1千瓦/小時，4臺GPU機(jī)器消耗2千瓦/小時。折舊保守估計(jì)為3年內(nèi)的線性損耗。每個GPU 700美元。

如果你想把2080ti用于你的深度學(xué)習(xí)計(jì)算機(jī)，會多出500美元，而且對于1 GPU的機(jī)器來說，仍然是4-9倍的便宜。

造成這種巨大成本差異的原因是亞馬遜Web服務(wù)EC2（或谷歌云或Microsoft Azure）的GPU價格為3美元/小時或約2100美元/月。即使當(dāng)你關(guān)閉你的機(jī)器時，你仍然需要以每月每GB 0.10美元的價格為機(jī)器支付存儲費(fèi)用。

對于一臺3千美元的GPU機(jī)器學(xué)習(xí)計(jì)算機(jī)（1千瓦/小時），如果你經(jīng)常使用，將在2個月內(nèi)收支平衡。更不用說你的電腦還歸你所有，而且在兩個月內(nèi)它沒有貶值多少。同樣，4 GPU版本（2千瓦/小時）的更為有利，因?yàn)槟銓⒃诓坏?個月內(nèi)實(shí)現(xiàn)收支平衡。（假設(shè)電力成本為0.20美元/kWh）

而且GPU性能與AWS相當(dāng)。與使用下一代Volta技術(shù)的Nvidia v100 GPU相比，你的700美元Nvidia 1080 ti的運(yùn)行速度為其90%。這是因?yàn)榇嬖贗O，所以即使V100理論上速度可能快1.5?C2倍，IO在實(shí)踐中也會減慢速度。由于您使用的是M.2SSD，IO在您自己的計(jì)算機(jī)上運(yùn)行得很快。

結(jié)語

從1塊卡到幾萬卡還需要運(yùn)維費(fèi)用，以及人才成本，但從長遠(yuǎn)看，自建超算更有發(fā)展?jié)摿Γ彩茿I公司做大的必經(jīng)之路。

當(dāng)然，選擇共有云平臺還是自建超算也要根據(jù)自身公司體量，畢竟打造超算前期投入較大。

人工智能的核心業(yè)務(wù)壁壘和競爭力就是算法中的業(yè)務(wù)邏輯，還有就是數(shù)據(jù)。如果核心業(yè)務(wù)已經(jīng)穩(wěn)健，數(shù)據(jù)和算法需要信息安全保護(hù)，則需要從公有云平臺遷移至自建超算。

如果只是小范圍驗(yàn)證業(yè)務(wù)模式，為了降低成本，可以借助公有云平臺快速部署和按需租用的優(yōu)勢，如果資金和時間都充裕，可以直接自建超算。

【來源：AI商業(yè)周刊】

THE END

廣告、內(nèi)容合作請點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場。

為什么說人工智能公司要自建超算？

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們