人工智能的戰場,正從 " 云端算力壟斷 " 轉向 " 終端智能覺醒 ",這是一場更多人能參與、更多變數存在的普遍競爭。
過去數月,大模型行業的認知快速刷新,在 DeepSeek 之前,終端設備受制于功耗、散熱和存儲空間,只能運行輕量化模型,而且效果和體驗并不好。當 DeepSeek 通過 " 小參數大智能 " 的技術路徑,將百億級模型壓縮進終端芯片時,整個行業開始意識到,端側 AI 的底層邏輯已發生質變。
從資本市場上相關概念股業績表現和走勢也可窺見一斑。端側 AI 概念龍頭移遠通信、美格智能業績表現亮眼,廣和通市場關注度同步提升。其中,移遠通信預計 2025 年一季度歸母凈利潤 2 億元,同比增長 265.19%,主要受益于物聯網需求復蘇及車載、AIoT 場景的拓展,邊緣計算模組及大模型技術加速落地。美格智能預計一季度凈利潤范圍取中值為 4600 萬元,同比增長 611%,高算力 AI 模組在智能汽車、無人機等領域出貨量激增,海外業務占比提升至 32%。廣和通雖未明確披露一季度凈利潤,但其股價區間漲幅達 25.11%,顯示市場對其 5G 模組及車載業務前景的樂觀預期。
從云端算力來看,頭部大模型廠商的門檻是萬卡集群,甚至十萬卡集群也在規劃,大模型開始趨于集中,但這部分頭部廠商的預訓練需求不會縮減,反而會增加。與此同時,更多 AI 公司正在投入后訓練、推理算力的布局,產業逐漸達成共識,未來 AI 算力特別是推理算力會出現千倍的增長,網絡帶寬會出現百倍增長,存儲需求也會出現千倍增長。
2025 年或是端側 AI 的爆發元年,算力行業加速競逐推理算力。
DeepSeek 效應,大模型重心轉向推理
" 端側 AI 目前處在一個最好的時代 ",愛簿智能 CEO 孫玉昆表示,我們認為大模型的開源給端側和邊緣 AI 的發展帶來了巨大的發展機遇。從端側芯片的發展來看,不管是算力還是內存帶寬都有創新和提升,從模型能力來看,適合端側運行的模型能力突飛猛進,端側智能會越來越好,從 AI 普及水平來看,越來越多的人正在使用端側和邊緣部署大模型的推理,個性化需求越來越多,這些需求在端側也更容易得到滿足。
DeepSeek 的模型迭代(如 V1 到 V3)仍遵循 Scaling Law,通過增加參數規模(如從千億到萬億級)和訓練數據量提升性能。這一路徑在早期 AI 發展中普遍存在,例如 GPT 系列模型的參數爆炸式增長。但隨著模型規模接近物理極限(如算力、數據獲取瓶頸),單純依賴參數擴張的邊際收益遞減,技術重心逐漸轉向推理優化和多模態應用,典型代表就是 DeepSeek-R1 通過模型蒸餾降低推理成本。
DeepSeek 推出的 NSA(NativeSparseAttention)機制,通過優化稀疏注意力機制與硬件適配能力,顯著提升了長上下文任務的訓練和推理速度。在保持與完全注意力模型相當性能的前提下,NSA 降低了預訓練成本,并在指令推理任務中表現更優。這一技術進展為復雜任務的端側部署提供了可能性。
阿里云智能集團資深副總裁、公共云事業部總裁劉偉光表示,阿里云開發新模型最重要的兩個方向,一個在 Reasoning 推理,一個在全模態融合。在推理方面,大模型未來一定會向越來越強的推理能力演化,強化學習不斷提升思維鏈的能力,伴隨著模型內生的任務規劃、工具使用能力不斷增強,大模型會越來越智慧,可以不斷思考更難更高問題,完成更復雜任務,這是一個重要方向,
" 特別需要強調一下強化學習,2025 年我們發現一個新的重要趨勢,很多客戶都在利用更為強大的基礎大模型做基于強化學習的后訓練,同時強化學習后訓練反過來為推理提供重要能力補充,我相信未來會有更多客戶基于強化學習做后訓練,基于更強大的基模會開發出更新的、更有價值的 AI 原生應用以及 AI Agent。" 他說。
中科曙光方面對鈦媒體 App 表示,DeepSeek 正在引發算力產業鏈式反應,不僅大大激發了模型后訓練、推理環節算力需求,加快改變 AI 算力結構,同時也有助于打破市場對高算力 GPU 的路徑依賴,為國產 GPU 加速卡帶來重大機遇。
無論是面向云端智算中心,還是面向端側的大模型一體機,針對 GPU 加速卡進行軟硬件協同設計優化,實現芯片 - 算法 - 模型深度耦合,已成為 AI 基礎設施的重要創新方向。
" 今年已經是 AI 大模型商業應用元年了。" 京華信息科技股份有限公司副總裁李思偉認為," 去年我們很糾結,行業存在一個‘不可能三角’。我們想用大模型更好的智能,就需要付出比較大的成本做部署和訓練,但是央國企等客戶優先考慮的是安全問題,想要安全就必須私有化部署,私有化部署成本又受不了,部署小參數的模型又有一點雞肋。前兩年我們為客戶所做的 AI 項目都會遇到這樣的問題,很多項目因此拖延到現在。"
為什么 DeepSeek 在 B 端或者 G 端落地受政府和企業的歡迎,就是因為解決了 " 不可能三角 " 的問題,但 DeepSeek 的應用還是有很多門檻,比如安全問題,國產化技術路線等,這不是通過簡單部署可以一次性解決的問題,目前很多一體機遍地開花,但一體機一般只能服務于一個應用或者一個業務。
端側 AI,越接近上層應用問題越多
基礎設施的穩定和高效,是端側 AI 生態賴以生長的基礎。大模型仍處于產業發展的早期階段,技術的演進呈現出上下影響、交替迭代的趨勢,AI 應用爆發對模型性能和模型之下的基礎設施,以及 AI 應用開發工具,都提出了非常高的要求,這三大均處于高速演進過程當中,
以中科曙光為例,2025 年 2 月,中科曙光推出 DeepAI 深算智能引擎方案,集成了 GPU 開發工具套件、AI 基礎軟件棧和大模型應用開發平臺,目的是為了讓國產 AI 算力更適用、更好用,賦能從十億級模型端側推理到千億級模型云端訓練全場景需求。
通過全面兼容 CUDA、Rcom 雙棧生態,DeepAI 深算智能引擎支持 2000+ 算子,對標 CUDA 的算子覆蓋度已超 99%,并可通過手動算子優化、編譯優化和匯編指令級優化,國產 GPU 單卡訓推性能提升可達 1 倍以上。
劉偉光表示,全世界的大語言模型幾乎以每兩周為一個時間單位演進,基礎模型仍然是整個 AI 應用生態最核心的引擎,通過提供深度的推理能力、多模態理解和交互能力,支持多樣化、高質量服務,基于不同類型尺寸模型滿足復雜、輕型以及更多探索型需求。
" 很多客戶在探索 AI 應用過程中發現,支撐大語言模型的基礎設施能力,特別是推理服務能力,是保障 AI 應用服務順暢、平滑、穩定、高效運行的重要基礎設施,云計算也在慢慢為 AI 所改變,讓所有 AI 訓練、推理、應用能夠在云基礎設施上進行更穩定平滑高效運行。"
他還表示,當模型能力足夠強大,AI 應用呼之欲出的時候,更多客戶需要更完整、更完備的工具鏈基于模型進行 AI 應用開發,AI 開發工具是連接大語言模型和真實應用的重要橋梁,客戶需要功能齊全、生態豐富、靈活部署的工具,加速應用開發。
中科曙光 DeepAI 深算智能引擎也內置了 DAP 企業級全棧 AI 應用開發平臺,提供多模型開放納管、高性能推理服務、知識融合增強、智能體可視化編排、智能數據分析等功能,企業客戶在國產 AI 算力底座可一站式跑通 DeepSeek、阿里 QwQ 等大模型應用。
孫玉昆認為,面向 AI 的開發者面臨著兩大核心挑戰:一是算力不足,成本高。好的模型可能需要萬卡或者更大規模的集群,現在海外算力基本上不行,國內算力生態還在共同培養。二是開發工具鏈支持不足,開發環境配置復雜。端側和云端的環境不統一,難以滿足大模型、智能體等應用快速迭代的需求。
他補充表示,部署開發環境流程煩瑣,很多初學者就倒在了做人工智能開發的第一關,大模型都是基于 Linux 開源又穩定的系統服務器訓練出來的,很多人工智能的開發框架基于 Linux 開發,在實際開發中,開發者首先是要完成跨平臺開發,通常需要在其他操作系統上通過虛擬化方式運行 Linux,這個過程就會面臨很多問題,比如安裝配置復雜,兼容性問題,工具鏈和依賴庫的版本差異,這些工具不好導致的問題,不僅增加了開發的復雜性,開發者也消耗了很多無謂的精力。
此外,即使開發者辛萬苦地把環境配置好了,但性能和原生 Linux 相比也有差異,不僅是 CPU 計算性能,GPU 的模型訓練也有一些損失,用 Windows 電腦做小模型訓練的性能不達標,用原生 Linux 系統則能實現更高的性能水平,所以做人工智能開發必須掌握 Linux。
愛簿智能也推出了自己的 AIBOOK 算力本,該產品以 50TOPS 端側算力為核心,有意將 AI 算力本和市場已有的 AI PC 區分開。
在孫玉昆看來,不同于 AIPC,AI 算力本是基于原生 Linux 開發環境的端側 AI 開發工具,與市面主流 AIPC 的主要差異包括基于 Linux 內核的 AI 原生操作系統,預裝了各種實用 AI 應用,還預置了編程開發環境和工具,做到 AI 的 " 開箱即用 ",同時具備 " 端云一體 " 的 AI 算力,端側是指 AIBOOK 本地計算,云側是摩爾線程夸娥云計算,端云一體組合覆蓋從大模型部署到應用、微調及訓練的 AI 開發全場景。
云還是端,沒有絕對的好與壞
算力在云還是在端,取決于客戶的業務需求,相較于以往端側推理的限制,目前大量高質量小模型的涌現,讓推理工作負載再次受到關注,云端算力和終端算力生態將長期持續演進,兩者并不矛盾,更多是扮演大模型產業的不同角色,不少廠商也在布局端云一體。
杰文斯悖論告訴我們,技術效率提升反而會刺激需求擴張。例如,DeepSeek 通過 FP8 混合精度訓練、動態稀疏算法等技術將單次訓練成本降低 53%(至 557.6 萬美元),但頭部企業因此增加并行實驗次數(從年均 3 次躍升至 28 次),反而推高全球算力芯片采購量。類似現象在能源領域也曾出現(如蒸汽機效率提升后煤炭消耗激增)。在 AI 領域,推理成本降低將加速應用場景泛化(如金融、醫療、智能制造),最終導致算力總需求增長。
黃仁勛在英偉達 GTC2025 上表示:ChatGPT 是靠預測下一個 tokens、大概率出現幻覺的生成式 AI,而現在已經走進了 Deep Research、Manus 這樣的 agentic AI 應用,上一個 token 是下一個 token 生成時輸入的上下文、是感知、規劃、行動的一步步推理,由于每一層計算都不同,所需要的 tokens 會百倍增長。推理模型需要更多的計算,因為模型更復雜。R1 的尺寸是 6800 億個參數,它的下一代版本可能有數萬億個參數。Agentic AI 應用是無數次調用類似 DeepSeek-R1 做推理的過程,需要的計算只會更多。
高通發布的白皮書也提到,AI 推理功能在終端側的廣泛普及賦能打造了豐富的生成式 AI 應用和助手。文檔摘要、AI 圖像生成和編輯以及實時語言翻譯現在已成為常見功能。影像方面的應用可以利用 AI 進行計算攝影、物體識別和實時場景優化。
這之后迎來了多模態應用的發展,這類應用結合多種數據類型(文本、視覺、音頻和傳感器輸入),以提供更豐富、更具情境感知能力且更加個性化的體驗。高通 AI 引擎結合了定制 NPU、CPU 和 GPU 的能力,能夠在終端側優化此類任務,使 AI 助手能夠在不同溝通模式間切換,并生成多模態輸出。
智能體 AI(Agentic AI)是下一代用戶交互的核心。AI 系統能夠通過預測用戶需求,并在終端和應用內主動執行復雜工作流,進行決策和管理任務。一些實時 AI 處理任務的智能體,可在終端側安全運行,同時依靠個人知識圖譜準確定義用戶偏好和需求,無需依賴云端。
愛簿智能看好 AI 端側的發展。但認為不會顛覆云計算主導的 AI 開發范式,孫玉昆提到,端云協同是未來的主流趨勢,AI 計算正經歷從純云端向 " 云 - 邊 - 端 " 協同的范式轉移,5G、邊緣計算等技術使分布式計算延遲降低到可接受范圍,端側 AI 芯片算力已達 50TOPS 及以上,可承擔更復雜任務,而模型壓縮技術(如蒸餾、量化)使 7B 這類小參數模型在端側達到接近云端 13B 模型的能力水平。
" 通過輕量化模型突破端側算力瓶頸,結合端云一體架構實現能力的彈性擴展,正在定義 AI 算力的新范式。在這一架構下,用戶將獲得 AI 的‘無縫體驗’,日常場景由端側快速響應,復雜任務延伸至云端,二者協同工作升級智能體驗。" 他說
劉偉光則表示,AI 應用構建方式非常多樣化,既可以在公共云上進行開發部署,阿里云也支持本地化服務,為了更好服務本地服務,特別滿足部分政企客戶監管性要求,阿里云推出了百煉專署版,支持一云多芯異構計算等客戶需求,
他表示,從算力資源到組件調用,直接影響 AI 實際應用的效果,阿里云內部提出了全棧 AI,不僅是大模型,也不僅是云下技術架構層,包含底層的異構算力、模型服務平臺、百煉平臺,以及上面所有面向客戶服務,技術架構層面計算資源需求日益增長,GPU 需求增長速度遠遠高于傳統 CPU 增長,遍布全球 AI 計算集群會成為未來新的剛需,這些集群支持大規模的訓練任務,并且同時滿足實時的推理應用的需求。
來源:鈦媒體