跳到主要內容區塊
::: 回首頁| 網站導覽| YouTube| Podcasts|
|
熱門關鍵字
推播熱門報導

中國科技自主受挫!DeepSeek新模型因採華為晶片訓練失敗而延宕

2025-08-14 17:19(08-14 17:30更新)
新聞引據:金融時報
撰稿編輯:陳文蔚
中國人工智慧(AI)新創公司DeepSeek。(AFP)
圖片來源:法新社
中國人工智慧(AI)新創公司DeepSeek。(AFP)

《金融時報》報導,中國人工智慧公司DeepSeek(深度求索)在嘗試使用華為晶片訓練新模型時遇到技術問題阻礙,導致原定於5月推出的R2模型延後發布。報導指出,此事件凸顯了北京推動自足努力尋求替代美國技術的局限性。

報導引述知情人士消息指出,DeepSeek1月發布R1模型後,因受到官方鼓勵改採華為昇騰(Ascend)晶片來取代輝達(Nvidia)系統。但知情人士透露,DeepSeek在使用昇騰晶片進行R2訓練時,卻持續遭遇穩定性與效能問題,最終改回輝達晶片進行訓練,僅在推理(inference)階段使用華為晶片。

急改回輝達並僅在推理階段用昇騰晶片

一位知情人士指出,此一因素正是導致R2新模型延後推出的主因,並導致該公司在競爭中落後對手。所謂訓練階段指的是模型從大型資料集學習的過程,而推理階段則是使用已訓練完成的模型進行預測或生成回應的步驟,例如回覆聊天機器人的提問。

報導表示,DeepSeek的困境顯示,中國晶片在關鍵任務上仍落後於美國對手,也突顯中國在實現科技自給自足方面的挑戰。

業界人士也表示,中國晶片在穩定性、晶片間連接速度及軟體配套方面仍落後輝達產品。華為曾派工程團隊駐點協助,但DeepSeek仍無法在昇騰晶片上完成成功的訓練流程,目前雙方僅持續合作,嘗試讓模型在推理階段能採用昇騰。

另一位知情人士補充,R2發布延後的另一原因是更新模型所需的數據標註工作比預期耗時更長。

DeepSeek創辦人不滿競爭落後

報導也透露,DeepSeek創辦人梁文峰對R2進度感到不滿,並要求團隊投入更多時間開發更先進的模型,以維持公司在AI領域的領先地位。中國媒體則指該模型可能在未來數週內發布。

美國OpenAI公司近日推出開源模型,與中國的深度求索展開競爭。加州大學柏克萊分校AI研究員Ritwik Gupta表示,許多開發者已轉向使用阿里巴巴的Qwen3模型,該模型在採用DeepSeek核心演算法的基礎上提高了效率。他並認為,華為在使用昇騰進行訓練時正經歷「成長陣痛」,但未來仍有可能追上。

輝達近期同意向美國政府繳納部分在中國的營收,以恢復對中國銷售H20晶片。輝達表示,放棄整個市場和開發者將損害美國經濟及國家安全。DeepSeek與華為對此均未回應。

 

延伸閱讀
DeepSeek 生成式AI 深度求索 中國科技業 美中科技戰
為提供您更好的網站服務,本網站使用cookies。
若您繼續瀏覽網頁即表示您同意我們的cookies政策,進一步了解隱私權政策。 
我了解