
《華爾街日報》報導,儘管中國在採購先進晶片上面臨限制,但中國新創公司正積極尋找其他替代的變通途徑,無論是在取得先進晶片上或者建構大型語言模型上,都可以看到中國AI新創公司積極追趕美國領先的人工智慧(AI)模型,且速度比許多業內人士預期的還要來得快。
報導以一家中國最成功對沖基金經理人資助的AI新創公司DeepSeek 為例,該公司11月發布其最新大型語言模型的預覽版本,DeepSeek指出,這款大型語言模型能力與OpenAI名為o1的推理模型相比毫不遜色。
另外,近幾周來,其他中國公司也發布類似的最新進展,像是中國網路巨擘阿里巴巴(Alibaba)和騰訊(Tencent)支持的初創公司月之暗面(Moonshot AI)表示,該公司開發了一種專門研究數學的模型,其能力接近「o1」,同時,阿里巴巴表示,自己的一個實驗性研究模型在數學方面優於o1模型的預覽版。
中國AI新創公司快速破解美AI模型內涵
報導指出,雖然這些公司尚未發表描述其模型內容的論文,但許多專家表示,對這些模型印象深刻。OpenAI前研究員、現任人工智慧企業家卡爾 (Andrew Carr)表示,中國「正在更快地迎頭趕上」。卡爾認為,試圖複製OpenAI推理模型的DeepSeek研究人員「在幾個月內就弄清楚了。」坦言許多同事對此感到驚訝。
其中一項用於比較的測試是美國數學邀請賽(American Invitational Mathematics Examination, AIME),該競賽是為最聰明的高中學生舉辦的數學挑戰賽,DeepSeek就表示,其模型在AIME測試中勝過了OpenAI的模型。
在美媒利用今年AIME的15道題所進行的一項實驗發現,OpenAI的「o1」預覽版模型得出答案的速度比DeepSeek、月之暗面和阿里巴巴的實驗模型更快。例如,一個假設的雙人博弈問題需要用到策略來解謎,OpenAI的程式在10秒內給出了答案,而DeepSeek花了2分多鐘。
儘管美國不斷緊縮AI晶片出口限制,但開發者似乎已經找到了變通途徑。
月之暗面創始人楊植麟曾表示,該公司正專注於強化學習,這種學習方式模仿了人類的試錯過程,這種方法對計算能力的要求較低。另一方面,自去年年底以來,AI開發者越來越多地使用一種名為「專家混合」(mixture of experts, 簡稱MoE)的技術,過程也同樣可降低運算需求。
以仿人類試錯策略能降低運算能力
騰訊表示,該公司於11月發布的MoE模型的性能可與Facebook母公司Meta Platforms 7月份推出的Llama 3.1模型相媲美。研究發現,騰訊的模型在訓練時使用的計算能力可能是Meta的十分之一左右。
DeepSeek最初是幻方(High-Flyer)的AI研究部門,2021年連結了上萬個輝達A100晶片,形成了一個用於AI訓練的集群,並將其命名為「螢火二號」(Fire-Flyer 2)。,根據DeepSeek公布,「螢火二號」的性能接近於包含類似晶片的輝達系統,但成本卻更低,能耗也更低。
新創公司Anthropic的聯合創辦人Jack Clar表示,「中國繞過出口管制的一種方式將是:利用其能夠獲得的硬體,構建相當優秀的軟體和硬體訓練體系。」他認為,「『中國製造』將成為AI模型領域的一股潮流,就像電動汽車、無人機和其他技術一樣。」