人工智能

深度復(fù)盤!DeepSeek引起的全球技術(shù)圈恐慌是如何形成的?

ainet.cn   2025年02月05日

1月27日一早,DeepSeek在中國(guó)區(qū)和美國(guó)區(qū)蘋果App Store免費(fèi)榜上同時(shí)沖到了下載量第一,超過(guò)原先霸榜的ChatGPT,這也是國(guó)產(chǎn)應(yīng)用首次實(shí)現(xiàn)這一成就。而半個(gè)月前(1月11日),DeepSeek的App才剛剛上線iOS和安卓的應(yīng)用市場(chǎng)。

當(dāng)天晚些時(shí)候,DeepSeek應(yīng)用程序開(kāi)始出現(xiàn)宕機(jī)。公司稱其服務(wù)受到了大規(guī)模惡意攻擊,因此將暫時(shí)限制新用戶注冊(cè)。當(dāng)晚開(kāi)盤的美國(guó)科技股則集體大跌——費(fèi)城半導(dǎo)體指數(shù)(SOX)下跌9.2%,創(chuàng)下2020年3月以來(lái)的最大跌幅。其中英偉達(dá)股價(jià)下跌近17%,市值蒸發(fā)近6000億美元,規(guī)模創(chuàng)美股史上最大。此外,博通、臺(tái)積電、ASML、Google和微軟也分別跌了17.4%、13%、7%、4%和2.14%。就連WTI原油盤中也一度下挫3%,因?yàn)橛薪灰讍T認(rèn)為,如果大模型的訓(xùn)練和推理不再需要那么多算力,那么數(shù)據(jù)中心的電力需求也會(huì)減少,自然也不需要那么多石油來(lái)發(fā)電。

▲DeepSeek稱DeepSeek-R1模型在各項(xiàng)能力上追平OpenAI o1。

DeepSeek是一家位于杭州的大模型公司,2023年才創(chuàng)立。2024年年中之前,這家公司并沒(méi)有引起市場(chǎng)多少關(guān)注。但2024年最后一個(gè)月,它密集發(fā)布了多個(gè)模型。其中圣誕節(jié)后發(fā)布的名為DeepSeek-V3(以下簡(jiǎn)稱「V3」)的模型,宣稱在性能上「相當(dāng)于」業(yè)界領(lǐng)先的閉源模型GPT-4o與Claude-3.5-Sonnet,「優(yōu)于」最好的開(kāi)源模型Meta的Llama 3,且總訓(xùn)練成本僅為557.6萬(wàn)美元,這個(gè)數(shù)字只有(據(jù)估計(jì)投資超過(guò)5億美元)前者的1%;臨近2025年農(nóng)歷春節(jié)的1月20日,它又發(fā)布了一個(gè)名為DeepSeek-R1(以下簡(jiǎn)稱「R1」)的模型,同樣的,DeepSeek在論文中聲稱R1模型「在一系列任務(wù)上實(shí)現(xiàn)了與OpenAI o1相當(dāng)?shù)男阅堋埂?/p>

1月29日,彭博社引述要求不具名的知情人士報(bào)道,稱微軟的安全研究人員在2024年秋季發(fā)現(xiàn)DeepSeek的員工使用OpenAI的API竊取了大量數(shù)據(jù),言下之意是這些數(shù)據(jù)可能被用來(lái)訓(xùn)練V3或R1模型。然而OpenAI明確規(guī)定不允許其他公司使用其模型生成的數(shù)據(jù)訓(xùn)練模型,2023年年中,字節(jié)跳動(dòng)就曾因類似行為與OpenAI發(fā)生摩擦。目前DeepSeek暫未對(duì)此言論發(fā)表回復(fù)。

麻煩不止于此,同日意大利當(dāng)局要求 DeepSeek 提供有關(guān)該公司如何處理用戶數(shù)據(jù)的信息,DeepSeek將有20天時(shí)間來(lái)準(zhǔn)備答復(fù),目前DeepSeek已從意大利地區(qū)蘋果和Google的應(yīng)用商店下架了應(yīng)用。

外界對(duì)于DeepSeek仍存在大量質(zhì)疑,比如其模型是否只是美國(guó)先進(jìn)模型的蒸餾模型、其創(chuàng)新是否真的重要,以及美國(guó)科技股是否反應(yīng)過(guò)度。這些問(wèn)題DeepSeek其實(shí)在技術(shù)報(bào)告中基本都回答了。

1. DeepSeek引起的全球技術(shù)圈恐慌是如何形成的?

1月27日的市場(chǎng)震蕩比DeepSeek在模型論文中發(fā)表的驚人數(shù)據(jù)晚了差不多一個(gè)月。直到2025達(dá)沃斯論壇(1月20日至24日)上,雖然已有不少人談起DeepSeek,但意見(jiàn)也多為保守或充滿質(zhì)疑的。比如DeepMind首席執(zhí)行官Demis Hassabis就在達(dá)沃斯聲稱,DeepSeek的模型的確有些「出人意料」,但他表示「對(duì)DeepSeek模型的工作原理并不確定,包括它在多大程度上依賴其他美國(guó)公司模型的結(jié)果」。

在這種懷疑「V3是個(gè)蒸餾模型——蒸餾了美國(guó)的前沿模型」的觀點(diǎn)之外,另外一種不愿相信DeepSeek成果的聲音代表來(lái)自Scale AI的首席執(zhí)行官Alexandr Wang。他在接受CNBC采訪時(shí)聲稱,DeepSeek擁有5萬(wàn)塊英偉達(dá)最先進(jìn)的AI芯片H100,言下之意是DeepSeek違反了美國(guó)的芯片禁運(yùn)政策,才取得了模型突破。由于芯片管制,2022年秋季起,英偉達(dá)就不再向中國(guó)市場(chǎng)提供其最高端的AI芯片H100,取而代之的產(chǎn)品是內(nèi)存和帶寬都更受限的H800——性能僅為H100的一半。

然而與此同時(shí),Meta員工在匿名網(wǎng)站稱,DeepSeek僅用1%的投入就實(shí)現(xiàn)了超越Llama 3的性能這件事,已經(jīng)使公司AI團(tuán)隊(duì)陷入恐慌,特別是考慮到公司正在訓(xùn)練的下一代模型Llama 4的預(yù)期投入比Llama 3還要貴好幾倍。技術(shù)媒體The Information緊接著報(bào)道稱,Meta成立了4個(gè)專門研究小組來(lái)研究DeepSeek的工作原理,并基于此來(lái)改進(jìn)Llama。在V3發(fā)布之前,Llama是全球能力最強(qiáng)的開(kāi)源模型,直到V3發(fā)布后取而代之。

如果只有V3的效率,DeepSeek可能并不能引起足夠注意。1月20日發(fā)布的R1模型為DeepSeek的熱度添了重要的一把火——這是一個(gè)類o1的推理模型,并且即刻就能在應(yīng)用程序中體驗(yàn)到。與ChatGPT等其他聊天機(jī)器人的不同之處在于,DeepSeek的同名聊天機(jī)器人在回應(yīng)用戶提問(wèn)時(shí),會(huì)將思維鏈條(Chain of Thought,CoT)完全展示出來(lái),其作為機(jī)器人認(rèn)真揣摩用戶需求、試圖將用戶所有說(shuō)出口或隱晦表達(dá)的情緒都安慰到位的「內(nèi)心活動(dòng)」激發(fā)了大量用戶的熱情。商業(yè)的本質(zhì)在于創(chuàng)造稀缺,無(wú)論在人類成員還是AI成員中,共情能力都是稀缺品。

▲DeepSeek在自言自語(yǔ)時(shí)更有「人味」。

CoT是類o1模型都在發(fā)展的一項(xiàng)能力,人類差不多也是如此進(jìn)行推理的。然而這類思考過(guò)程同時(shí)也是各人工智能公司想要保密的重要數(shù)據(jù)資產(chǎn)。如果你在ChatGPT中詢問(wèn)它的o1模型是如何思考的,幾次之后,OpenAI可能就會(huì)發(fā)郵件給你警告要撤銷你的賬號(hào)了。

風(fēng)險(xiǎn)投資機(jī)構(gòu)Andreessen Horowitz (a16z)的創(chuàng)始人安德森(Marc Andreessen)對(duì)R1的描述是「人工智能的Sputnik時(shí)刻」,Sputnik是蘇聯(lián)于1957年首次發(fā)射的人造衛(wèi)星。另外一些人則稱DeepSeek這一系列模型的發(fā)布是美國(guó)AI界的「珍珠港事件」。意思是作為全球人工智能領(lǐng)域的技術(shù)高地,美國(guó)正在失去自己所建構(gòu)的AI商業(yè)模式和技術(shù)護(hù)城河。

2. DeepSeek-V3到底取得了怎樣的突破?

DeepSeek的突破來(lái)自于兩個(gè)層面:低成本和推理能力。其中,V3的突破主要在于訓(xùn)練成本和計(jì)算效率,R1開(kāi)辟了訓(xùn)練推理模型的新路徑。

具體來(lái)說(shuō),V3的采用了優(yōu)于傳統(tǒng)MoE(專家模型)架構(gòu)的DeepSeekMoE架構(gòu),以及優(yōu)于傳統(tǒng)多頭注意力(MHA)的DeepSeekMLA(多頭潛在注意力)。

● DeepSeekMoE(Mixture of Experts,混合專家)

傳統(tǒng)稠密模型,比如GPT-3.5,在訓(xùn)練和推理過(guò)程中激活全部參數(shù)。然而事實(shí)上,并非模型的每個(gè)部分都是當(dāng)前任務(wù)所必需的。因此,MoE的理念是將模型區(qū)分為多個(gè)「專家」,推理時(shí)只激活對(duì)任務(wù)必要的專家。GPT-4也是一個(gè)MoE模型,據(jù)說(shuō)有超過(guò)1.67萬(wàn)億個(gè)參數(shù),其中大部分參數(shù)分布在16個(gè)專家模塊(如FFN層)中,每次完成特定任務(wù)時(shí),大約一到兩個(gè)專家會(huì)被激活,所以大大降低了計(jì)算量。DeepSeek的V3擁有6710億參數(shù),其中活躍專家中的參數(shù)總和為370億。

DeepSeek在V3模型論文中稱,相較于傳統(tǒng)MoE,DeepSeekMoE使用了「更細(xì)粒度」的專家,使專家更加專門化,單個(gè)專家僅數(shù)十億參數(shù),提升了任務(wù)適配性;同時(shí),DeepSeekMoE將一些專家隔離為「共享專家」,用于減輕專家之間的知識(shí)冗余,從而使V3模型在激活相同數(shù)量專家和參數(shù)的情況下表現(xiàn)更好。

● DeepSeekMLA(Multi-Head Latent Attention,多頭潛在注意力)

多頭注意力(Multi-Head Attention,MHA)是生成式AI計(jì)算的核心機(jī)制,它讓模型可以同時(shí)關(guān)注用戶輸入的不同層面,并行處理這些不同維度的信息,再將其整合起來(lái)完成響應(yīng)。這一并行處理過(guò)程與圖像處理中的并行計(jì)算類似,因此過(guò)去用于圖形處理的GPU(Graphics Processing Unit)成了AI計(jì)算的理想硬件平臺(tái)。

不過(guò)這一過(guò)程同時(shí)會(huì)產(chǎn)生大量緩存,限制了推理效率。DeepSeekMLA找到了一種對(duì)其中的緩存數(shù)據(jù)進(jìn)行聯(lián)合壓縮的方法,從而大大減少推理期間的內(nèi)存使用,保證高效推理。DeepSeek在論文中稱,得益于這些創(chuàng)新,其V2模型(V3模型的上一代)在單節(jié)點(diǎn)搭載8塊H800 GPU的情況下,實(shí)現(xiàn)了超過(guò)每秒5萬(wàn)個(gè)token的生成吞吐量,是上一代模型最大生成吞吐量的5.76倍。

● MTP(Multi-Token Prediction,多tokens預(yù)測(cè))

傳統(tǒng)大模型回答用戶需求時(shí)只預(yù)測(cè)下一個(gè)token,V3通過(guò)MTP技術(shù)同時(shí)預(yù)測(cè)下2個(gè)token。這里的關(guān)鍵是第二個(gè)預(yù)測(cè)token的準(zhǔn)確性問(wèn)題(即「接受率」,預(yù)測(cè)的token能被最終采用的比例)。DeepSeek評(píng)估稱,在不同生成主題中,其模型所生成的第二個(gè)token的接受率達(dá)到了85%至90%。這種高接受率意味著V3能夠以接近傳統(tǒng)單token預(yù)測(cè)模式兩倍的速度來(lái)生成文本。

● FP8:低精度訓(xùn)練

FP8的意思是8位浮點(diǎn)(floating-point),數(shù)字越高,意味著計(jì)算精度越高,但與此同時(shí)計(jì)算速度會(huì)降低。DeepSeek使用了FP8數(shù)據(jù)格式來(lái)訓(xùn)練V3,并在模型計(jì)算的不同環(huán)節(jié)實(shí)現(xiàn)了數(shù)據(jù)在FP8、BF16、FP32等不同精度下的靈活和交替使用,即一種混合精度框架。在參數(shù)通信的部分過(guò)程,DeepSeek也做到了FP8精度的傳輸。通過(guò)這一過(guò)程,DeepSeek實(shí)現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用,并「首次在超大規(guī)模模型上驗(yàn)證了FP8混合精度訓(xùn)練框架的有效性」。

DeepSeekMoE + DeepSeekMLA架構(gòu)早在DeepSeek開(kāi)發(fā)V2模型時(shí)期就已開(kāi)拓,V2模型驗(yàn)證了這一組合可以在保持性能的前提下兼顧高效訓(xùn)練與推理,V3不過(guò)是在此基礎(chǔ)上進(jìn)行了多項(xiàng)改進(jìn)。真正使得V3模型在能力上超越Llama 3的,是另一項(xiàng)創(chuàng)新——自我獎(jiǎng)勵(lì)。

● 后訓(xùn)練(post-training):自我獎(jiǎng)勵(lì)

在進(jìn)行了不到兩個(gè)月的預(yù)訓(xùn)練、花費(fèi)了266.4萬(wàn)個(gè)GPU小時(shí)后,DeepSeek又用0.5萬(wàn)個(gè)GPU小時(shí)對(duì)V3進(jìn)行了一種以「自我獎(jiǎng)勵(lì)」和蒸餾為主的后訓(xùn)練。

強(qiáng)化學(xué)習(xí)的典型案例是AlphaGo,通過(guò)為模型提供圍棋規(guī)則,并告訴它怎樣算是贏得比賽,然后模型就會(huì)自己找到滿足這一切目標(biāo)的路徑。不過(guò)這種機(jī)器學(xué)習(xí)方式中的最大難題是如何設(shè)置獎(jiǎng)勵(lì)函數(shù),數(shù)學(xué)、編程、圍棋等推理能力要求高的領(lǐng)域通常具有明確的答案,邊界分明,然而除此之外的其他生活領(lǐng)域卻未必如此。OpenAI的o1模型發(fā)布之后,外界充滿了對(duì)其究竟對(duì)強(qiáng)化學(xué)習(xí)過(guò)程設(shè)置獎(jiǎng)勵(lì)函數(shù)的好奇。OpenAI不再open后,DeepSeek在其論文中表明了它是如何給V3模型設(shè)置獎(jiǎng)勵(lì)函數(shù)的——直接將V3模型自身作為獎(jiǎng)勵(lì)生成模型,自己決定是否獎(jiǎng)勵(lì)自己。

DeepSeek將V3的判斷能力與GPT-4 o和Claude-3.5的判斷能力進(jìn)行了比較,稱V3的性能與GPT-4o-0806和Claude-3.5-Sonnet-1022的最佳版本相當(dāng),并且,V3的判斷能力還可以通過(guò)投票技術(shù)來(lái)增強(qiáng)。因此,DeepSeek將V3的評(píng)價(jià)和多次投票結(jié)果作為「獎(jiǎng)勵(lì)函數(shù)」,為開(kāi)放式問(wèn)題提供自我獎(jiǎng)勵(lì)。

▲DeepSeek認(rèn)為,有判斷能力的基礎(chǔ)模型本身就是足夠好的獎(jiǎng)勵(lì)模型。

「LLM(大語(yǔ)言模型)本身就是一款多功能處理器,能夠?qū)?lái)自不同場(chǎng)景的非結(jié)構(gòu)化信息轉(zhuǎn)化為獎(jiǎng)勵(lì),最終促進(jìn)LLMs的自我完善。」DeepSeek在發(fā)表V3模型的論文中稱,意思是如果一個(gè)大模型足夠優(yōu)秀、有判斷力,那么它應(yīng)該像優(yōu)秀的人類一樣,足夠用來(lái)對(duì)AI的回答作出評(píng)價(jià)。這一過(guò)程是V3模型超越Llama 3的關(guān)鍵。

3. 為什么DeepSeek做到了這種低成本,其他廠商尤其美國(guó)廠商沒(méi)有做到?

「資源的詛咒」一詞用在這個(gè)時(shí)候再合適不過(guò)了。相較于中國(guó)廠商,美國(guó)大模型公司們都有多得多的現(xiàn)金和算力為其大模型開(kāi)發(fā)開(kāi)路,英偉達(dá)也在不斷推出算力更強(qiáng)大同時(shí)也更昂貴的芯片滿足這些大廠的需要。大模型的Scaling Law(縮放定律)早就從模型本身向上延伸至了資金環(huán)節(jié)。不少大模型廠商——不止國(guó)內(nèi),都因預(yù)訓(xùn)練的昂貴在去年下半年退出游戲。

對(duì)那些資源豐富的大廠而言,阻力最小的方法是大肆招聘、支付高薪以及向英偉達(dá)支付高昂費(fèi)用。而DeepSeek-V系列的幾乎所有創(chuàng)新都與適應(yīng)帶寬受限的H800芯片有關(guān)。

4. DeepSeek-V3是個(gè)蒸餾模型嗎?

V3的訓(xùn)練成本公布之后,外界對(duì)它的最大質(zhì)疑就是它可能是個(gè)從其他先進(jìn)模型那里蒸餾出來(lái)的模型。

在V3、R1模型的相關(guān)論文中,DeepSeek的確都在結(jié)尾強(qiáng)調(diào)了在蒸餾技術(shù)上的探索。比如在V3模型中,DeepSeek就使用了從DeepSeek-R1系列模型中提取的推理能力——R1作為教師模型生成了80萬(wàn)訓(xùn)練樣本進(jìn)行訓(xùn)練?!笍腄eepSeek R1系列模型中提取推理CoT(思維鏈),并將其納入標(biāo)準(zhǔn)LLMs(大語(yǔ)言模型),特別是DeepSeek-V3。我們的流水線將R1的驗(yàn)證和反思模式優(yōu)雅地整合到了DeepSeek-V3中,顯著提高了其推理性能?!笵eepSeek在論文中稱。

除了將從R1系列模型中提取的80萬(wàn)思維鏈樣本用以訓(xùn)練V3,DeepSeek還進(jìn)一步探索了將這些數(shù)據(jù)應(yīng)用于阿里巴巴旗下的Qwen2.5系列模型后的效果。DeepSeek在論文中稱,經(jīng)過(guò)這種后訓(xùn)練的Qwen系列模型(DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B)效果「明顯優(yōu)于之前的版本,并與o1-mini相當(dāng)」。「我們證明了較大模型的推理模式可以被提取到較小的模型中」,DeepSeek稱,這為大模型的「后訓(xùn)練」優(yōu)化提供了一個(gè)有希望的新方向。

不過(guò),這些嘗試并不意味著DeepSeek的低成本模型V3本身是個(gè)蒸餾模型。根據(jù)其論文中的說(shuō)法,V3的上一代模型V2使用了8.1萬(wàn)億個(gè)token數(shù)據(jù)訓(xùn)練,V3模型的預(yù)訓(xùn)練數(shù)據(jù)擴(kuò)展到了14.8萬(wàn)億。論文顯示,V3總共使用了約280萬(wàn)GPU小時(shí)(包括266.4萬(wàn)小時(shí)預(yù)訓(xùn)練、11.9萬(wàn)小時(shí)上下文長(zhǎng)度訓(xùn)練和0.5萬(wàn)小時(shí)后訓(xùn)練),完成了約39.7億億次浮點(diǎn)運(yùn)算。這個(gè)計(jì)算量與訓(xùn)練14.8萬(wàn)億token的數(shù)據(jù)集的理論需求相符。也就是說(shuō),按照DeepSeek的DeepSeekMoE+DeepSeekMLA架構(gòu)、用FP8的低精度訓(xùn)練和傳輸數(shù)據(jù)、一次預(yù)測(cè)多個(gè)token,DeepSeek的確可以做到不到600萬(wàn)美元的成本。這是個(gè)合理數(shù)字。

5. 相較于DeepSeek-V3,DeepSeek-R1進(jìn)步在哪里?

V3模型和R1系列模型都是基于V3模型的更基礎(chǔ)版本V3-Base開(kāi)發(fā)的。相較于V3(類4o)模型,R1(類o1)系列模型進(jìn)行了更多自我評(píng)估、自我獎(jiǎng)勵(lì)式的強(qiáng)化學(xué)習(xí)作為后訓(xùn)練。

在R1之前,業(yè)界大模型普遍依賴于RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),這一強(qiáng)化學(xué)習(xí)模式使用了大量由人類撰寫的高質(zhì)量問(wèn)答以了解「什么才是好的答案」,幫助模型在獎(jiǎng)勵(lì)不明確的情況下知道如何作困難的選擇。正是這項(xiàng)技術(shù)的使用使得GPT-3進(jìn)化成了更通人性的GPT-3.5,制造了2022年年底ChatGPT上線時(shí)的驚喜體驗(yàn)。不過(guò),GPT的不再進(jìn)步也意味著這一模式已經(jīng)到達(dá)瓶頸。

R1系列模型放棄了RLHF中的HF(human feedback,人類反饋)部分,只留下純粹的RL(強(qiáng)化學(xué)習(xí))。在其首代版本R1-Zero中,DeepSeek相當(dāng)激進(jìn)地啟動(dòng)了如下強(qiáng)化學(xué)習(xí)過(guò)程:為模型設(shè)置兩個(gè)獎(jiǎng)勵(lì)函數(shù),一個(gè)用于獎(jiǎng)勵(lì)「結(jié)果正確」的答案(使用外部工具驗(yàn)證答案的最終正確性),另一個(gè)獎(jiǎng)勵(lì)「思考過(guò)程正確」的答案(通過(guò)一個(gè)小型驗(yàn)證模型評(píng)估推理步驟的邏輯連貫性);鼓勵(lì)模型一次嘗試幾個(gè)不同的答案,然后根據(jù)兩個(gè)獎(jiǎng)勵(lì)函數(shù)對(duì)它們進(jìn)行評(píng)分。

▲DeepSeek稱,R系列模型在強(qiáng)化學(xué)習(xí)中涌現(xiàn)出了「反思」能力。

DeepSeek發(fā)現(xiàn),由此進(jìn)入強(qiáng)化學(xué)習(xí)過(guò)程的R1-Zero生成的答案可讀性較差,語(yǔ)言也常常中英混合,但隨著訓(xùn)練時(shí)間增加,R1-Zero能不斷「自我進(jìn)化」,開(kāi)始出現(xiàn)諸如「反思」這樣的復(fù)雜行為,并探索解決問(wèn)題的替代方法。這些行為都未曾被明確編程。

DeepSeek稱,這種「啊哈時(shí)刻」出現(xiàn)在模型訓(xùn)練的中間階段。在此階段,DeepSeek-R1-Zero通過(guò)重新評(píng)估其初始方法來(lái)學(xué)習(xí)分配更多的思考時(shí)間?!高@一刻彰顯了強(qiáng)化學(xué)習(xí)的力量和美妙——只要提供正確的激勵(lì),模型會(huì)自主開(kāi)發(fā)高級(jí)解決問(wèn)題的策略?!笵eepSeek稱,經(jīng)過(guò)數(shù)千個(gè)這樣的「純強(qiáng)化學(xué)習(xí)」步驟,DeepSeek-R1-Zero在推理基準(zhǔn)測(cè)試中的性能就與OpenAI-o1-0912的性能相匹配了。

DeepSeek在論文中說(shuō),「這是第一個(gè)驗(yàn)證LLMs的推理能力可以純粹通過(guò)RL(強(qiáng)化學(xué)習(xí))來(lái)激勵(lì),而不需要SFT(supervised fine-tuning,基于監(jiān)督的微調(diào))的開(kāi)放研究?!?/p>

不過(guò),由于純強(qiáng)化學(xué)習(xí)訓(xùn)練中模型過(guò)度聚焦答案正確性,忽視了語(yǔ)言流暢性等基礎(chǔ)能力,導(dǎo)致生成文本中英混雜。為此DeepSeek又新增了冷啟動(dòng)階段——用數(shù)千條鏈?zhǔn)剿伎?CoT)數(shù)據(jù)先微調(diào)V3-Base模型,這些數(shù)據(jù)包含規(guī)范的語(yǔ)言表達(dá)和多步推理示例,使模型初步掌握邏輯連貫的生成能力;再啟動(dòng)強(qiáng)化學(xué)習(xí)流程,生成了大約60萬(wàn)個(gè)推理相關(guān)的樣本和大約20萬(wàn)個(gè)與推理無(wú)關(guān)的樣本,將這80萬(wàn)個(gè)樣本數(shù)據(jù)再次用于微調(diào)V3-Base后,就得到了R1——前面提到,DeepSeek還用這80萬(wàn)個(gè)以思維鏈為主的數(shù)據(jù)微調(diào)了阿里巴巴的Qwen系列開(kāi)源模型,結(jié)果表明其推理能力也提升了。

6. DeepSeek徹底解決推理問(wèn)題了嗎?是否意味著AGI不需要新范式?

DeepSeek在V3模型上的創(chuàng)新都是工程上的,其突破的更大意義在于改變大模型的既有商業(yè)模式以及美國(guó)對(duì)華的芯片制裁——V3的大量創(chuàng)新都與為克服使用H800而不是H100所帶來(lái)的內(nèi)存帶寬不足有關(guān)。為此,DeepSeek甚至繞過(guò)了英偉達(dá)的編程工具CUDA,對(duì)每塊H800芯片上132個(gè)處理單元中的20個(gè)進(jìn)行了重新編程,以專門用于管理跨芯片通信。

相較而言,R1在純強(qiáng)化學(xué)習(xí)上的探索至少達(dá)到了與OpenAI o1相當(dāng)?shù)乃?,o1背后的技術(shù)是否與R1相同的問(wèn)題目前未知,OpenAI沒(méi)有公開(kāi)過(guò)其o1模型的強(qiáng)化學(xué)習(xí)方案。不同大模型公司在強(qiáng)化學(xué)習(xí)中設(shè)置獎(jiǎng)勵(lì)函數(shù)的方式從來(lái)都千差萬(wàn)別。

不過(guò),還不能說(shuō)R1徹底解決了推理問(wèn)題,至少只要基于o1的代操作AI——Operator還不能像人一樣自如操作各種電子設(shè)備,就不能說(shuō)這種水平的AI就是通用人工智能了。目前,Operator理論上可以根據(jù)用戶要求執(zhí)行鼠標(biāo)和鍵盤允許的所有操作:只要用戶口頭交代一下,它就可以幫用戶訂外賣或查找旅游路線;遇到問(wèn)題或者操作出錯(cuò)時(shí),它能利用強(qiáng)化學(xué)習(xí)帶來(lái)的推理能力自我糾錯(cuò);實(shí)在無(wú)法解決問(wèn)題時(shí),它會(huì)將控制權(quán)交還給用戶——就像自動(dòng)駕駛一樣,AI遇到無(wú)法決策的困境時(shí)會(huì)將方向盤交還給人類司機(jī)。也和自動(dòng)駕駛一樣,這種「接管率」將是觀察基于強(qiáng)化學(xué)習(xí)的AI是否在進(jìn)步的指標(biāo)之一。

7. DeepSeek的成果會(huì)如何影響AI產(chǎn)業(yè)的未來(lái)?

美國(guó)科技股1月27日的表現(xiàn)已經(jīng)初步表明了DeepSeek接連發(fā)布的幾個(gè)模型對(duì)市場(chǎng)的影響力大小和范圍。

DeepSeek的低成本模型發(fā)布之際,美國(guó)總統(tǒng)特朗普剛剛宣布一個(gè)總額達(dá)5000億美元的AI基礎(chǔ)設(shè)施項(xiàng)目,OpenAI、軟銀等都已承諾參與其中。稍早前,微軟已經(jīng)表示2025年將在AI基礎(chǔ)設(shè)施上投入800億美元,Meta的扎克伯格則計(jì)劃在2025年為其人工智能戰(zhàn)略投資600億至650億美元。DeepSeek的低成本模型使人們開(kāi)始懷疑這些規(guī)模驚人的投資是否是種浪費(fèi),如果只用數(shù)百萬(wàn)美元,而不是數(shù)億元,就能訓(xùn)練一個(gè)4o等級(jí)的模型,那大模型對(duì)于GPU芯片的需求可能只是當(dāng)下的1/10甚至1/100。

英偉達(dá)的股價(jià)因此跌得最厲害,不過(guò)長(zhǎng)遠(yuǎn)看,受沖擊最大的不一定是英偉達(dá),而會(huì)是其他自研大模型并根據(jù)模型調(diào)用建立商業(yè)模式的公司,OpenAI、Anthropic、月之暗面、字節(jié)跳動(dòng)等都屬于這一范圍。推理成本上,OpenAI o1每百萬(wàn)輸入和百萬(wàn)輸出token分別收取15美元和60美元,而DeepSeek R1同樣輸入與輸出的價(jià)格分別只要0.55美元和2.19美元,差不多只是前者的3%。此前,OpenAI向使用其最先進(jìn)模型o1的用戶收取每月200美元的訂閱費(fèi),而且仍然處于虧損狀態(tài)并打算提價(jià),DeepSeek R1的出現(xiàn)可能令ChatGPT的提價(jià)計(jì)劃泡湯。

此外,一大批中國(guó)大模型公司比如字節(jié)跳動(dòng)和月之暗面2024年花在用戶增長(zhǎng)上的廣告費(fèi)可能會(huì)打水漂。數(shù)據(jù)監(jiān)測(cè)公司Sensor Tower的數(shù)據(jù)顯示,自今年1月11日上線以來(lái),DeepSeek App的累計(jì)下載量已超過(guò)300萬(wàn)次,其中,80%的下載量集中在1月20日至1月26日的一周內(nèi)。如果保持這種增速,DeepSeek不久就會(huì)進(jìn)入有千萬(wàn)用戶的AI應(yīng)用陣營(yíng)。

股價(jià)大跌近17%后,英偉達(dá)在一份聲明中稱,DeepSeek的成果證明了市場(chǎng)對(duì)英偉達(dá)芯片的需求會(huì)更多(而不是更少)。這一說(shuō)法有一定道理,因?yàn)楫?dāng)模型訓(xùn)練和推理都變得更便宜、只需要消耗更少算力,人工智能的商業(yè)化可以進(jìn)展更快,比如,R1的小型版本能夠在普通家庭電腦上運(yùn)行,這將有助于推動(dòng)AI應(yīng)用的普及與民主化——像蘋果這樣為大模型提供終端設(shè)備的公司會(huì)是贏家。1月27日的美國(guó)科技股大跌中,蘋果也是僅有的兩家沒(méi)有下跌的技術(shù)公司,另一家是擁有云計(jì)算業(yè)務(wù)的亞馬遜,它同樣在自研大模型上落后,但擁有無(wú)論什么模型都需要的云計(jì)算生意。

相較于訓(xùn)練環(huán)節(jié),進(jìn)入商業(yè)化后的推理環(huán)節(jié)會(huì)消耗更多倍的算力。而且,更有效的使用計(jì)算的方法并不意味著更多的算力沒(méi)有用。不過(guò)短期內(nèi),向英偉達(dá)大手筆下單的技術(shù)公司們會(huì)變得更謹(jǐn)慎。

當(dāng)然,最大的贏家還是消費(fèi)者。

8. 為什么幻方——一家量化投資公司——要大力投資人工智能?

DeepSeek由梁文峰于2023年12月創(chuàng)立,在此之前,他于2015年成立了名為「幻方量化」(High-Flyer)的量化對(duì)沖基金,該基金通過(guò)AI分析金融數(shù)據(jù)從而作出交易決策。2019 年,幻方量化成為國(guó)內(nèi)首個(gè)募資超過(guò)1000億元的的量化對(duì)沖基金。

雖然一直有聲音認(rèn)為金融市場(chǎng)就像變幻莫測(cè)的天氣一樣無(wú)法預(yù)測(cè),這些人可能正確,但1980年代以來(lái),不斷有數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家希望為價(jià)格建模,并據(jù)此賺到錢。1988年至2018年的30年間,美國(guó)量化投資巨頭文藝復(fù)興科技創(chuàng)造了39.1%的年化復(fù)合收益率,遠(yuǎn)超過(guò)巴菲特、索羅斯等傳統(tǒng)靠人來(lái)決定何時(shí)下注的投資大師。

這些量化基金并不追求預(yù)測(cè)金融市場(chǎng)下一刻的價(jià)格,而是專注于尋找發(fā)現(xiàn)市場(chǎng)中存在特定的價(jià)格模式。比如「24小時(shí)效應(yīng)」模式:周一的價(jià)格變化常常是周五趨勢(shì)的延續(xù),而這個(gè)趨勢(shì)到了周二就會(huì)反轉(zhuǎn)(24小時(shí)效應(yīng));「周末效應(yīng)」:如果市場(chǎng)在周五展現(xiàn)出清晰的上升趨勢(shì),那么周五收盤前買入再到下周一一早賣出,也大概率會(huì)賺錢;再比如有的資產(chǎn)一旦第一天升值了,它第二天大概率會(huì)繼續(xù)升值,反之亦然。這些有預(yù)測(cè)能力的金融信號(hào)就此成為量化基金們用以指導(dǎo)投資的交易因子(indicators),雖然潛在盈利空間沒(méi)那么大,只要交易頻率夠高(與價(jià)值投資倡導(dǎo)的剛好相反),量化基金們就能吃到市場(chǎng)的肥尾。

大模型擅長(zhǎng)從大規(guī)模數(shù)據(jù)中尋找模式,這種能力正對(duì)熱衷從金融數(shù)據(jù)中尋找交易因子的量化基金的胃口?;梅搅炕膊焕狻eepSeek目前尚未推出相應(yīng)的金融投資大模型,不過(guò)這只是時(shí)間問(wèn)題。(作者:吳洋洋)

(來(lái)源:新皮層NewNewThing)

標(biāo)簽:DeepSeek 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書(shū)下載
ABB協(xié)作機(jī)器人,自動(dòng)化從未如此簡(jiǎn)單
優(yōu)傲機(jī)器人下載中心
2024全景工博會(huì)
專題報(bào)道
2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國(guó)內(nèi)外企業(yè)推進(jìn)“雙碳”實(shí)踐的最新成果,鼓勵(lì)更多企業(yè)、科研機(jī)構(gòu)、投資機(jī)構(gòu)等廣泛... [更多]

中國(guó)國(guó)際進(jìn)口博覽會(huì)
中國(guó)國(guó)際進(jìn)口博覽會(huì)

11月5日至10日,第七屆中國(guó)國(guó)際進(jìn)口博覽會(huì)在國(guó)家會(huì)展中心(上海)舉行。152個(gè)國(guó)家、地區(qū)和國(guó)際組織,近3500家參展企... [更多]

2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]