“神秘的東方力量”出現(xiàn)，全球科技圈慌了？

　　來源：中國新聞周刊　

　　AI圈又領(lǐng)教了一回“神秘的神秘東方力量”。

　　1月20日，量出國內(nèi)人工智能技術(shù)企業(yè)深度求索（DeepSeek）官宣了其最新AI推理模型DeepSeek R1。現(xiàn)全該模型在數(shù)學(xué)、球科代碼和自然語言推理等任務(wù)上表現(xiàn)優(yōu)異，技圈性能直接對標(biāo)美國OpenAI最新的神秘推理模型o1。此時，量出距離o1的現(xiàn)全正式發(fā)布過去還不到半年。

　　消息一出，球科AI圈幾近沸騰。技圈社交平臺X上，神秘有國外大廠工程師直白表示，量出其所在生成式模型研發(fā)部門“處于恐慌之中”?，F(xiàn)全英偉達(dá)資深科學(xué)家Jim Fan給予R1極高評價，球科稱其不僅開源，技圈還分享了所有模型訓(xùn)練細(xì)節(jié)，做了OpenAI“一直聲稱要做卻沒做到的事”。一時間，圈內(nèi)掀起了測試和復(fù)刻R1的熱潮。1月27日，DeepSeek同時登頂蘋果中美兩區(qū)App免費(fèi)榜。據(jù)媒體報(bào)道，這也是唯一一次中國應(yīng)用能同期在中國和美區(qū)蘋果App Store占據(jù)第一位。

　　多位業(yè)內(nèi)人士指出，DeepSeek此次最大的貢獻(xiàn)，是向世界展示了快速、低成本實(shí)現(xiàn)o1同等模型能力的可能性。清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授劉知遠(yuǎn)告訴《中國新聞周刊》，“東方力量”其實(shí)就是工程創(chuàng)新加持下的追趕能力。在算力吃緊的情況下，DeepSeek打了一場以少勝多的仗。

DeepSeek R1手機(jī)端App下載界面圖/視覺中國

　　低成本培養(yǎng)出的“數(shù)理天才”

　　DeepSeek R1有多厲害？

　　有測試者讓R1詳細(xì)解釋勾股定理，R1在不到30秒的時間內(nèi)生成了完整的圖形動畫，給出了經(jīng)典的證明過程，沒有出現(xiàn)差錯。另一個常用的測試問題是碰撞檢測，測試者要求大模型編寫一個程序，使得一顆小球在某個緩慢旋轉(zhuǎn)的幾何形狀內(nèi)彈跳，并保持小球停留在形狀內(nèi)。碰撞檢測十分考驗(yàn)?zāi)Ｐ偷耐评砟芰?，稍有不慎就會?dǎo)致肉眼可見的物理錯誤。這項(xiàng)測試?yán)?，R1的表現(xiàn)明顯優(yōu)于OpenAI o1 pro模式。

　　OpenAI于2024年9月發(fā)布了推理模型o1，首次實(shí)現(xiàn)真正的通用推理能力，相比其前作GPT-4o有巨大的性能提升，能在“博士級別”的科學(xué)問答環(huán)節(jié)上超越人類專家。新加坡南洋理工大學(xué)計(jì)算機(jī)學(xué)院助理教授劉子緯向《中國新聞周刊》解釋，傳統(tǒng)的ChatGPT模型屬于感知模型，擅長提取事件信息。但真實(shí)世界的很多任務(wù)不能僅靠感知完成，而是需要一定的決策推理，而且越復(fù)雜的任務(wù)決策成分越多，比如編程、數(shù)據(jù)分析等。因此，推理模型是業(yè)界公認(rèn)的通往通用人工智能（AGI）不可或缺的模型形態(tài)。

　　同為推理模型，在很多方面，R1都與o1的性能持平。在美國數(shù)學(xué)邀請賽AIME2024的測試中，R1取得了79.8%的成績，甚至略高于o1，甩開其他開源模型一大截。編碼類任務(wù)方面，R1也展現(xiàn)出專家級水平，在算法競賽平臺Codeforces上的表現(xiàn)超過了96.3%的人類參賽者。

　　在DeepSeek公開的22頁技術(shù)報(bào)告中，有一個展示R1能力的直觀案例。在解決一道復(fù)雜數(shù)學(xué)表達(dá)式問題時，R1在解題步驟中突然停下來說“等等，這是個值得標(biāo)記的啊哈時刻”，隨后自主修正了解題過程。“啊哈”類似于人類的頓悟，R1的這種行為完全是自發(fā)產(chǎn)生的，而非預(yù)先設(shè)定。這也意味著，它已經(jīng)擁有了相當(dāng)程度的思考和自悟能力。

　　看上去R1已經(jīng)走出了“題海戰(zhàn)術(shù)”，轉(zhuǎn)而進(jìn)入了探究性學(xué)習(xí)的領(lǐng)域。事實(shí)上，這正是它的核心技術(shù)強(qiáng)化學(xué)習(xí)與傳統(tǒng)監(jiān)督學(xué)習(xí)的差別。劉知遠(yuǎn)指出，傳統(tǒng)大模型特別是o1以前的GPT系列模型，都采用監(jiān)督學(xué)習(xí)的訓(xùn)練方法，意味著模型學(xué)習(xí)的目標(biāo)有標(biāo)準(zhǔn)答案。比如讓模型根據(jù)一篇文章的部分文字，去預(yù)測下一個詞。由于用于訓(xùn)練的文章是完整的，因此這個詞是固定的，預(yù)測結(jié)果也有明確的對錯。人類就像嚴(yán)厲的老師，對模型的預(yù)測行為反復(fù)規(guī)訓(xùn)。

　　而強(qiáng)化學(xué)習(xí)則是在開放環(huán)境中進(jìn)行的任務(wù)訓(xùn)練，開發(fā)者只會告訴模型，它走出的每一步會得到外部環(huán)境怎樣的反饋。模型需要根據(jù)反饋，自己學(xué)會如何去接近最終目標(biāo)?！斑@個世界沒有那么多純數(shù)學(xué)題，因此無法永遠(yuǎn)通過給標(biāo)準(zhǔn)答案的方式，讓模型完成監(jiān)督學(xué)習(xí)。”劉知遠(yuǎn)說。從監(jiān)督學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的范式轉(zhuǎn)變，是實(shí)現(xiàn)推理模型的關(guān)鍵。

　　劉子緯指出，o1可視作大模型強(qiáng)化學(xué)習(xí)的鼻祖，但其沒有公開技術(shù)文件，因此其強(qiáng)化學(xué)習(xí)的具體技術(shù)路線和占比，只能靠業(yè)內(nèi)猜測，但可以確定其采用了預(yù)訓(xùn)練、監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)的流程。預(yù)訓(xùn)練類似“背書自學(xué)”基礎(chǔ)知識，監(jiān)督微調(diào)類似學(xué)生模仿教師的示范來解例題，最后強(qiáng)化學(xué)習(xí)相當(dāng)于“模擬考試”。而R1則拋棄了監(jiān)督學(xué)習(xí)，也就是跳過了例題階段，僅憑基礎(chǔ)語言能力和數(shù)學(xué)規(guī)則，在持續(xù)解題試錯中自悟方法論，考出高分，這一點(diǎn)得到了絕大多數(shù)從業(yè)者的贊嘆。

　　而除了性能外，R1更令人震撼的優(yōu)點(diǎn)在于便宜。2024年底，DeepSeek推出V3模型，作為R1的前體，訓(xùn)練成本僅為557.6萬美元，而2020年發(fā)布的GPT-3的訓(xùn)練成本接近1200萬美元，GPT-4更是超1億美元。技術(shù)報(bào)告顯示，R1面向開發(fā)者的服務(wù)定價為每百萬輸入字符串（token）1—4元，這一價格只有o1的1/30左右。

　　R1怎么能如此便宜？劉子緯認(rèn)為，算力達(dá)到一定量級的情況下，可以通過工程創(chuàng)新把性能差距抹平。在堆算力的“大力出奇跡”路線進(jìn)入瓶頸后，DeepSeek選擇了在底層算法、訓(xùn)練模式和數(shù)據(jù)三個層面進(jìn)行了工程迭代?；诨旌蠈＜夷Ｐ汀⒆⒁饬C(jī)制等方面的創(chuàng)新，R1做到了“用50次運(yùn)算達(dá)成別人做100次運(yùn)算的效果”，效能提升明顯。而在拋棄監(jiān)督學(xué)習(xí)后，計(jì)算資源的需求也大幅減少。

　　由于超高性價比，1月27日，蘋果App Store中國區(qū)免費(fèi)榜顯示，DeepSeek站上首位。同時，DeepSeek在美區(qū)蘋果App Store免費(fèi)榜從昨日的第六位飆升至第一位。有業(yè)內(nèi)人士稱，R1已經(jīng)成為美國頂尖高校研究人員的首選模型。一位不愿具名的來自澳門大學(xué)的AI研究者向《中國新聞周刊》表示，R1完全可以取代日?？蒲袑PT模型的使用需求，在對科研文章的錯誤識別、修改潤色、語言轉(zhuǎn)換上都表現(xiàn)出色。

　　商業(yè)化落地仍待探索

　　盡管R1展現(xiàn)出了驚人的推理能力，但它的思維過程可能難以被人理解。技術(shù)報(bào)告指出，純強(qiáng)化學(xué)習(xí)訓(xùn)練出來的模型存在可讀性差和語言混雜問題，有用戶反映多語言輸入可能會造成模型輸出混亂，有時中文的提問也可能得到英文的回答。這一現(xiàn)象更多出現(xiàn)在純強(qiáng)化學(xué)習(xí)的R1-Zero模型中。

　　劉子緯也將R1形容為“有些偏科的數(shù)理天才”。R1在他眼中雖然很聰明，但給出的文字回復(fù)相比于o1缺乏流暢性和情緒價值，顯得笨拙?！肮径ㄎ粫?dǎo)致其偏重模型性能?！眲⒆泳曊f。由于DeepSeek還在提升模型能力，尚未開始優(yōu)化用戶體驗(yàn)，因此用戶親和度方面還有待提升。在這一點(diǎn)上，OpenAI涉足較早。

　　但當(dāng)創(chuàng)作任務(wù)涉及推演和類比時，R1的表現(xiàn)仍可圈可點(diǎn)。有測試者用簡單的幾個提示詞，就讓R1在極短時間內(nèi)創(chuàng)作了一篇情節(jié)精彩的科幻小說。社交平臺上，有電影評論賬號喂給R1《出師表》，讓其仿照該文體創(chuàng)作一篇影評，R1給出了符合文言文規(guī)范，且“超越一般影評人”的洞見。劉子緯認(rèn)為，模型的推理能力可以遷移到文學(xué)，令其產(chǎn)生通過邏輯思辨的方式創(chuàng)作議論文的能力。

　　用戶使用R1的過程中，偶爾會得到錯誤答案，甚至有用戶發(fā)現(xiàn)詢問R1身份時，其可能自稱o1。這種混亂廣泛出現(xiàn)在現(xiàn)有大模型中，有業(yè)內(nèi)人士認(rèn)為，這源于大多數(shù)模型對OpenAI基礎(chǔ)模型的蒸餾。蒸餾即將訓(xùn)練過的“教師模型”的知識傳遞給“學(xué)生模型”，從而在最大程度保存原模型性能的同時，大幅縮減計(jì)算資源消耗?！坝心Ｐ妥龅搅?0分，我想迅速達(dá)到55分的水平，比較快的方式就是去蒸餾一個‘教師模型’，可以迅速拿到模型反饋，暴露思維過程，得到可貴的數(shù)據(jù)基礎(chǔ)。研發(fā)初期，許多企業(yè)都依靠或者部分依靠模型蒸餾?！眲⒆泳曁寡?。

　　由于原模型只能提供60分的答案，要漲到70分就得靠模型努力找一條新路。因此蒸餾無法形成模型的真正迭代。劉知遠(yuǎn)認(rèn)為，強(qiáng)化學(xué)習(xí)是通向AGI的重要版圖之一，符合人類認(rèn)知世界的方式，已成為大模型未來發(fā)展的業(yè)內(nèi)共識，強(qiáng)化學(xué)習(xí)的技術(shù)成熟也需要時間。

　　劉子緯指出，R1使用了一些GPT-4o產(chǎn)生的數(shù)據(jù)去做“熱啟動”，讓模型先形成對現(xiàn)有問題的基本認(rèn)知，這也被稱為數(shù)據(jù)蒸餾。相比之下，完全通過“冷啟動”讓模型立刻進(jìn)入強(qiáng)化學(xué)習(xí)狀態(tài)是非常困難的?！耙粋€小學(xué)生學(xué)習(xí)知識也得先學(xué)課本，達(dá)到一定智力水平后，再進(jìn)入實(shí)踐中學(xué)習(xí)?！庇谜鎸?shí)數(shù)據(jù)而非模型數(shù)據(jù)訓(xùn)練模型是開發(fā)者的共識，但真實(shí)數(shù)據(jù)的篩選、清洗、降噪等工作并不容易。

　　“即使用模型輸出數(shù)據(jù)也很難保證訓(xùn)練結(jié)果，這取決于人類給模型創(chuàng)造了怎樣的問題，以及提供怎樣的答案?！眲⒆泳曊f。例如DeepSeek使用了大量代碼數(shù)據(jù)、數(shù)學(xué)題甚至奧數(shù)題用于訓(xùn)練R1。“如何將這些數(shù)據(jù)喂給模型，需要大量創(chuàng)新?！?/p>

　　從這個意義上說，R1的表現(xiàn)已足夠出色，而它的創(chuàng)造者的主業(yè)甚至不是AI。DeepSeek背后的投資公司為幻方量化，是一家依靠數(shù)學(xué)與計(jì)算機(jī)科學(xué)進(jìn)行量化投資的基金公司。該公司從2016年起將深度學(xué)習(xí)模型應(yīng)用于實(shí)盤交易，囤積了大量算力，正式成立大模型團(tuán)隊(duì)DeepSeek的時間則是2023年?！耙菜闶歉睒I(yè)做得比主業(yè)出圈的典型了?！眲⒆泳曊f。

　　大模型企業(yè)仍需審慎研判模型的商業(yè)價值，也就是能不能賺錢。劉知遠(yuǎn)指出，國內(nèi)外企業(yè)都還在尋找大模型的最佳變現(xiàn)方式。目前，市場上已有多家企業(yè)具備做出GPT水平大模型的能力，接下來要考慮區(qū)分度是什么，落地的用戶App是什么，以及在價格戰(zhàn)的前提下如何收回上億元的研發(fā)成本。這些問題的答案都還相對模糊。

　　劉子緯認(rèn)為，大模型已足夠強(qiáng)，但在垂類上跟用戶需求還沒有緊密貼合，未來AGI的核心交互形態(tài)也尚無定論。目前，國內(nèi)外大模型企業(yè)一部分繼續(xù)高舉高打AGI，保證模型能力，通過用戶來試探落地方式。比如有學(xué)生用大模型來備考、寫論文等。另一部分企業(yè)則專注于做垂類應(yīng)用，比如醫(yī)療領(lǐng)域。劉子緯預(yù)計(jì)，2025年會涌現(xiàn)一大批大模型應(yīng)用，是真正的“強(qiáng)化學(xué)習(xí)之年”。

　　多位業(yè)內(nèi)人士表示，DeepSeek真正的價值，在于展示了工程實(shí)踐和理論創(chuàng)新之間的平衡點(diǎn)，開創(chuàng)了一條符合現(xiàn)實(shí)算力約束的技術(shù)迭代道路?！癛1說明開源 AI 僅落后于閉源 AI 不到 6 個月?！痹趧⒅h(yuǎn)看來，GPT階段也就是2023年初的時候， OpenAI模型發(fā)布之后，國內(nèi)團(tuán)隊(duì)需要一年的時間才能趕上。但是到了文生視頻模型Sora，以及后來的GPT-4o和o1，國內(nèi)的追趕時間縮短到半年以內(nèi)。

　　“DeepSeek的階段性成果釋放了一個信號，那就是通過芯片禁運(yùn)等方式來遏制國內(nèi)AI發(fā)展難以行通。這就是開源的力量?！眲⒅h(yuǎn)說。

　　記者：周游（nolan.y.zhou@gmail.com）

點(diǎn)擊進(jìn)入專題： DeepSeek“火”到海外

亚洲欧美日韩在线|中文字幕爆乳无码专区|日韩精品不卡无码视频|日韩欧美一区二区视频播放|欧美爽到高潮漏水大喷视频|人妻丝袜美腿中文字幕|大波妺AV网站免费综合影院|2019日韩欧美中文字幕在线

資訊熱線:020-123456789

“神秘的東方力量”出現(xiàn)，全球科技圈慌了？

關(guān)于我們

推薦產(chǎn)品

推薦新聞

網(wǎng)站導(dǎo)航

行業(yè)網(wǎng)站

聯(lián)系我們

資訊訂閱

亚洲欧美日韩在线|中文字幕爆乳无码专区|日韩精品不卡无码视频|日韩欧美一区二区视频播放|欧美爽到高潮漏水大喷视频|人妻 丝袜美腿 中文字幕|大波妺AV网站免费综合影院|2019日韩欧美中文字幕在线

資訊熱線:020-123456789

“神秘的東方力量”出現(xiàn)，全球科技圈慌了？

關(guān)于我們

推薦產(chǎn)品

推薦新聞

網(wǎng)站導(dǎo)航

行業(yè)網(wǎng)站

聯(lián)系我們

資訊訂閱

亚洲欧美日韩在线|中文字幕爆乳无码专区|日韩精品不卡无码视频|日韩欧美一区二区视频播放|欧美爽到高潮漏水大喷视频|人妻丝袜美腿中文字幕|大波妺AV网站免费综合影院|2019日韩欧美中文字幕在线

“神秘的東方力量”出現(xiàn)，全球科技圈慌了？