DeepSeek下一代技術(shù)提前曝光，梁文鋒署名論文獲ACL2025最佳論文

發(fā)布時(shí)間：2025-07-31 09:26:37來(lái)源：量子位

　　夢(mèng)晨發(fā)自凹非寺

　　量子位 | 公眾號(hào) QbitAI

　　在ACL 2025的頒獎(jiǎng)典禮上，由DeepSeek梁文鋒作為通訊作者、與北京大學(xué)等聯(lián)合發(fā)表的論文榮獲最佳論文獎(jiǎng)。

　　這次ACL 2025規(guī)?？涨?，總投稿量達(dá)到8360篇，相較于去年的4407篇幾乎翻倍，競(jìng)爭(zhēng)異常激烈。

　　簡(jiǎn)單來(lái)說(shuō)，他們提出的原生稀疏注意力(NSA)機(jī)制，通過(guò)算法與硬件的協(xié)同優(yōu)化，直接把長(zhǎng)文本處理速度提升了11倍。更厲害的是，性能不僅沒(méi)降反而還超越了傳統(tǒng)的全注意力模型。

　　一作袁境陽(yáng)在會(huì)上發(fā)表演講，透露這項(xiàng)技術(shù)可以把上下文長(zhǎng)度擴(kuò)展到1百萬(wàn)tokens，將被應(yīng)用到下一個(gè)前沿模型中。

　　結(jié)合論文發(fā)表于DeepSeek-R1推出之后，實(shí)驗(yàn)設(shè)置中也提到使用了DeepSeek-R1的蒸餾數(shù)據(jù)來(lái)微調(diào)了新的模型。

　　大家紛紛猜測(cè)，這項(xiàng)技術(shù)將被用于下一代DeepSeek-V4以及DeepSeek-R2。

　　給注意力機(jī)制瘦身，速度狂飆11倍

　　長(zhǎng)久以來(lái)，大語(yǔ)言模型處理長(zhǎng)文本就像是戴著鐐銬跳舞。傳統(tǒng)的全注意力機(jī)制計(jì)算復(fù)雜度隨序列長(zhǎng)度呈平方級(jí)增長(zhǎng)，處理64k長(zhǎng)度的文本時(shí)，注意力計(jì)算竟然要占到總延遲的70-80%。

　　這篇論文的解決思路很巧妙：既然不是所有詞之間的關(guān)系都同等重要，為什么不讓模型學(xué)會(huì)”抓重點(diǎn)”呢?

　　NSA采用了一種動(dòng)態(tài)分層的稀疏策略，通過(guò)三條并行的注意力分支協(xié)同工作：

　　壓縮注意力，負(fù)責(zé)捕捉粗粒度的全局信息模式，就像快速瀏覽全文抓住大意;

　　選擇性注意力，則專注于序列中最重要的詞塊，相當(dāng)于精讀關(guān)鍵段落;

　　滑動(dòng)注意力，負(fù)責(zé)獲取局部的上下文信息，確保細(xì)節(jié)不丟失。

　　這種設(shè)計(jì)最精妙的地方在于，它不是簡(jiǎn)單地丟棄信息，而是通過(guò)精心設(shè)計(jì)的算法平衡了計(jì)算密度。

　　更重要的是，整個(gè)架構(gòu)針對(duì)現(xiàn)代GPU硬件進(jìn)行了深度優(yōu)化，實(shí)現(xiàn)了端到端的原生可訓(xùn)練模式。

　　在實(shí)際測(cè)試中，處理64k長(zhǎng)度序列時(shí)，NSA在解碼、前向傳播和反向傳播的全生命周期中都展現(xiàn)出驚人的速度優(yōu)勢(shì)。

　　解碼階段速度提升11.6倍，前向傳播提升9倍，反向傳播也有6倍的加速，無(wú)論是模型推理還是訓(xùn)練，都能獲得實(shí)實(shí)在在的效率提升。

　　不僅快還更準(zhǔn)，長(zhǎng)文本處理迎來(lái)新突破

　　速度快只是NSA的一面，更讓人驚訝的是它在各項(xiàng)基準(zhǔn)測(cè)試中的表現(xiàn)。

　　在通用基準(zhǔn)測(cè)試中，采用NSA預(yù)訓(xùn)練的27B參數(shù)模型在9個(gè)評(píng)測(cè)指標(biāo)中有7個(gè)超越了全注意力基線。特別是在推理相關(guān)的基準(zhǔn)測(cè)試上，DROP提升了0.042，GSM8K提升了0.034，顯示出稀疏注意力在強(qiáng)制模型聚焦關(guān)鍵信息方面的獨(dú)特優(yōu)勢(shì)。

　　長(zhǎng)文本處理能力的測(cè)試結(jié)果更是亮眼。在64k上下文的”大海撈針”測(cè)試中，NSA在所有位置都實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。在LongBench基準(zhǔn)測(cè)試上，NSA取得了0.469的平均分，不僅超越了全注意力基線(+0.032)，更是大幅領(lǐng)先其他稀疏注意力方法。

　　特別值得一提的是，在需要復(fù)雜推理的多跳問(wèn)答任務(wù)上，NSA相比全注意力分別提升了0.087(HPQ)和0.051(2Wiki);在代碼理解任務(wù)(LCC)上提升了0.069;在段落檢索任務(wù)(PassR-en)上提升了0.075。

　　研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)有趣的實(shí)驗(yàn)：

　　他們用DeepSeek-R1的數(shù)學(xué)推理數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)，然后在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME 24)上測(cè)試。

　　結(jié)果顯示，NSA-R在8k上下文設(shè)置下的準(zhǔn)確率達(dá)到0.121，而全注意力模型只有0.046;即使在16k上下文下，NSA-R仍然保持0.146的準(zhǔn)確率，遠(yuǎn)超全注意力的0.092。

　　這些結(jié)果充分證明了NSA不是通過(guò)犧牲性能來(lái)?yè)Q取速度，而是真正實(shí)現(xiàn)了效率和能力的雙贏。

　　Three More Thing

　　這次總共評(píng)選出4篇最佳論文，另外三篇包括：

　　北大團(tuán)隊(duì)的《Language Models Resist Alignment: Evidence From Data Compression》

　　研究了大型語(yǔ)言模型的“彈性”，指模型經(jīng)過(guò)對(duì)齊訓(xùn)練(讓模型符合人類價(jià)值觀、減少有害輸出)后，很容易因?yàn)楹罄m(xù)的微調(diào)而變回預(yù)訓(xùn)練時(shí)的狀態(tài)，就像彈簧被拉伸后會(huì)反彈一樣。

　　這意味著現(xiàn)有的對(duì)齊方法可能只是表面上改變了模型，不夠穩(wěn)固。未來(lái)需要更有效的對(duì)齊技術(shù)，才能讓模型真正穩(wěn)定地符合人類需求，尤其是在開(kāi)源模型中，要避免惡意微調(diào)輕易破壞安全機(jī)制。

　　斯坦福團(tuán)隊(duì)的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

　　研究了大模型“公平性” 上的一個(gè)新視角 “差異感知”。簡(jiǎn)單來(lái)說(shuō)，就是模型應(yīng)該在合適的場(chǎng)景下對(duì)不同群體做出區(qū)分，而不是一味地一視同仁。

　　研究發(fā)現(xiàn)那些在傳統(tǒng)公平性測(cè)試中表現(xiàn)好的模型，在 “差異感知” 上得分并不高;模型能力越強(qiáng)(比如 MMLU 分?jǐn)?shù)越高)，情境感知能力越好，但差異感知能力未必提升;現(xiàn)有的 “去偏見(jiàn)” 方法(比如提示模型 “保持無(wú)偏見(jiàn)”)反而會(huì)讓模型更無(wú)視差異，甚至把正確答案改錯(cuò)。

　　亥姆霍茲信息安全中心等團(tuán)隊(duì)的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

　　這篇論文指出大模型生成回答時(shí)的采樣機(jī)制與人類決策類似，包含描述性成分(反映概念的統(tǒng)計(jì)常態(tài))和規(guī)定性成分(隱含的概念理想狀態(tài))。

　　研究通過(guò)實(shí)驗(yàn)驗(yàn)證，無(wú)論是新創(chuàng)概念還是現(xiàn)有概念(涵蓋 10 個(gè)領(lǐng)域的 500 個(gè)概念)，LLMs 生成的樣本都會(huì)偏離統(tǒng)計(jì)平均值，向其認(rèn)為的 “理想值” 偏移，且這種現(xiàn)象在 15 種不同模型中均顯著存在。案例研究顯示，這種偏向可能導(dǎo)致醫(yī)療等領(lǐng)域的有偏決策，引發(fā)倫理問(wèn)題。