今日深圳 > 正文

頭條焦點(diǎn)：北大騰訊團(tuán)隊(duì)只改一行代碼，讓AI圖像生成效果提升20%！

2026-01-27 22:23:25 來源：科技行者

這項(xiàng)研究由北京大學(xué)和騰訊混元實(shí)驗(yàn)室共同完成，并于2026年1月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)學(xué)術(shù)期刊上。論文編號(hào)為arXiv:2601.17124，感興趣的讀者可以通過此編號(hào)查找完整的技術(shù)細(xì)節(jié)。

(資料圖片)

想象一下，你正在烘焙蛋糕，面前有兩個(gè)不同的烤箱。一個(gè)烤箱只能設(shè)定幾個(gè)固定的溫度檔位，比如低溫、中溫、高溫，這就像是現(xiàn)在AI繪畫中的"離散模式"。另一個(gè)烤箱可以精確調(diào)節(jié)到任意溫度，就像"連續(xù)模式"。長(zhǎng)期以來，AI圖像生成領(lǐng)域就被這樣分成了兩個(gè)陣營(yíng)，無法統(tǒng)一比較哪種方式更好。

但北京大學(xué)和騰訊混元的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的解決方案。他們注意到，現(xiàn)有的圖像編碼技術(shù)FSQ就像一個(gè)可以在兩種模式間切換的烤箱，但這個(gè)烤箱有個(gè)致命缺陷：溫度分布不均勻。大多數(shù)食物都擠在中間幾個(gè)溫度檔位，而邊緣的檔位幾乎用不到，造成了嚴(yán)重的"溫度浪費(fèi)"。

研究團(tuán)隊(duì)的洞察力在于，他們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)處理圖像時(shí)產(chǎn)生的數(shù)據(jù)分布就像鐘形曲線一樣，大部分?jǐn)?shù)值集中在中間，兩端很少。但FSQ采用的是平均分布的量化方式，就好比用同樣大小的盒子來裝不同數(shù)量的物品，必然會(huì)造成中間的盒子裝得滿滿當(dāng)當(dāng)，邊緣的盒子卻空空如也。

解決這個(gè)問題的方法出人意料地簡(jiǎn)單。研究團(tuán)隊(duì)只是將FSQ中的一個(gè)數(shù)學(xué)函數(shù)從"tanh"替換成了"2 × sigmoid(1.6x) - 1"，僅僅一行代碼的改動(dòng)。這個(gè)看似微小的調(diào)整卻產(chǎn)生了神奇的效果：它將原本鐘形分布的數(shù)據(jù)重新映射成了均勻分布，就像把擠在中間的物品重新平均分配到所有盒子里。

這種改進(jìn)后的方法被命名為iFSQ。為了驗(yàn)證效果，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精巧的實(shí)驗(yàn)。他們用500,000個(gè)符合標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)點(diǎn)，測(cè)試不同參數(shù)設(shè)置下的分布匹配效果。結(jié)果顯示，當(dāng)參數(shù)α設(shè)置為1.6時(shí)，轉(zhuǎn)換后的分布與理想的均勻分布最為接近，無論是通過均方根誤差還是統(tǒng)計(jì)學(xué)上的KS檢驗(yàn)，都明顯優(yōu)于原始的FSQ方法。

更令人驚喜的是，這種改進(jìn)在圖像重建質(zhì)量上帶來了顯著提升。在ImageNet數(shù)據(jù)集上的測(cè)試表明，iFSQ在峰值信噪比、結(jié)構(gòu)相似性和感知質(zhì)量等多個(gè)指標(biāo)上都超過了原版FSQ。即使在從未見過的COCO數(shù)據(jù)集上測(cè)試，同樣的改進(jìn)趨勢(shì)依然成立，證明了這種方法的普適性。

研究團(tuán)隊(duì)進(jìn)一步探索了這個(gè)發(fā)現(xiàn)的深層含義。他們發(fā)現(xiàn)，在圖像生成任務(wù)中，存在一個(gè)最佳的量化位數(shù)"甜蜜點(diǎn)"——4位編碼。就像調(diào)節(jié)相機(jī)的分辨率一樣，太低會(huì)失去細(xì)節(jié)，太高則浪費(fèi)存儲(chǔ)空間還可能帶來噪聲。4位編碼恰好在保持圖像質(zhì)量和壓縮效率之間找到了完美平衡。

基于這個(gè)統(tǒng)一的編碼框架，研究團(tuán)隊(duì)終于可以公平地比較兩種主流的AI圖像生成方法：自回歸模型和擴(kuò)散模型。這就像終于可以在同一個(gè)跑道上比較兩款不同的賽車性能。結(jié)果發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：自回歸模型在訓(xùn)練初期收斂很快，就像起跑時(shí)加速迅猛的賽車，但隨著訓(xùn)練進(jìn)行，擴(kuò)散模型逐漸顯示出更強(qiáng)的最終性能，就像耐力更好的長(zhǎng)跑選手最終超越了短跑冠軍。

這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要的深層原理：自回歸模型嚴(yán)格的序列依賴特性雖然讓它們?cè)谠缙诒憩F(xiàn)出色，但也可能限制了它們達(dá)到的上限。相比之下，擴(kuò)散模型雖然起步較慢，但其并行處理的特性讓它們有更大的提升空間。

研究團(tuán)隊(duì)還深入分析了自回歸模型內(nèi)部的工作機(jī)制。他們發(fā)現(xiàn)這類模型在處理圖像時(shí)會(huì)經(jīng)歷一個(gè)明顯的"角色轉(zhuǎn)換"過程：前幾層專注于理解當(dāng)前圖像內(nèi)容，就像先仔細(xì)觀察眼前的拼圖碎片；而后幾層則轉(zhuǎn)向預(yù)測(cè)下一個(gè)應(yīng)該放置的碎片。這種轉(zhuǎn)換通常發(fā)生在網(wǎng)絡(luò)深度的大約三分之一處，這個(gè)比例在不同規(guī)模的模型中都保持相對(duì)穩(wěn)定。

基于這個(gè)觀察，研究團(tuán)隊(duì)進(jìn)一步改進(jìn)了自回歸模型的訓(xùn)練方法。他們借鑒了一種叫做"表征對(duì)齊"的技術(shù)，就像給學(xué)生提供標(biāo)準(zhǔn)答案來指導(dǎo)學(xué)習(xí)一樣，讓模型的中間層與預(yù)訓(xùn)練的視覺特征保持一致。實(shí)驗(yàn)證明，當(dāng)這種對(duì)齊發(fā)生在網(wǎng)絡(luò)的第8層（總共24層）時(shí)，效果最佳，這恰好印證了前面關(guān)于角色轉(zhuǎn)換的發(fā)現(xiàn)。

有趣的是，自回歸模型對(duì)這種指導(dǎo)的需求比擴(kuò)散模型更強(qiáng)烈。就像一個(gè)需要更多監(jiān)督的學(xué)生，自回歸模型需要2.0的對(duì)齊系數(shù)才能達(dá)到最佳效果，而擴(kuò)散模型只需要0.5就足夠了。這可能與自回歸模型的強(qiáng)制性序列約束有關(guān)，需要更強(qiáng)的外部指導(dǎo)來克服這種限制。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。它不僅提供了一個(gè)簡(jiǎn)單而有效的改進(jìn)方法，更重要的是建立了一個(gè)公平比較不同AI生成方法的平臺(tái)。就像制定了統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)，讓原本無法直接比較的技術(shù)路線有了客觀的評(píng)判依據(jù)。

從實(shí)際應(yīng)用角度來看，iFSQ方法幾乎沒有增加任何計(jì)算成本，卻能帶來20%以上的性能提升，這種投入產(chǎn)出比在工程實(shí)踐中極具價(jià)值。更重要的是，它為理解和改進(jìn)AI圖像生成技術(shù)提供了新的思路：不是一味追求更復(fù)雜的模型架構(gòu)，而是從數(shù)據(jù)分布的角度思考如何優(yōu)化現(xiàn)有方法。

這個(gè)發(fā)現(xiàn)也啟發(fā)了對(duì)AI技術(shù)發(fā)展路徑的思考。有時(shí)候，真正的突破并不來自完全顛覆性的創(chuàng)新，而是來自對(duì)現(xiàn)有技術(shù)深層機(jī)制的洞察和巧妙的微調(diào)。就像這次研究一樣，一行代碼的改動(dòng)背后，是對(duì)數(shù)據(jù)分布、信息理論和神經(jīng)網(wǎng)絡(luò)工作機(jī)制的深刻理解。

說到底，這項(xiàng)研究最吸引人的地方在于它的簡(jiǎn)潔性和普適性。在AI技術(shù)日益復(fù)雜化的今天，能夠找到如此簡(jiǎn)單而有效的改進(jìn)方案實(shí)屬難得。它提醒我們，有時(shí)候最好的解決方案就隱藏在最基礎(chǔ)的原理之中，只要我們?cè)敢馍钊胨伎己妥屑?xì)觀察。對(duì)于AI圖像生成技術(shù)的未來發(fā)展，這項(xiàng)研究不僅提供了一個(gè)實(shí)用的工具，更重要的是展示了一種研究思路：通過統(tǒng)一的框架來理解和比較不同技術(shù)路線，從而推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。

Q&A

Q1：iFSQ具體是如何改進(jìn)FSQ的？

A：iFSQ只是將FSQ中的tanh函數(shù)替換為2×sigmoid(1.6x)-1，僅改動(dòng)一行代碼。這個(gè)改動(dòng)將原本鐘形分布的數(shù)據(jù)重新映射成均勻分布，解決了原版FSQ中量化位利用不均的問題，讓所有編碼位都能得到充分利用。

Q2：為什么4位編碼是圖像生成的最佳選擇？

A：4位編碼在圖像質(zhì)量和壓縮效率間找到了最佳平衡點(diǎn)。太低的位數(shù)會(huì)丟失重要的圖像細(xì)節(jié)，太高的位數(shù)雖然保留更多信息，但會(huì)浪費(fèi)存儲(chǔ)空間并可能引入噪聲，而4位恰好能在保持視覺質(zhì)量的同時(shí)實(shí)現(xiàn)高效壓縮。

Q3：自回歸模型和擴(kuò)散模型在圖像生成上有什么區(qū)別？

A：自回歸模型在訓(xùn)練初期收斂很快，但受到嚴(yán)格序列約束的限制，最終性能上限相對(duì)較低。擴(kuò)散模型雖然起步較慢，但由于其并行處理特性，在充足的訓(xùn)練時(shí)間下能達(dá)到更高的生成質(zhì)量，特別適合對(duì)最終效果要求很高的應(yīng)用場(chǎng)景。

關(guān)鍵詞：代碼序列騰訊新論文神經(jīng)網(wǎng)絡(luò) 知名

在线观看国产精品va_国产成人精品怡红院在线观看_亚洲精品1卡2卡三卡23卡_女人夜夜春高潮爽a∨片_久久激情日本亚洲欧洲国产中文_国产亚洲精品a在线观看下载

頭條焦點(diǎn)：北大騰訊團(tuán)隊(duì)只改一行代碼，讓AI圖像生成效果提升20%！

熱門推薦

熱門文章

全站熱門

在线观看国产精品va_国产成人精品怡红院在线观看_亚洲精品1卡2卡三卡23卡_女人夜夜春高潮爽a∨片_久久激情日本亚洲欧洲国产中文_国产亚洲精品a在线观看下载

頭條焦點(diǎn)：北大騰訊團(tuán)隊(duì)只改一行代碼，讓AI圖像生成效果提升20%！

熱門推薦

熱門文章

全站熱門

頭條焦點(diǎn)：北大騰訊團(tuán)隊(duì)只改一行代碼，讓AI圖像生成效果提升20%！