蘋果發表Manzano：無損融合“看圖”與“繪圖”的多模態AI模型

2026-01-15 09:09:14 來源：IT之家

IT之家 1 月 15 日消息，科技媒體 Appleinsider 今天（1 月 15 日）發布博文，報道稱蘋果發表重磅研究論文，詳細介紹了名為“Manzano”的多模態模型，融合“視覺理解”與“文本生成圖像”兩大功能。

該模型最大的創新在于“雙修”：它不僅能像人類一樣精準理解圖像內容（視覺理解），還能根據文本描述生成高質量圖片（圖像生成）。

【資料圖】

行業內此前僅有少數模型能同時兼顧這兩項任務，且往往需要在畫質與理解力之間做出妥協，研究人員指出，核心矛盾在于“視覺分詞”的方式不同。

簡單來說，AI 進行“圖像理解”時喜歡連續的數據流（類似看視頻），而進行“圖像生成”時則更依賴離散的數據塊（類似拼圖）。傳統模型強行讓同一個大腦處理這兩種截然不同的信號，往往會導致嚴重的任務沖突，要么“看得懂但畫不出”，要么“畫得好但理解偏”。

Manzano 為了解決這一難題，引入了一種創新的三段式架構：

這種設計讓 Manzano 既保留了強大的理解能力，又具備了精細的繪圖能力，甚至能處理深度估計、風格遷移和圖像修復等復雜任務。

測試數據顯示，Manzano 在處理反直覺、違背物理常識的復雜指令時表現驚人。例如，當要求生成“一只鳥在大象下方飛翔”的畫面時，Manzano 的邏輯準確性與 OpenAI 的 GPT-4o 以及谷歌的 Nano Banana 模型旗鼓相當。

研究團隊測試了從 3 億到 300 億（30B）參數的不同版本，證實了該架構在模型規模擴大時依然能保持高效的性能提升。

雖然 Manzano 目前仍處于研究階段，尚未直接應用于 iPhone 或 Mac 設備，但這表明蘋果正在構建更強大的底層 AI 能力。

該媒體認為這項技術極有可能會被整合進未來的“圖樂園 Image Playground”功能中，為用戶帶來更智能的修圖體驗和更具想象力的畫面生成能力，進一步鞏固蘋果在端側 AI 領域的競爭力。

IT之家附上參考地址

在线观看国产精品va_国产成人精品怡红院在线观看_亚洲精品1卡2卡三卡23卡_女人夜夜春高潮爽a∨片_久久激情日本亚洲欧洲国产中文_国产亚洲精品a在线观看下载