最強開源多模態生成模型MM-Interleaved：首創特徵同步器

想像一下，AI 不僅會聊天，還長了「眼睛」，能看懂圖片，甚至還會透過畫畫來表達自己！這意味著，你可以和它們談天說地，分享圖片或視頻，它們也同樣能用圖文並茂的方式回應你。

最近，上海人工智慧實驗室聯合香港中文大學多媒體實驗室（MMLab）、清華大學、商湯科技、多倫多大學等多家大學、機構，共同發布了一個多才多藝的最強開源多模態生成模型MM- Interleaved，借助全新提出的多模態特徵同步器刷新多項任務SOTA。它擁有對高解析度影像細節和微妙語義的精準理解能力，支援任意穿插的圖文輸入和輸出，帶來了多模態生成大模型的嶄新突破。

論文網址：https://arxiv.org/pdf/2401.10208.pdf

專案網址：https://github.com/OpenGVLab/MM-Interleaved

模型位址：https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以輕鬆編寫引人入勝的旅遊日誌和童話故事，準確理解機器人操作，就連分析電腦和手機的GUI 介面、創作獨特風格的精美圖片都不在話下。甚至，它還能教你做菜，陪你玩遊戲，成為隨時聽候指揮的個人助理！話不多說，直接看效果：

輕鬆理解複雜多模態上下文

MM-Interleaved 可以根據圖文上下文自主推理產生符合要求的文本答复，它既能算水果數學題：

也能結合常識推理出Logo 圖像對應的公司並進行介紹：

還能精確辨識用紅色圓圈標註出的手寫文字內容：

此外，模型也能直接理解透過序列影像表示的機器人動作：

以及Minecraft 中如何建造圍欄這樣的遊戲操作：

甚至能結合上下文，手把手地教導用戶如何在手機UI 介面上配置灰階：

以及精準定位找到那架藏在後面的飛機：

腦洞全開生成不同風格影像

MM-Interleaved 模型同樣可以出色地完成各種複雜的影像生成任務。例如根據使用者提供的詳細描述產生一張三角鋼琴的剪影：

或當使用者以多種形式指定所需產生的影像應包含的物件或風格時，MM-Interleaved 框架也可輕鬆應對。

例如生成一張水彩風格的大象：

依照狗的風格生成一張貓的畫：

在向日葵花叢裡的一棟木房子：

以及在生成海浪圖像時，根據上下文智慧推斷相應的風格。

影像生成兼顧空間一致性

更令人驚訝的是，MM-Interleaved 還具備根據輸入的分割圖和對應的文字描述生成影像的能力，並確保生成的影像與分割圖在空間佈局上保持一致。

這項功能不僅展示了模型在圖文生成任務中的卓越表現，同時也為使用者提供了更靈活和直覺的操作體驗。

自主生成圖文並茂的文章

此外，只要提供一個簡單的開頭，MM-Interleaved 就能自主進行續寫，產生語意連貫、圖文並茂的文章，題材多元。

無論是關於一朵玫瑰的童話故事：

教你製作蘋果汁的教學指南：

還是卡通動漫中的情節片段：

MM-Interleaved 框架都展現了卓越的創造力。這使得MM-Interleaved 框架成為了一個無限創意的智慧合作者，能夠幫助使用者輕鬆打造引人入勝的圖文作品。

MM-Interleaved 致力於解決圖文交錯多模態大模型訓練中的核心問題，透過深入研究提出了一種全新的端到端預訓練框架。

基於MM-Interleaved 訓練的模型，在參數量較少、不使用私有資料的情況下，不僅在多個零樣本多模態理解任務上表現優越，領先於國內外最新研究工作，如Flamingo、Emu2 等。

還能進一步透過監督微調的方式，在視覺問答（VQA），圖像描述（image caption）、指稱理解（referring expression comprehension）、圖生圖（segment-to-image generation）、視覺故事生成（visual storytelling ）等多個下游任務上取得更優異的綜合性能。

目前模型的預訓練權重及對應程式碼實作均已在GitHub 開源。

多模態特徵同步器攜手全新端對端訓練框架

MM-Interleaved 提出了一個全新的端到端訓練框架，專門針對圖文交錯資料。

此框架支援多尺度的圖像特徵作為輸入，不對圖像和文字的中間特徵添加任何額外約束，而是直接採用預測下一個文字token 或下一張圖像的自監督訓練目標，實現單階段的統一預訓練範式。

與以往方法相比，MM-Interleaved 不僅支援交錯生成文字和影像，還能高效捕捉影像中更多的細節資訊。

此外，MM-Interleaved 的關鍵實作還包括一個通用的多模態特徵同步器（Multi-modal Feature Synchronizer）。

此同步器能夠動態注入多張高解析度影像的細粒度特徵到多模態大模型和影像解碼器中，實現了對文字和影像的解碼生成的同時進行跨模態的特徵同步。

這項創新設計使得MM-Interleaved 為多模態大模型領域的發展注入了新的活力。

多項任務表現領先

如表1 和表3 所示，MM-Interleaved 在零樣本多模態理解和生成任務上均取得了卓越的表現。這項成就不僅證明了該框架的強大能力，也突顯了其在應對多樣化任務時的強大通用性。

表2 與表4 展現了MM-Interleaved 在進行進一步微調後的實驗結果，其在指涉理解、基於分割圖生成影像、圖文交錯生成等多個下游任務上的表現也十分優異。

這表明MM-Interleaved 不僅在預訓練階段表現出色，而且在具體任務微調後依然能夠保持領先地位，從而為多模態大模型的廣泛應用提供了可靠的支持。

結論

MM-Interleaved 的問世標誌著多模態大模型的發展朝著實現全面端到端的統一建模和訓練邁出了關鍵一步。

這項框架的成功不僅體現在其預訓練階段所展現的卓越性能，也體現在微調後在各個具體下游任務上的全面表現。

其獨特的貢獻不僅在於展現了強大的多模態處理能力，更為開源社群建構新一代多模態大模型開啟了更為廣闊的可能性。

MM-Interleaved 也為未來圖文交錯資料的處理提供了新的想法和工具，為實現更聰明、更靈活的圖文產生和理解奠定了堅實基礎。

我們期待看到這項創新為更多領域相關應用帶來更多驚喜。