97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

視頻網(wǎng)站 建設(shè) 硬件工作5年體重飆400斤

鶴壁市浩天電氣有限公司 2026/01/24 15:34:37
視頻網(wǎng)站 建設(shè) 硬件,工作5年體重飆400斤,淡水網(wǎng)站建設(shè)哪家便宜,十大SEO網(wǎng)站外鏈建設(shè)誤區(qū)從 LLaVA 到 Qwen3-VL#xff0c;多模態(tài)大模型主流架構(gòu)的演進(jìn)之路大多數(shù)人都是高估自己一天可以做的事情#xff0c;但是低估了自己一年可以做的事情作者#xff1a;我要吃雞腿 原文#xff1a;https://zhuanlan.zhihu.com/p/1963658684765833212引言#xff1a;當(dāng) AI 睜開(kāi)…從 LLaVA 到 Qwen3-VL多模態(tài)大模型主流架構(gòu)的演進(jìn)之路大多數(shù)人都是高估自己一天可以做的事情但是低估了自己一年可以做的事情作者我要吃雞腿原文https://zhuanlan.zhihu.com/p/1963658684765833212引言當(dāng) AI 睜開(kāi)雙眼我們看到了一個(gè)怎樣的未來(lái)曾幾何時(shí)我們對(duì)人工智能的印象還停留在那個(gè)聰慧但略顯“盲目”的“數(shù)字大腦”上——它能寫(xiě)詩(shī)、能編程、能回答深?yuàn)W的哲學(xué)問(wèn)題但這一切都局限于冰冷的文本世界。然而就在最近兩年一場(chǎng)深刻的變革正在悄然發(fā)生。您或許已經(jīng)驚嘆于GPT-5 那般流暢自如的實(shí)時(shí)圖片對(duì)話它能“看到”您房間的布局并給出整理建議又或者您可能對(duì) Qwen3-VL 直接“注視”著手機(jī)屏幕、精準(zhǔn)地點(diǎn)擊按鈕、操作應(yīng)用程序的能力感到不可思議。AI 不再僅僅是一個(gè)“只會(huì)讀書(shū)”的語(yǔ)言模型它正在進(jìn)化成一個(gè)能聽(tīng)、會(huì)看、可交互的“智能體”真正地睜開(kāi)了雙眼開(kāi)始感知和理解我們所處的這個(gè)五彩斑斕的物理世界。這場(chǎng)從“符號(hào)”到“感知”的飛躍背后究竟隱藏著怎樣的技術(shù)密碼AI 是如何跨越數(shù)字與現(xiàn)實(shí)的鴻溝實(shí)現(xiàn)從純文本“思考”到圖文視頻并茂的“感知與交互”的答案就蘊(yùn)藏在多模態(tài)大模型 (Multimodal Large Models, MLLM)的架構(gòu)革命之中。而在 MLLM 這條充滿創(chuàng)新與探索的賽道上涌現(xiàn)出了兩條截然不同但都極其成功的技術(shù)演進(jìn)路線。本文將聚焦于這兩條路線的杰出代表以“大道至簡(jiǎn)”為核心邏輯的LLaVA 系列以及奉行“深度融合”設(shè)計(jì)思想的 Qwen3-VL。在接下來(lái)的內(nèi)容中我們將一同踏上這場(chǎng)解構(gòu)之旅。我們首先會(huì)搭建起 MLLM 通用的“三位一體”黃金架構(gòu)藍(lán)圖理解其運(yùn)作的基礎(chǔ)隨后我們將深入一個(gè)所有 MLLM 都必須面對(duì)的核心矛盾——如何讓模型在不犧牲效率的前提下看得更“清晰”最終我們將通過(guò)全景式地剖析 LLaVA 與 Qwen3-VL 的架構(gòu)演進(jìn)與核心技術(shù)看它們?nèi)绾畏謩e給出了兩條路徑迥異卻同樣精彩的答案。第一部分藍(lán)圖與基石 —— MLLM 的“三位一體”黃金架構(gòu)在深入探討LLaVA 和 Qwen3-VL的具體實(shí)現(xiàn)之前我們必須先搭建一個(gè)穩(wěn)固的認(rèn)知框架。幸運(yùn)的是盡管實(shí)現(xiàn)細(xì)節(jié)千差萬(wàn)別當(dāng)前絕大多數(shù)主流的多模態(tài)大模型都遵循著一個(gè)共同的、優(yōu)雅的“三位一體”黃金架構(gòu)。我們可以將其生動(dòng)地比喻為為 AI 打造一套完整的“感知-思考”系統(tǒng)?AI 的“眼睛” (視覺(jué)編碼器): 負(fù)責(zé)最前端的感知。它的任務(wù)是將輸入的像素世界——無(wú)論是靜態(tài)圖片還是動(dòng)態(tài)視頻轉(zhuǎn)化為機(jī)器能夠理解的、蘊(yùn)含豐富語(yǔ)義的數(shù)學(xué)表達(dá)即特征向量。?AI 的“大腦” (大語(yǔ)言模型): 負(fù)責(zé)最后端的認(rèn)知。它擁有強(qiáng)大的語(yǔ)言理解、邏輯推理和內(nèi)容生成能力是整個(gè)系統(tǒng)的“思考中樞”。?靈魂之橋 (連接器): 負(fù)責(zé)最關(guān)鍵的溝通。它像一位精湛的“翻譯官”將“眼睛”看到的視覺(jué)信息精準(zhǔn)地翻譯成“大腦”能夠聽(tīng)懂的“語(yǔ)言”實(shí)現(xiàn)兩大模態(tài)的無(wú)縫對(duì)接。這三個(gè)部分協(xié)同工作構(gòu)成了一幅完整的 MLLM 架構(gòu)藍(lán)圖。接下來(lái)我們將逐一拆解這三大核心組件首先從為 AI 提供視覺(jué)能力的那塊革命性基石——Vision Transformer (ViT)開(kāi)始。1.1 AI 的“眼睛”Vision Transformer (ViT)要讓 AI 看懂世界首先要解決一個(gè)根本問(wèn)題計(jì)算機(jī)眼中的圖像本質(zhì)上只是一個(gè)由像素值構(gòu)成的巨大數(shù)字矩陣而語(yǔ)言模型處理的則是離散的、一維的詞元Token序列。如何跨越這兩種數(shù)據(jù)形態(tài)的鴻溝2020 年Google 提出的 Vision Transformer (ViT)給出了一個(gè)顛覆性的答案。它摒棄了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 依賴(lài)局部卷積核的設(shè)計(jì)開(kāi)創(chuàng)性地將圖像視為“序列化的文本”。ViT 的核心思想簡(jiǎn)單而強(qiáng)大如果 Transformer 能夠通過(guò)理解單詞序列來(lái)讀懂一篇文章那它為什么不能通過(guò)理解圖像塊序列來(lái)“讀懂”一張圖片呢Vision Transformer (ViT) 架構(gòu)概覽如上圖所示ViT 的工作流程可以清晰地分解為以下幾個(gè)步驟第一步圖像分塊 (Image Patching)ViT 的第一步是將連續(xù)的二維圖像進(jìn)行“離散化”。它會(huì)將輸入的圖像像切蛋糕一樣分割成一系列固定大小、不重疊的小方塊這些小方塊被稱(chēng)為 “Patches”。這個(gè)過(guò)程是后續(xù)所有處理的基礎(chǔ)。舉一個(gè)具體的例子一張分辨率為 224x224 像素的彩色圖像如果被設(shè)定為使用 16x16 大小的圖塊進(jìn)行分割那么在水平和垂直方向上都將被切成 224 / 16 14 份。最終這張完整的圖像就被轉(zhuǎn)換成了一個(gè) 14x14 的網(wǎng)格總計(jì) 196 個(gè)圖像塊。至此一張復(fù)雜的、連續(xù)的二維圖片就被巧妙地轉(zhuǎn)換成了一個(gè)由 196 個(gè)元素組成的一維序列完美適配了 Transformer 模型的輸入要求。第二步展平與線性投影 (Flatten Linear Projection)得到了圖像塊序列后下一步是將其轉(zhuǎn)換為模型能夠處理的數(shù)學(xué)表示——向量。首先每個(gè)二維的圖像塊例如一個(gè) 16x16 的彩色圖塊其數(shù)據(jù)維度為 16x16x33 代表 RGB 通道會(huì)被“壓平”Flatten變成一個(gè)長(zhǎng)長(zhǎng)的一維向量。在這個(gè)例子中向量的維度就是 16 * 16 * 3 768。隨后這個(gè)原始的像素向量會(huì)通過(guò)一個(gè)標(biāo)準(zhǔn)的可學(xué)習(xí)線性投影層本質(zhì)上是一個(gè)全連接神經(jīng)網(wǎng)絡(luò)層被映射到模型預(yù)設(shè)的、更具語(yǔ)義意義的隱藏維度Embedding Dimension中例如 768 維。這個(gè)關(guān)鍵的過(guò)程被稱(chēng)為 Patch Embedding。它將每一個(gè)物理上的、具體的圖像塊都轉(zhuǎn)換成了一個(gè)數(shù)學(xué)上抽象的、蘊(yùn)含了初步內(nèi)容信息的“視覺(jué)詞元”Visual Token其作用完全等同于自然語(yǔ)言處理中的“詞嵌入”。第三步添加上下文信息 (Position Class Embedding)這是ViT 能夠真正“理解”圖像空間布局的靈魂所在。標(biāo)準(zhǔn)的 Transformer 架構(gòu)對(duì)序列順序不敏感“貓追老鼠”和“老鼠追貓”在它看來(lái)輸入的內(nèi)容向量是相同的。為了讓模型理解每個(gè)圖像塊在原始圖片中的空間位置我們必須為每個(gè)“視覺(jué)詞元”注入位置信息。此外為了完成圖像分類(lèi)等需要全局信息的任務(wù)ViT 還借鑒了 BERT 的思想在序列的最前面加入一個(gè)額外的、可學(xué)習(xí)的 [class] Token。這個(gè)特殊的 Token 如同一個(gè)“信息匯聚器”將在 Transformer 內(nèi)部與所有圖像塊信息進(jìn)行交互最終其對(duì)應(yīng)的輸出向量將作為整張圖像的“總結(jié)陳詞”送入分類(lèi)頭MLP Head進(jìn)行預(yù)測(cè)。對(duì)于位置信息現(xiàn)代 ViT 架構(gòu)如 Qwen-VL 系列廣泛采用了精巧的旋轉(zhuǎn)位置編碼 (Rotary Position Embedding, RoPE)。核心思想與工作原理RoPE 的思想極其巧妙它不再是像傳統(tǒng)方法那樣給內(nèi)容向量“加上”一個(gè)獨(dú)立的位置向量。相反它是在自注 意力機(jī)制內(nèi)部通過(guò)旋轉(zhuǎn)的方式將位置信息動(dòng)態(tài)地融入到查詢Query和鍵Key向量中。我們可以這樣直觀理解將每個(gè)“視覺(jué)詞元”向量的高維空間看作由許多個(gè)二維平面組成。RoPE 會(huì)根據(jù)這個(gè)詞元Patch在圖像中的絕對(duì)二維坐標(biāo)(h, w)h 代表高度w 代表寬度計(jì)算出一組特定的旋轉(zhuǎn)角度。然后在計(jì)算注意力分?jǐn)?shù)之前它會(huì)用這些角度將 Query 向量和 Key 向量在那些二維平面上進(jìn)行相應(yīng)的旋轉(zhuǎn)。這樣做的神奇之處在于當(dāng)計(jì)算任意兩個(gè) Patch 之間的注意力分?jǐn)?shù)時(shí)本質(zhì)上是計(jì)算它們旋轉(zhuǎn)后的 Query 和 Key 的點(diǎn)積點(diǎn)積的結(jié)果會(huì)自然而然地只與它們的相對(duì)位置有關(guān)而與它們的絕對(duì)位置無(wú)關(guān)。這使得 RoPE 具備了極強(qiáng)的尺寸泛化能力無(wú)論輸入圖像被分割成多大的網(wǎng)格模型都能通過(guò)旋轉(zhuǎn)角度的差異準(zhǔn)確地捕捉到任意兩個(gè)圖像塊之間的相對(duì)空間關(guān)系例如“左上方”、“右側(cè)相鄰”。與 LLM 的核心區(qū)別雖然現(xiàn)代大語(yǔ)言模型LLM也普遍使用 RoPE但 ViT 中的2D-RoPE與 LLM 中的 1D-RoPE 存在根本性的區(qū)別。LLM 處理的是一維的文本序列只需編碼單一的先后順序而 ViT 處理的是二維的圖像網(wǎng)格必須同時(shí)編碼高度h 和寬度w 兩個(gè)維度的信息。因此2D-RoPE 的實(shí)現(xiàn)會(huì)更為復(fù)雜需要將特征向量的維度進(jìn)行劃分分別用于編碼兩個(gè)空間軸的位置甚至采用像 Qwen3-VL 的 MRoPE-Interleave 這樣的先進(jìn)交錯(cuò)技術(shù)來(lái)更魯棒地編碼多維空間信息。第四步核心處理引擎 (Transformer Encoder)經(jīng)過(guò)上述所有準(zhǔn)備工作我們最終得到了一個(gè)既包含豐富內(nèi)容信息又蘊(yùn)含了精確空間位置的“視覺(jué)詞元”序列。這個(gè)序列將被送入一個(gè)由多個(gè)相同模塊堆疊而成的標(biāo)準(zhǔn) Transformer Encoder中進(jìn)行深度處理和全局信息融合。每個(gè) Encoder 模塊內(nèi)部主要包含兩個(gè)核心子層?多頭自注意力機(jī)制 (Multi-Head Attention): 這是 ViT 的精髓所在。它賦予了序列中每一個(gè)圖像塊去“關(guān)注”所有其他圖像塊包括自身的能力并根據(jù)內(nèi)容和相對(duì)位置計(jì)算出彼此間的關(guān)聯(lián)強(qiáng)度。通過(guò)這種全局的、無(wú)限制的“信息交互”ViT 能夠輕松捕捉到圖像中跨越很遠(yuǎn)距離的依賴(lài)關(guān)系例如精準(zhǔn)地將畫(huà)面左上角孩童的視線與右下角滾動(dòng)的皮球聯(lián)系起來(lái)。?前饋網(wǎng)絡(luò) (Feed-Forward Network): 在所有圖像塊完成一輪“集體討論”自注意力后每個(gè)位置的輸出都會(huì)獨(dú)立地經(jīng)過(guò)一個(gè)簡(jiǎn)單的全連接前饋網(wǎng)絡(luò)通常是兩層 MLP。這個(gè)過(guò)程可以被看作是對(duì)融合了全局上下文信息后的每個(gè)圖像塊進(jìn)行一次獨(dú)立的、深度的特征“提純”和非線性變換。通過(guò)這一系列步驟ViT 成功地為 AI 裝上了一雙能夠“閱讀”圖像的“眼睛”將復(fù)雜的像素世界轉(zhuǎn)換成了下游模型如 LLM可以進(jìn)一步處理的、結(jié)構(gòu)化的、蘊(yùn)含了豐富語(yǔ)義和空間關(guān)系的特征序列。這正是后續(xù)所有精彩的多模態(tài)故事的開(kāi)端。1.2 AI 的“大腦”大語(yǔ)言模型 (LLM) 的思考中樞如果說(shuō) ViT 是 MLLM 的“眼睛”負(fù)責(zé)感知世界那么大語(yǔ)言模型 (LLM)毫無(wú)疑問(wèn)就是其負(fù)責(zé)認(rèn)知、推理和表達(dá)的“大腦”。在整個(gè)“三位一體”的架構(gòu)中LLM 扮演著信息最終匯聚者和決策者的角色。它的核心任務(wù)是將經(jīng)過(guò)“連接器”翻譯對(duì)齊后的多模態(tài)特征與用戶的文本指令深度融合并通過(guò)強(qiáng)大的自回歸生成能力輸出符合邏輯、切合情境的文本回復(fù)。1.2.1 輸入一種融合后的“多模態(tài)現(xiàn)實(shí)”LLM 所“看到”的輸入不再是單純的文本序列。它接收的是一個(gè)經(jīng)過(guò)精心構(gòu)造的、一維的、融合了視覺(jué)與文本信息的長(zhǎng)序列。在這個(gè)序列中來(lái)自圖像的“視覺(jué)詞元”和來(lái)自文本的“語(yǔ)言詞元”肩并肩地排列在一起共同構(gòu)成了 LLM 進(jìn)行思考的完整上下文。為了更清晰地理解這個(gè)從像素到融合輸入的完整旅程我們可以通過(guò)下面這個(gè)表格來(lái)分解每一步的數(shù)據(jù)形態(tài)和維度變換正如表格第 6 步所示最終送入 LLM 的是一個(gè)全新的、更長(zhǎng)的序列。在這個(gè)例子中序列的總長(zhǎng)度變成了196 5 201。這個(gè)序列的前 196 個(gè)位置承載著圖像的全部視覺(jué)信息而緊隨其后的 5 個(gè)位置則明確了用戶的意圖和問(wèn)題。LLM 的自注意力機(jī)制將在這個(gè)統(tǒng)一的序列上運(yùn)作使得文本詞元可以“關(guān)注”到視覺(jué)詞元反之亦然從而實(shí)現(xiàn)了真正意義上的圖文理解。例如當(dāng)用戶輸入一張圖片并提問(wèn)“What is in the image?”時(shí)LLM 的最終輸入會(huì)是[視覺(jué)詞元1, ..., 視覺(jué)詞元196, What, is, in, the, image, ?]這樣拼接后的形態(tài)。對(duì)于更先進(jìn)的模型如 Qwen3-VL這個(gè)輸入序列的構(gòu)造會(huì)更加復(fù)雜和動(dòng)態(tài)。它不僅僅是圖文的簡(jiǎn)單拼接甚至可以是圖、文、視頻幀交錯(cuò)排列的復(fù)雜序列其中還巧妙地插入了精確的時(shí)間戳文本如0.8 seconds為 LLM 提供了前所未有的、理解動(dòng)態(tài)世界的豐富信息。1.2.2 核心機(jī)制基于多模態(tài)上下文的自回歸生成拿到這個(gè)融合了豐富視覺(jué)信息的序列后LLM 的核心工作機(jī)制——**自回歸生成 (Autoregressive Generation)**便開(kāi)始啟動(dòng)。這個(gè)過(guò)程與純文本 LLM 的工作方式在本質(zhì)上是相同的模型會(huì)基于當(dāng)前已有的全部上下文現(xiàn)在包含了視覺(jué)信息來(lái)預(yù)測(cè)下一個(gè)最有可能出現(xiàn)的詞元 (Token)。這個(gè)過(guò)程會(huì)像滾雪球一樣持續(xù)進(jìn)行1.模型根據(jù)[視覺(jué)序列 問(wèn)題序列]預(yù)測(cè)出第一個(gè)答案詞元例如 A。2.然后將 A 追加到輸入序列的末尾形成新的、更長(zhǎng)的上下文。3.模型再根據(jù)[視覺(jué)序列 問(wèn)題序列 A]預(yù)測(cè)出第二個(gè)答案詞元例如 cat。4.這個(gè)過(guò)程不斷迭代直到模型生成一個(gè)特殊的終止符如EOS或達(dá)到預(yù)設(shè)的最大長(zhǎng)度限制為止。1.2.3 輸出藝術(shù)如何選擇下一個(gè)詞—— 解碼策略雖然“預(yù)測(cè)下一個(gè)詞”的原理很簡(jiǎn)單但在每一步如何從成千上萬(wàn)個(gè)候選詞元的概率分布中做出最終選擇卻是一門(mén)藝術(shù)。不同的解碼策略 (Decoding Strategy)會(huì)直接影響生成結(jié)果的質(zhì)量、速度和多樣性使其能夠適應(yīng)從精準(zhǔn)問(wèn)答到創(chuàng)意寫(xiě)作的各種任務(wù)。根據(jù)上圖我們可以總結(jié)出三種主流的解碼策略?貪婪解碼 (Greedy Decoding): 這是最簡(jiǎn)單直接的策略。在每一步模型都會(huì)毫不猶豫地選擇當(dāng)前概率最高的那個(gè) Token 作為輸出。它的優(yōu)點(diǎn)是速度極快適用于對(duì)實(shí)時(shí)性要求很高的簡(jiǎn)單任務(wù)。但缺點(diǎn)是容易“鼠目寸光”可能會(huì)因?yàn)檠矍暗淖顑?yōu)選擇而錯(cuò)失全局更優(yōu)的答案陷入局部最優(yōu)。?束搜索 (Beam Search): 為了克服貪婪解碼的短視問(wèn)題束搜索在每一步都會(huì)保留 k 個(gè)k 稱(chēng)為束寬 beam width概率最高的候選序列。在下一步模型會(huì)基于這 k 個(gè)序列分別進(jìn)行擴(kuò)展然后從所有擴(kuò)展出的新序列中再次選出總概率最高的 k 個(gè)。這種方法通過(guò)保留更多的可能性在生成質(zhì)量和計(jì)算成本之間取得了很好的平衡因此廣泛應(yīng)用于視覺(jué)問(wèn)答VQA、圖像描述等大多數(shù)生成任務(wù)中。?采樣 (Top-p): 與前兩種確定性策略不同采樣策略引入了隨機(jī)性。它不會(huì)總是選擇概率最高的詞而是根據(jù)概率分布進(jìn)行隨機(jī)抽樣通常會(huì)限定在一個(gè)較小的、高質(zhì)量的候選詞集合內(nèi)例如 Top-p 采樣。這極大地增加了生成文本的多樣性和創(chuàng)造性使其非常適合需要“靈感迸發(fā)”的場(chǎng)景如根據(jù)圖片寫(xiě)故事、創(chuàng)作詩(shī)歌等。1.2.4 架構(gòu)演進(jìn)從“稠密”到“稀疏”——MoE 的崛起值得注意的是作為“大腦”的 LLM 自身也在不斷進(jìn)化。傳統(tǒng)的 LLM 通常是“稠密”的即在推理時(shí)需要激活模型的所有參數(shù)。而以 Qwen3-VL 為代表的新一代 MLLM其語(yǔ)言模型部分已經(jīng)開(kāi)始采用更先進(jìn)的混合專(zhuān)家 (Mixture of Experts, MoE) 架構(gòu)。Qwen3VLMoeForConditionalGeneration( (model): Qwen3VLMoeModel( (visual): Qwen3VLMoeVisionModel( (patch_embed): Qwen3VLMoeVisionPatchEmbed( (proj): Conv3d(3, 1152, kernel_size(2, 16, 16), stride(2, 16, 16)) ) (pos_embed): Embedding(2304, 1152) (rotary_pos_emb): Qwen3VLMoeVisionRotaryEmbedding() (blocks): ModuleList( (0-26): 27 x Qwen3VLMoeVisionBlock( (norm1): LayerNorm((1152,), eps1e-06, elementwise_affineTrue) (norm2): LayerNorm((1152,), eps1e-06, elementwise_affineTrue) (attn): Qwen3VLMoeVisionAttention( (qkv): Linear(in_features1152, out_features3456, biasTrue) (proj): Linear(in_features1152, out_features1152, biasTrue) ) (mlp): Qwen3VLMoeVisionMLP( (linear_fc1): Linear(in_features1152, out_features4304, biasTrue) (linear_fc2): Linear(in_features4304, out_features1152, biasTrue) (act_fn): PytorchGELUTanh() ) ) ) (merger): Qwen3VLMoeVisionPatchMerger( (norm): LayerNorm((1152,), eps1e-06, elementwise_affineTrue) (linear_fc1): Linear(in_features4608, out_features4608, biasTrue) (act_fn): GELU(approximatenone) (linear_fc2): Linear(in_features4608, out_features4096, biasTrue) ) (deepstack_merger_list): ModuleList( (0-2): 3 x Qwen3VLMoeVisionPatchMerger( (norm): LayerNorm((4608,), eps1e-06, elementwise_affineTrue) (linear_fc1): Linear(in_features4608, out_features4608, biasTrue) (act_fn): GELU(approximatenone) (linear_fc2): Linear(in_features4608, out_features4096, biasTrue) ) ) ) (language_model): Qwen3VLMoeTextModel( (embed_tokens): Embedding(151936, 4096) (layers): ModuleList( (0-93): 94 x Qwen3VLMoeTextDecoderLayer( (self_attn): Qwen3VLMoeTextAttention( (q_proj): Linear(in_features4096, out_features8192, biasFalse) (k_proj): Linear(in_features4096, out_features512, biasFalse) (v_proj): Linear(in_features4096, out_features512, biasFalse) (o_proj): Linear(in_features8192, out_features4096, biasFalse) (q_norm): Qwen3VLMoeTextRMSNorm((128,), eps1e-06) (k_norm): Qwen3VLMoeTextRMSNorm((128,), eps1e-06) ) (mlp): Qwen3VLMoeTextSparseMoeBlock( (gate): Qwen3VLMoeTextRouter(in_features4096, out_features128, biasFalse) (experts): Qwen3VLMoeTextExperts( (act_fn): SiLU() ) ) (input_layernorm): Qwen3VLMoeTextRMSNorm((4096,), eps1e-06) (post_attention_layernorm): Qwen3VLMoeTextRMSNorm((4096,), eps1e-06) ) ) (norm): Qwen3VLMoeTextRMSNorm((4096,), eps1e-06) (rotary_emb): Qwen3VLMoeTextRotaryEmbedding() ) ) (lm_head): Linear(in_features4096, out_features151936, biasFalse) )在 MoE 架構(gòu)中模型內(nèi)部包含多個(gè)“專(zhuān)家”子網(wǎng)絡(luò)。對(duì)于每一個(gè)輸入的詞元一個(gè)“門(mén)控網(wǎng)絡(luò)”會(huì)智能地選擇激活一小部分最相關(guān)的專(zhuān)家來(lái)進(jìn)行計(jì)算而其他專(zhuān)家則保持“沉默”。這種“稀疏激活”的策略使得模型可以在大幅增加總參數(shù)量的同時(shí)保持推理計(jì)算量不變從而在性能和效率之間取得了更好的平衡。綜上所述LLM 在多模態(tài)架構(gòu)中扮演著不可或缺的“認(rèn)知核心”。它不僅需要理解語(yǔ)言更要學(xué)會(huì)在一個(gè)融合了視覺(jué)信息的全新語(yǔ)境中進(jìn)行思考并借助靈活的解碼策略和先進(jìn)的自身架構(gòu)生成精準(zhǔn)、多樣且富有創(chuàng)造力的回答。1.3 靈魂之橋“連接器” (Connector)我們現(xiàn)在有了能夠“看”的眼睛 (ViT) 和能夠“想”的大腦 (LLM)但一個(gè)至關(guān)重要的問(wèn)題擺在面前它們二者之間如何溝通ViT 輸出的視覺(jué)特征向量與 LLM 理解的文本嵌入向量盡管都是高維向量但它們處于完全不同的“語(yǔ)義空間”好比一個(gè)說(shuō)法語(yǔ)一個(gè)說(shuō)中文無(wú)法直接交流。為了解決這個(gè)“模態(tài)鴻溝”(Modality Gap)連接器 (Connector)應(yīng)運(yùn)而生。它在整個(gè)架構(gòu)中扮演著“靈魂之橋”或“同聲傳譯官”的角色其核心使命只有一個(gè)將 ViT 輸出的視覺(jué)特征精準(zhǔn)地投影 (Project)或翻譯 (Translate)到 LLM 能夠理解的同一個(gè)向量空間中實(shí)現(xiàn)視覺(jué)與語(yǔ)言的無(wú)縫對(duì)齊。如上圖表格的第 3 步和第 4 步所示連接器接收了 ViT 輸出的[1, 196, 768]維特征并將其轉(zhuǎn)換為了[1, 196, 4096]維的“對(duì)齊后視覺(jué)特征”。這不僅僅是維度的改變更是一次深刻的語(yǔ)義空間映射。然而“翻譯”這門(mén)藝術(shù)本身也有著不同的流派和哲學(xué)。在 MLLM 的世界里連接器的設(shè)計(jì)主要分為兩大流派流派一極簡(jiǎn)主義翻譯官 —— 線性投影層 (Linear Projection)這是目前最主流也是以 LLaVA 系列為代表的經(jīng)典實(shí)現(xiàn)方式。它奉行“大道至簡(jiǎn)”的哲學(xué)認(rèn)為只要“大腦” (LLM) 足夠強(qiáng)大那么“翻譯官”的工作就可以盡可能地簡(jiǎn)單直接。工作原理這種連接器在結(jié)構(gòu)上通常是一個(gè)非常簡(jiǎn)單的多層感知機(jī) (MLP)甚至可以只是一個(gè)單層的全連接網(wǎng)絡(luò)。它的核心任務(wù)就是進(jìn)行一次線性的維度變換將輸入的視覺(jué)特征向量如 768 維映射到 LLM 的隱藏空間維度如 4096 維。這種方法并不試圖對(duì)視覺(jué)信息進(jìn)行復(fù)雜的預(yù)處理或提煉而是相信在海量的圖文數(shù)據(jù)對(duì)的訓(xùn)練下這個(gè)簡(jiǎn)單的線性層足以學(xué)習(xí)到兩個(gè)模態(tài)空間之間的映射關(guān)系。它將大部分的理解和融合壓力都交給了后續(xù)更為強(qiáng)大的 LLM。LLaVA 的巨大成功證明了在正確的訓(xùn)練策略下這種極簡(jiǎn)設(shè)計(jì)的有效性。流派二主動(dòng)型信息提煉師 —— Q-Former與 LLaVA 的極簡(jiǎn)主義形成鮮明對(duì)比的是以BLIP-2模型為代表的精巧設(shè)計(jì)——Q-Former。它認(rèn)為“翻譯官”不應(yīng)該只是一個(gè)被動(dòng)的“傳聲筒”而應(yīng)該是一個(gè)能夠主動(dòng)思考、提煉關(guān)鍵信息的“專(zhuān)家”。首先我們必須明確Q-Former要解決的核心問(wèn)題。?ViT (眼睛)在看完一張圖片后會(huì)輸出一個(gè)非常長(zhǎng)的特征序列。例如一張 224x224 的圖片會(huì)被轉(zhuǎn)換成 196 個(gè)“視覺(jué)詞元”。? 這 196 個(gè)詞元是“未經(jīng)加工的原始素材”。它們包含了圖像中的一切——重要的物體比如一只貓、物體的細(xì)節(jié)貓的胡須、次要的背景一片草地以及大量冗余和無(wú)用的信息比如 100 個(gè)幾乎一模一樣的草地塊。?LLaVA 的方案 (流派一)把這 196 個(gè)詞元全部“翻譯”一下然后原封不動(dòng)地丟給“大腦”LLM。這極大地增加了 LLM 的計(jì)算負(fù)擔(dān)。LLM 就像一個(gè) CEO現(xiàn)在卻被迫閱讀一份 196 頁(yè)的、未經(jīng)篩選的原始數(shù)據(jù)報(bào)告。Q-Former (Querying Transformer) 的設(shè)計(jì)理念是不應(yīng)該讓 CEO (LLM) 去讀原始報(bào)告我們應(yīng)該先成立一個(gè)“專(zhuān)家分析團(tuán)隊(duì)”由他們?nèi)ラ喿x那 196 頁(yè)的原始報(bào)告然后提煉出一份 32 頁(yè)的、信息高度濃縮的“執(zhí)行摘要”。這個(gè)“專(zhuān)家分析團(tuán)隊(duì)”就是 Q-Former。核心機(jī)制 (一)Learnable Queries可學(xué)習(xí)的查詢向量Q-Former 是如何“提煉”的呢它靠的就是Learnable Queries可學(xué)習(xí)的查詢向量。?Learnable Queries是一組數(shù)量固定的向量例如BLIP-2 中使用了 32 個(gè)在模型訓(xùn)練開(kāi)始之前它們不包含任何信息只是一堆隨機(jī)初始化的數(shù)字。您可以把它們想象成 32 個(gè)空白的“問(wèn)題卡片”或“待填表格”。? 在海量的圖文數(shù)據(jù)訓(xùn)練中模型會(huì)反向傳播更新這些查詢向量。漸漸地這 32 個(gè)“空白卡片”學(xué)會(huì)了各自的“職責(zé)分工”訓(xùn)練完成后這 32 個(gè)查詢向量就變成了 32 個(gè)“專(zhuān)家分析師”? Query 1 (專(zhuān)家1) 學(xué)會(huì)了專(zhuān)門(mén)去尋找“主要物體”。? Query 2 (專(zhuān)家2) 學(xué)會(huì)了專(zhuān)門(mén)去尋找“背景和場(chǎng)景”。? Query 3 (專(zhuān)家3) 學(xué)會(huì)了專(zhuān)門(mén)去尋找“圖像中的文字 (OCR)”。? Query 4 (專(zhuān)家4) 學(xué)會(huì)了專(zhuān)門(mén)去尋找“物體的顏色和紋理”。? … 以此類(lèi)推。? 這種“職責(zé)”不是我們?nèi)藶樵O(shè)定的而是模型在訓(xùn)練中為了最好地完成下游任務(wù)如看圖說(shuō)話、視覺(jué)問(wèn)答而自發(fā)學(xué)習(xí)和演化出來(lái)的最高效的分工方式。核心機(jī)制 (二)Cross Attention交叉注意力現(xiàn)在我們有了 196 頁(yè)的原始報(bào)告ViT 輸出的視覺(jué)特征和 32 位“專(zhuān)家分析師”Learnable Queries。他們?nèi)绾伍_(kāi)會(huì)呢答案是交叉注意力 (Cross Attention)。如上圖 (a) 所示這個(gè)機(jī)制是這樣工作的1.提問(wèn) (Query) 32 位“專(zhuān)家”Learnable Queries作為 Q (Query)進(jìn)入會(huì)議室。2.報(bào)告 (Key/Value) 196 頁(yè)“原始報(bào)告”ViT 輸出的視覺(jué)特征作為 K (Key) 和 V (Value)被攤在桌面上。3.開(kāi)會(huì)過(guò)程 (Cross-Attention)?專(zhuān)家 1負(fù)責(zé)找主要物體會(huì)站起來(lái)“審視”所有的 196 個(gè)視覺(jué)詞元并大聲提問(wèn)“你們誰(shuí)是‘主要物體’”? 那 196 個(gè)視覺(jué)詞元會(huì)根據(jù)自己的內(nèi)容給出回應(yīng)計(jì)算注意力分?jǐn)?shù)。那些代表“貓”的詞元會(huì)說(shuō)“我們是我們是”高分那些代表“草地”的詞元會(huì)說(shuō)“我們不是。”低分。?專(zhuān)家 1于是將所有“高分回應(yīng)”即“貓”的特征收集起來(lái)通過(guò)加權(quán)平均的方式填滿了自己那張空白的“問(wèn)題卡片”。?專(zhuān)家 1的最終輸出向量現(xiàn)在就變成了一個(gè)高度濃縮了“貓”的信息的向量。4.生成摘要 32 位專(zhuān)家各自重復(fù)上述過(guò)程各自從 196 頁(yè)原始報(bào)告中提取自己“負(fù)責(zé)”的那部分信息。5.最終輸出 會(huì)議結(jié)束。Q-Former 輸出的不再是 196 個(gè)原始詞元而是這 32 個(gè)已經(jīng)被填滿信息的、高度濃縮的“摘要向量”。Q-Former 的真正優(yōu)勢(shì)?信息過(guò)濾與壓縮 它將 196 個(gè)冗余、嘈雜的原始特征壓縮成了 32 個(gè)信息密度極高、與下游任務(wù)高度相關(guān)的精華特征。?減輕 LLM 負(fù)擔(dān) LLMCEO現(xiàn)在只需要閱讀這份 32 頁(yè)的“執(zhí)行摘要”。這極大地降低了計(jì)算量使得模型可以更專(zhuān)注于高級(jí)的邏輯推理而不是在 196 頁(yè)的原始數(shù)據(jù)中“大海撈針”。?靈活性 如圖中的 (b) 部分所示Q-Former 還可以通過(guò)不同的注意力掩碼Mask靈活地執(zhí)行多種任務(wù)如圖像-文本匹配、文本生成等 versatility 極強(qiáng)。希望這個(gè)“32位專(zhuān)家分析師Queries去審閱 196 頁(yè)原始報(bào)告ViT output并通過(guò)開(kāi)會(huì)Cross-Attention生成一份 32 頁(yè)執(zhí)行摘要Q-Former output”的比喻能幫助您徹底理解 Q-Former 的工作原理。綜上所述連接器的設(shè)計(jì)選擇深刻地反映了模型背后的設(shè)計(jì)哲學(xué)。是以 LLaVA 為代表的極簡(jiǎn)派相信“少即是多”依賴(lài)強(qiáng)大的 LLM 和海量數(shù)據(jù)完成融合還是以 BLIP-2 為代表的精巧派相信專(zhuān)業(yè)的“分工協(xié)作”在視覺(jué)信息進(jìn)入 LLM 之前就進(jìn)行深度提煉。這兩種思路的碰撞與演進(jìn)也正是我們將在下一部分探討的核心主題。1.4 從像素到文字的維度變換至此我們已經(jīng)分別認(rèn)識(shí)了 MLLM 的“眼睛” (ViT)、“大腦” (LLM) 和連接它們的“靈魂之橋” (Connector)。現(xiàn)在讓我們將這些獨(dú)立的部件組裝起來(lái)跟隨一個(gè)具體的例子完整地走一遍數(shù)據(jù)從輸入到輸出的全過(guò)程。這將幫助我們直觀地理解一張普通的圖片和一句簡(jiǎn)單的問(wèn)題是如何在模型內(nèi)部被一步步解析、融合、思考并最終生成一句流暢回答的。這個(gè)旅程的本質(zhì)是一場(chǎng)精彩的數(shù)據(jù)形態(tài)與矩陣維度變換之旅。我們可以通過(guò)下面這張精心梳理的表格來(lái)追蹤其每一步的變化。讓我們來(lái)詳細(xì)解讀這個(gè)過(guò)程中的關(guān)鍵轉(zhuǎn)變從空間到序列 (步驟 1 - 2): 最根本的轉(zhuǎn)變發(fā)生在這里。ViT 將一個(gè)二維的、連續(xù)的像素空間成功地轉(zhuǎn)換成了一個(gè)一維的、離散的“視覺(jué)詞元”序列。這是后續(xù)所有處理的基礎(chǔ)。語(yǔ)義空間的對(duì)齊 (步驟 3 - 4): 這是“連接器”發(fā)揮核心作用的時(shí)刻。它接收來(lái)自 ViT 的、處于“視覺(jué)語(yǔ)義空間”的特征并通過(guò)一次精妙的數(shù)學(xué)投影將其轉(zhuǎn)換到了 LLM 所處的“語(yǔ)言語(yǔ)義空間”中。盡管我們看到的只是特征維度從 768 變成了 4096但這背后是一次深刻的跨模態(tài)“翻譯”。多模態(tài)現(xiàn)實(shí)的構(gòu)建 (步驟 4, 5 - 6): 這是整個(gè)架構(gòu)中最激動(dòng)人心的時(shí)刻。兩個(gè)原本獨(dú)立的模態(tài)——視覺(jué)和語(yǔ)言在此刻被物理地拼接在一起形成了一個(gè)全新的、統(tǒng)一的輸入序列。對(duì)于 LLM 來(lái)說(shuō)從這一刻起它的世界里不再有圖像和文本之分只有一個(gè)包含了豐富信息的、長(zhǎng)達(dá) 201 個(gè)詞元的“多模態(tài)現(xiàn)實(shí)”。LLM 的自注意力機(jī)制將在這個(gè)統(tǒng)一的序列上運(yùn)作使得文本詞元可以“關(guān)注”到視覺(jué)詞元反之亦然從而實(shí)現(xiàn)了真正意義上的圖文深度理解。從理解到生成 (步驟 6 - 7): 最后LLM 基于這個(gè)前所未有的豐富上下文發(fā)揮其強(qiáng)大的生成能力將它的“所見(jiàn)所想”以自然語(yǔ)言的形式表達(dá)出來(lái)完成了一次從感知到認(rèn)知的完整閉環(huán)。至此我們已經(jīng)為后續(xù)的深入探討打下了堅(jiān)實(shí)的基礎(chǔ)。我們不僅理解了 MLLM 的三大核心組件更通過(guò)追蹤一次完整的數(shù)據(jù)之旅直觀地感受到了它們是如何協(xié)同工作將冰冷的像素矩陣一步步轉(zhuǎn)化為有意義的文字回答。第二部分兩條路線 —— 如何看得更“清晰”第一部分中搭建的“三位一體”黃金架構(gòu)為 MLLM 看懂世界提供了基礎(chǔ)藍(lán)圖。然而這個(gè)基礎(chǔ)藍(lán)圖很快就面臨一個(gè)嚴(yán)峻的現(xiàn)實(shí)挑戰(zhàn)真實(shí)世界的視覺(jué)信息遠(yuǎn)比 224x224 的標(biāo)準(zhǔn)測(cè)試圖要復(fù)雜得多。想象一下我們要讓 AI 閱讀一份布滿小字號(hào)文字的 PDF 文檔、分析一張高清的城市航拍圖或者理解一張超長(zhǎng)的網(wǎng)頁(yè)截圖。如果簡(jiǎn)單粗暴地沿用 ViT 的分塊邏輯將這些高分辨率圖像直接切分成海量的 16x16 圖塊那么生成的“視覺(jué)詞元”序列長(zhǎng)度將從幾百激增到數(shù)千甚至上萬(wàn)。對(duì)于 LLM 內(nèi)部計(jì)算復(fù)雜度呈平方級(jí)增長(zhǎng)的自注意力機(jī)制而言如此長(zhǎng)的序列無(wú)異于一場(chǎng)計(jì)算和顯存的噩夢(mèng)這在現(xiàn)實(shí)應(yīng)用中是完全不可行的。那么如何在不犧牲效率的前提下讓模型擁有處理高分辨率信息、捕捉微小細(xì)節(jié)的“鷹眼”能力呢面對(duì)這個(gè)核心矛盾業(yè)界探索出了兩條截然不同但都極其成功的技術(shù)演進(jìn)路線。本章我們將深入解構(gòu)這兩種設(shè)計(jì)哲學(xué)。2.1 路線一LLaVA 的 AnyRes第一條路線的杰出代表是LLaVA 系列。它所奉行的核心哲學(xué)可以概括為“保持模型核心的極簡(jiǎn)性通過(guò)在輸入端進(jìn)行巧妙的工程設(shè)計(jì)來(lái)‘欺騙’模型使其能消化遠(yuǎn)超其原始訓(xùn)練分辨率的信息。”。LLaVA 的開(kāi)發(fā)者們沒(méi)有選擇去重構(gòu)模型內(nèi)部復(fù)雜的融合機(jī)制而是將智慧聚焦于數(shù)據(jù)預(yù)處理階段提出了一套名為AnyRes (Any Resolution)的解決方案。顧名思義它的目標(biāo)就是讓模型能夠處理“任意分辨率”的圖像。LLaVA-1.5-HD“全局局部”的巧妙協(xié)同AnyRes 的思想在 LLaVA-1.5-HD 版本中得到了經(jīng)典的體現(xiàn)。其策略的核心是“兩手抓兩手都要硬”同時(shí)兼顧圖像的全局上下文和局部細(xì)節(jié)。如上圖所示當(dāng) LLaVA-1.5-HD 接收到一張高分辨率圖像時(shí)它會(huì)兵分兩路進(jìn)行處理1.“局部細(xì)節(jié)”處理路徑 (上路):模型首先將原始的高清大圖High Resolution Image分割(split) 成多個(gè)較小的、但依然保持高清晰度的圖塊。這些圖塊的尺寸通常與視覺(jué)編碼器如 CLIP-ViT原始訓(xùn)練時(shí)能夠處理的最大分辨率例如 336x336相匹配。然后視覺(jué)編碼器會(huì)獨(dú)立地(independently) 對(duì)這些高清圖塊進(jìn)行編碼(encode)。由于每個(gè)圖塊都保持了足夠的分辨率圖像中的微小文字、物體細(xì)節(jié)等關(guān)鍵信息得以被完整地保留下來(lái)。2. “全局上下文”處理路徑 (下路):與此同時(shí)模型會(huì)將原始的高清大圖進(jìn)行一次降采樣(resize / downsample)將其縮放到一個(gè)標(biāo)準(zhǔn)尺寸形成一張低分辨率的全局概覽圖。這張全局圖隨后也被送入視覺(jué)編碼器進(jìn)行編碼(encode)。雖然這個(gè)過(guò)程會(huì)損失大量細(xì)節(jié)但它為模型提供了關(guān)于整張圖片“講的是什么”的寶貴全局上下文(global context)。3. 最終融合最后來(lái)自“局部細(xì)節(jié)”路徑的所有高清圖塊特征與來(lái)自“全局上下文”路徑的單一全局特征會(huì)被拼接(concatenate) 在一起形成一個(gè)更長(zhǎng)的視覺(jué)序列共同送入 LLM。通過(guò)這種巧妙的協(xié)同LLM 最終得到的輸入既包含了來(lái)自各個(gè)局部的高保真細(xì)節(jié)又具備了對(duì)整張圖片布局和主題的宏觀理解從而實(shí)現(xiàn)了對(duì)高分辨率圖像的精準(zhǔn)解析。LLaVA-OneVision 的進(jìn)階為文檔而生的高級(jí) AnyRes隨著任務(wù)的復(fù)雜化尤其是在處理 PDF 文檔、學(xué)術(shù)論文這類(lèi)信息密度極高的場(chǎng)景時(shí)簡(jiǎn)單的特征拼接已經(jīng)不足以完美地保留圖塊之間的空間關(guān)系。為此LLaVA-OneVision 提出了更先進(jìn)的Higher AnyRes 策略。對(duì)比上圖中的 (a) 和 (b) 兩種方案我們可以清晰地看到其核心區(qū)別?原始 AnyRes (The original AnyRes): 如圖 (b) 所示它在編碼各個(gè)圖塊后直接將得到的特征向量展平 (flatten) 并拼接。這種方式雖然簡(jiǎn)單但可能會(huì)丟失圖塊之間精細(xì)的二維布局信息。?高級(jí) AnyRes (Higher AnyRes with Bilinear Interpolation): 如圖 (a) 所示它在編碼完各個(gè)高清圖塊后增加了一個(gè)關(guān)鍵步驟——雙線性插值(Bilinear Interpolation)。它不再是將特征向量粗暴地拼接而是嘗試在特征空間中通過(guò)插值的方式將這些離散的特征圖塊“縫合”起來(lái)重新構(gòu)建一個(gè)更高分辨率的特征圖(Feature Map)。然后再將這個(gè)融合了空間信息的完整特征圖展平送入 LLM。這種方式能更好地保留文檔的布局、表格的結(jié)構(gòu)等至關(guān)重要的空間關(guān)系極大地提升了模型在文檔視覺(jué)問(wèn)答 (DocVQA) 等任務(wù)上的表現(xiàn)。小結(jié)一下LLaVA 系列的演進(jìn)之路充分展現(xiàn)了其“擴(kuò)展輸入邊界”的設(shè)計(jì)哲學(xué)。它通過(guò)不斷迭代 AnyRes 這一核心前端技術(shù)在不改動(dòng)模型核心架構(gòu)的前提下聰明地解決了高分辨率視覺(jué)信息的處理難題證明了優(yōu)秀的工程設(shè)計(jì)與數(shù)據(jù)處理策略同樣是推動(dòng)模型能力飛躍的關(guān)鍵力量。2.2 路線二Qwen3-VL 的 DeepStack與 LLaVA 系列在“輸入邊界”上做文章的哲學(xué)不同另一條演進(jìn)路線則將目光投向了模型內(nèi)部提出了一種更為激進(jìn)和深刻的解決方案。這條路線的集大成者便是以 Qwen3-VL 為代表的、采用 DeepStack 技術(shù)的模型。其核心哲學(xué)可以概括為“與其在入口處一次性‘喂’給模型所有信息不如對(duì)模型的核心架構(gòu)進(jìn)行改造構(gòu)建一條多層次的‘視覺(jué)-語(yǔ)言信息高速公路’在模型思考的不同階段動(dòng)態(tài)地、深度地注入視覺(jué)信息?!?。2.2.1 DeepStack 技術(shù)一種全新的融合范式DeepStack 技術(shù)的提出旨在解決傳統(tǒng)方法為了提供細(xì)粒度視覺(jué)信息而不得不犧牲計(jì)算和顯存開(kāi)銷(xiāo)的根本性難題。它另辟蹊徑不再糾結(jié)于輸入序列的長(zhǎng)度而是通過(guò)將視覺(jué)詞元深度堆疊(deeply stacking) 或注入(infusing) 到模型內(nèi)部的不同層級(jí)實(shí)現(xiàn)了一種高效的深度融合。如上圖所示DeepStack 的原始論文提出了兩種核心實(shí)現(xiàn)模式? DeepStack-L (for LLMs): 這是將視覺(jué)信息注入到語(yǔ)言模型中的版本。它的工作流程是首先低分辨率圖像的特征作為初始視覺(jué)輸入與文本詞元一起送入 LLM 的第一層。隨后從高分辨率圖像中提取的、更精細(xì)的視覺(jué)特征被逐層添加到 LLM 的后續(xù)層如圖中的 LLM Block 2, 3, 5的隱藏狀態(tài)中。? DeepStack-V (for ViTs): 這是將視覺(jué)信息注入到視覺(jué)編碼器ViT自身的版本。整個(gè)注入過(guò)程都發(fā)生在 ViT 內(nèi)部旨在視覺(jué)編碼階段就構(gòu)建一個(gè)多尺度的層次化視覺(jué)表征。Qwen3-VL 采用的正是 DeepStack-L 的核心思想即將視覺(jué)信息深度注入到 LLM 的處理流程中。2.2.2 設(shè)計(jì)背后的科學(xué)依據(jù)為何是 LLM 的“淺層”DeepStack 的設(shè)計(jì)并非空穴來(lái)風(fēng)其背后有堅(jiān)實(shí)的實(shí)驗(yàn)數(shù)據(jù)作為支撐。上圖中的消融實(shí)驗(yàn)結(jié)果清晰地回答了關(guān)于注入策略的三個(gè)關(guān)鍵問(wèn)題1.(a) 應(yīng)該從哪一層開(kāi)始注入實(shí)驗(yàn)表明注入視覺(jué)詞元的起始層越靠前越淺模型得分越高。當(dāng)從第 0~4 層開(kāi)始注入時(shí)性能最佳而當(dāng)起始層推遲到 16 層以后性能會(huì)急劇下降。這有力地證明了LLM 的淺層更適合處理和融合相對(duì)原始的視覺(jué)特征而深層則更專(zhuān)注于基于已融合信息的抽象推理。2.(b) 注入的間隔應(yīng)該是多少性能在注入間隔為2 或 3 層時(shí)達(dá)到峰值。這說(shuō)明并非注入得越密集越好需要給模型留出一定的層數(shù)來(lái)消化和處理上一輪融合后的信息。3.(c) 總共注入多少層比較好實(shí)驗(yàn)顯示注入約4 個(gè)層時(shí)效果最優(yōu)。注入層數(shù)過(guò)少或過(guò)多都會(huì)損害性能。這些結(jié)論為 DeepStack 的高效實(shí)現(xiàn)提供了清晰的“配方”也解釋了為什么 Qwen3-VL 會(huì)選擇將視覺(jué)特征注入到 LLM 的前幾個(gè)層中。2.2.3 實(shí)現(xiàn)的優(yōu)雅一次簡(jiǎn)單的“原地相加”盡管 DeepStack 的思想聽(tīng)起來(lái)很復(fù)雜但其實(shí)現(xiàn)卻異常簡(jiǎn)潔和高效。其偽代碼顯示核心邏輯僅僅是在 Transformer 層的循環(huán)中增加一個(gè)簡(jiǎn)單的條件判斷和一次原地加法(in-place addition)。具體來(lái)說(shuō)就是找到當(dāng)前層隱藏狀態(tài)中屬于視覺(jué)詞元的部分然后直接將待注入的額外視覺(jué)特征加到它們上面。這與 Qwen3-VL 源碼中 _deepstack_process 函數(shù)的實(shí)現(xiàn)邏輯完全一致計(jì)算開(kāi)銷(xiāo)極小。2.2.4 Qwen3-VL 的獨(dú)特適配與優(yōu)化值得注意的是Qwen3-VL 并沒(méi)有完全照搬原始論文的設(shè)計(jì)而是進(jìn)行了一次聰明的“本地化”適配。原始 DeepStack-L 需要額外處理一張高分辨率圖像來(lái)獲取用于注入的精細(xì)特征。而 Qwen3-VL 則更為高效它直接從處理標(biāo)準(zhǔn)輸入圖像的同一個(gè) Vision Tower 的指定中間層例如第 8, 16, 24 層提取特征作為注入到 LLM 淺層的“額外視覺(jué)信息”。這樣做的好處是無(wú)需增加一次額外的高分辨率圖像編碼過(guò)程顯著減少了計(jì)算量同時(shí)依然能為 LLM 提供來(lái)自不同抽象層級(jí)的視覺(jué)信息。為了更好地理解 DeepStack 的獨(dú)特性我們可以將其與 MouSi 模型所代表的“多專(zhuān)家廣度融合”路線進(jìn)行對(duì)比。MouSi 采用多個(gè)并行的、專(zhuān)門(mén)的視覺(jué)編碼器如 CLIP, SAM作為“專(zhuān)家”分別提取不同維度的信息然后通過(guò)一個(gè)復(fù)雜的“多專(zhuān)家融合網(wǎng)絡(luò)”進(jìn)行整合。如果說(shuō) MouSi 是在“廣度”上做文章那么 DeepStack 就是在“深度”上求突破兩條路線各有千秋。小結(jié)一下以 Qwen3-VL 的 DeepStack 為代表的第二條演進(jìn)路線通過(guò)對(duì)模型內(nèi)部架構(gòu)進(jìn)行精巧的、有理論依據(jù)的改造實(shí)現(xiàn)了一種高效、深度的多層次融合范式。它代表了 MLLM 從簡(jiǎn)單的“輸入端拼接”向復(fù)雜的“處理中融合”演進(jìn)的重要一步是架構(gòu)設(shè)計(jì)驅(qū)動(dòng)模型能力躍遷的典范。第三部分兩大系列模型架構(gòu)全景剖析在清晰地理解了 MLLM 的基礎(chǔ)藍(lán)圖并深入探討了“如何看得更清晰”這一核心矛盾的兩條主要解決路線之后我們現(xiàn)在已經(jīng)擁有了所有必要的工具可以開(kāi)始對(duì)這兩條路線的杰出代表——LLaVA 與 Qwen3-VL進(jìn)行一次全景式的架構(gòu)剖析。這將是一場(chǎng)精彩的“巔峰對(duì)決”。通過(guò)深入它們的內(nèi)部我們將看到兩種截然不同的設(shè)計(jì)哲學(xué)是如何在實(shí)踐中被貫徹、演進(jìn)并最終都取得了巨大的成功。首先讓我們從那位“大道至簡(jiǎn)”的忠實(shí)踐行者——LLaVA 系列開(kāi)始。3.1 LLaVA 系列大道至簡(jiǎn)的忠實(shí)踐行者LLaVA (Large Language and Vision Assistant) 系列的整個(gè)發(fā)展史都是對(duì)其核心哲學(xué)——“簡(jiǎn)潔即正確(Simplicity is Correct)”的一次完美詮釋。它的出現(xiàn)開(kāi)創(chuàng)性地證明了我們并不總是需要極其復(fù)雜的融合模塊來(lái)實(shí)現(xiàn)強(qiáng)大的多模態(tài)能力相反一個(gè)極簡(jiǎn)的架構(gòu)在海量數(shù)據(jù)和聰明工程的驅(qū)動(dòng)下同樣可以迸發(fā)出驚人的力量。3.3.1 奠定基調(diào)的開(kāi)創(chuàng)性架構(gòu) (LLaVA 1.0)LLaVA 的第一個(gè)版本就以其驚人的簡(jiǎn)潔性為整個(gè)系列奠定了基調(diào)。如上圖所示其初代架構(gòu)可以用一個(gè)非常清晰的公式來(lái)概括?眼睛 (Vision Encoder): 采用當(dāng)時(shí)業(yè)界領(lǐng)先的、預(yù)訓(xùn)練好的 CLIP ViT-L 模型來(lái)提取圖像特征。?大腦 (Language Model): 基于強(qiáng)大的開(kāi)源語(yǔ)言模型 LLaMA/Vicuna。?靈魂之橋 (Connector): 這是一個(gè)極致簡(jiǎn)潔的單層線性投影層 (Projection W)。它的核心創(chuàng)新就在于這個(gè)連接器LLaVA 勇敢地拋棄了所有復(fù)雜的融合設(shè)計(jì)僅僅使用一個(gè)線性層來(lái)完成從視覺(jué)空間到語(yǔ)言空間的映射。雖然受限于當(dāng)時(shí)的訓(xùn)練數(shù)據(jù)量其初代版本的通用能力并不驚艷但這個(gè)“極簡(jiǎn)連接器”的范式如同一顆投入平靜湖面的石子為后續(xù) MLLM 的發(fā)展激起了巨大的漣漪。3.1.2 務(wù)實(shí)的迭代從 1.0 到 1.5LLaVA 的后續(xù)發(fā)展并未選擇推倒重來(lái)而是在其簡(jiǎn)潔的基座上進(jìn)行了一系列務(wù)實(shí)而高效的迭代升級(jí)這在 LLaVA-1.5 版本中體現(xiàn)得淋漓盡致?連接器升級(jí): 將原本的單層線性層升級(jí)為了一個(gè)表達(dá)能力更強(qiáng)的兩層 MLP。?分辨率提升: 將視覺(jué)編碼器的輸入分辨率從 224x224 提升至 336x336使其能從源頭捕捉更多細(xì)節(jié)。?數(shù)據(jù)驅(qū)動(dòng): 引入了規(guī)模更大、質(zhì)量更高的視覺(jué)指令微調(diào)數(shù)據(jù)集進(jìn)一步釋放了模型的潛力。這些看似微小的改動(dòng)卻帶來(lái)了顯著的性能提升充分證明了 LLaVA 路線的有效性一個(gè)好的基礎(chǔ)架構(gòu)可以通過(guò)持續(xù)的數(shù)據(jù)和參數(shù)優(yōu)化不斷成長(zhǎng)。3.1.3 核心突破AnyRes 技術(shù)——在“邊界”上解決問(wèn)題面對(duì)“如何看得更清晰”的核心矛盾LLaVA 給出了一個(gè)充滿工程智慧的答案——AnyRes 技術(shù)這正是其“擴(kuò)展輸入邊界”哲學(xué)的完美體現(xiàn)。如 LLaVA-1.5-HD 的架構(gòu)所示它沒(méi)有改動(dòng)模型內(nèi)部而是在數(shù)據(jù)預(yù)處理階段進(jìn)行了一次巧妙的“分兵”一路將高清圖像切塊 (split)以保留局部細(xì)節(jié)另一路將高清圖像降采樣 (resize)以提供全局上下文。最終這兩路信息被拼接在一起送入 LLM使其既能“明察秋毫”又能“高瞻遠(yuǎn)矚”。這一思想在后續(xù)的 LLaVA-OneVision 中進(jìn)一步演進(jìn)為 Higher AnyRes通過(guò)引入雙線性插值來(lái)更好地融合圖塊特征以應(yīng)對(duì)文檔理解等對(duì)空間布局要求極高的任務(wù)。最終的升華走向多模態(tài)統(tǒng)一 (LLaVA-OneVision)LLaVA 的演進(jìn)最終在 LLaVA-OneVision 上達(dá)到了一個(gè)高峰。它依然堅(jiān)守著簡(jiǎn)潔的核心架構(gòu)但通過(guò)引入海量的、多樣化的數(shù)據(jù)包括單圖、多圖和視頻并結(jié)合優(yōu)化的 Higher AnyRes 技術(shù)成功地將這一簡(jiǎn)潔的理念從靜態(tài)圖像無(wú)縫擴(kuò)展到了動(dòng)態(tài)視頻領(lǐng)域成為了首批實(shí)現(xiàn)圖像與視頻統(tǒng)一處理的開(kāi)源模型之一。綜上所述LLaVA 系列的整個(gè)發(fā)展歷程是一部關(guān)于“簡(jiǎn)潔”與“迭代”的成功史。它向我們展示了一個(gè)清晰、簡(jiǎn)潔的初始設(shè)計(jì)通過(guò)持續(xù)的數(shù)據(jù)優(yōu)化和聰明的輸入端工程創(chuàng)新如 AnyRes完全有能力攀登到多模態(tài)性能的頂峰。3.2 Qwen3-VL深度融合的集大成者如果說(shuō) LLaVA 系列的演進(jìn)史是一部關(guān)于“大道至簡(jiǎn)”的優(yōu)雅敘事那么 Qwen3-VL 的崛起則是一篇關(guān)于“精巧設(shè)計(jì)架構(gòu)致勝”的宏偉史詩(shī)。它所代表的路線不滿足于僅僅在模型的入口處進(jìn)行一次性的“翻譯”和拼接而是對(duì)模型的核心架構(gòu)進(jìn)行了深度改造旨在構(gòu)建一個(gè)視覺(jué)與語(yǔ)言在處理過(guò)程中就能持續(xù)、深度交互的協(xié)同系統(tǒng)。3.2.1 全新范式從“入口拼接”到“多層注入”Qwen3-VL 的架構(gòu)圖本身就展示了其與 LLaVA 的根本不同。如上圖所示Qwen3-VL 的設(shè)計(jì)顯然更為復(fù)雜和精巧。它不僅能原生處理包括超高分辨率長(zhǎng)圖和視頻在內(nèi)的混合輸入其核心創(chuàng)新更在于視覺(jué)信息的處理和融合方式上。在 LLaVA 中視覺(jué)信息在進(jìn)入 LLM 之后就不再有新的補(bǔ)充而在 Qwen3-VL 中這僅僅是個(gè)開(kāi)始。3.2.2 核心技術(shù)DeepStack 的革命性實(shí)現(xiàn)在 Qwen3-VL 架構(gòu)的心臟地帶跳動(dòng)著其最具革命性的創(chuàng)新——DeepStack 技術(shù)。這是一種全新的融合范式我們可以將其理解為從視覺(jué)編碼器到語(yǔ)言模型的一次“單向握手”升級(jí)為了一場(chǎng)貫穿始終的“多層次深度對(duì)話”。上圖右側(cè)清晰地展示了 DeepStack 的工作原理。傳統(tǒng)的 MLLM 僅將 Vision Encoder 最后一層的輸出特征送入 LLM 的輸入層。而 Qwen3-VL 則不同它的 Vision Encoder 會(huì)像一個(gè)“信息分發(fā)站”從其多個(gè)不同深度的中間層例如第 8、16、24 層提取出不同抽象層次的視覺(jué)特征。然后這些特征會(huì)被精準(zhǔn)地注入 (inject) 到 LLM 解碼器相對(duì)應(yīng)的前幾個(gè)層如 LLM Block 1, Block 3, ...中。這種設(shè)計(jì)的精妙之處在于?信息層次匹配它讓 LLM 的淺層更側(cè)重于處理局部和基礎(chǔ)特征接收來(lái)自 ViT 中間層的、相對(duì)不那么抽象的視覺(jué)特征而 LLM 的深層則可以專(zhuān)注于基于更高階的、已融合的信息進(jìn)行推理。這背后有堅(jiān)實(shí)的實(shí)驗(yàn)數(shù)據(jù)支撐證明了 LLM 的淺層更適合處理視覺(jué)信息。?計(jì)算效率優(yōu)化值得注意的是Qwen3-VL 的實(shí)現(xiàn)比原始 DeepStack 論文中的方案更為高效。它無(wú)需為獲取精細(xì)特征而額外處理一張高分辨率圖像而是直接從處理標(biāo)準(zhǔn)輸入的同一個(gè) Vision Tower 中提取中間層特征這在保證了多層次信息供給的同時(shí)顯著節(jié)約了計(jì)算資源。3.2.3 架構(gòu)演進(jìn)的“石錘”從代碼看 Qwen 的進(jìn)化這種從“簡(jiǎn)單拼接”到“深度融合”的哲學(xué)轉(zhuǎn)變不僅僅停留在概念層面更是在模型的代碼實(shí)現(xiàn)中留下了清晰的印記。通過(guò)對(duì)比 Qwen2.5-VL 和 Qwen3-VL 的模型定義代碼我們可以直觀地看到這場(chǎng)深刻的進(jìn)化1.DeepStack 模塊的引入 在 Qwen3-VL 的代碼中明確出現(xiàn)了 deepstack_merger_list 這一新模塊。這正是負(fù)責(zé)收集并處理 ViT 中間層輸出為后續(xù)注入 LLM 做準(zhǔn)備的核心組件是 DeepStack 實(shí)現(xiàn)的直接證據(jù)。2.語(yǔ)言模塊 (Language Model) 的革新 Qwen3-VL 的語(yǔ)言模型部分升級(jí)為了 Qwen3VLMoeTextModel其內(nèi)部包含了 Qwen3VLMoeTextSparseMoeBlock 結(jié)構(gòu)表明其“大腦”已經(jīng)進(jìn)化為更先進(jìn)、更高效的混合專(zhuān)家 (MoE) 架構(gòu)。3.2.4 其他前沿技術(shù)的集大成除了革命性的 DeepStack 技術(shù)Qwen3-VL 還集成了其他多項(xiàng)前沿架構(gòu)創(chuàng)新共同構(gòu)成了其強(qiáng)大的技術(shù)護(hù)城河?MRoPE-Interleave: 一種更先進(jìn)的多維旋轉(zhuǎn)位置編碼通過(guò)交錯(cuò) t, h, w 三個(gè)維度的頻率讓模型對(duì)視頻的時(shí)空信息有更魯棒的感知。?文本時(shí)間戳對(duì)齊機(jī)制: 在輸入端就將視頻幀與精確的時(shí)間戳文本如 0.8 seconds進(jìn)行綁定讓 LLM 具備了前所未有的、對(duì)視頻事件進(jìn)行精準(zhǔn)時(shí)間定位的能力。綜上所述Qwen3-VL 代表了 MLLM 演進(jìn)的另一條巔峰之路。它不再滿足于模態(tài)間的淺層連接而是通過(guò) DeepStack、MoE、MRoPE 等一系列精巧而深刻的架構(gòu)創(chuàng)新構(gòu)建了一個(gè)真正意義上的“深度協(xié)同”系統(tǒng)。它雄辯地證明了通過(guò)對(duì)模型內(nèi)部信息流進(jìn)行極致的、有理論依據(jù)的優(yōu)化設(shè)計(jì)同樣可以甚至更能推動(dòng)多模態(tài)能力的邊界達(dá)到新的高峰。第四部分總結(jié)與展望殊途同歸邁向統(tǒng)一的“世界模型”我們的解構(gòu)之旅至此已近尾聲。從 MLLM 的“三位一體”黃金架構(gòu)到“如何看得更清晰”這一核心矛盾所引出的兩條截然不同的演進(jìn)之路我們見(jiàn)證了 LLaVA 和 Qwen3-VL 如何用各自的智慧給出了精彩的答案。LLaVA 和 Qwen3-VL 的發(fā)展歷程是多模態(tài)大模型領(lǐng)域兩條并行且同樣成功的探索路徑的縮影?LLaVA 系列向我們證明一個(gè)極簡(jiǎn)的核心設(shè)計(jì)通過(guò)持續(xù)的數(shù)據(jù)優(yōu)化和以 AnyRes 為代表的輸入端技術(shù)創(chuàng)新完全有能力攀登到性能的頂峰。?Qwen3-VL不再滿足于模態(tài)間的淺層連接而是通過(guò)DeepStack、MoE、MRoPE等一系列深刻的內(nèi)部架構(gòu)創(chuàng)新構(gòu)建了一個(gè)真正意義上的“深度協(xié)同”系統(tǒng)。盡管它們的設(shè)計(jì)路徑不同但最終殊途同歸。兩條路線都極大地推動(dòng)了 MLLM 的性能邊界并共同指向了一個(gè)清晰的方向?qū)崿F(xiàn)視覺(jué)與文本更深層次、更無(wú)縫的統(tǒng)一。站在當(dāng)前的時(shí)間點(diǎn)展望多模態(tài)大模型的未來(lái)我們看到的不再是科幻而是正在發(fā)生的現(xiàn)實(shí)。結(jié)合 Qwen3-VL 等前沿模型的最新進(jìn)展我們可以預(yù)見(jiàn)以下幾個(gè)清晰的發(fā)展趨勢(shì)?從“感知”到“推理與執(zhí)行”(From Perception to Execution): MLLM 的能力正在超越“看圖說(shuō)話”的范疇。新一代模型正發(fā)展出強(qiáng)大的視覺(jué)智能體(Visual Agent) 能力能夠理解 GUI 元素、操作電腦手機(jī)界面、調(diào)用工具來(lái)完成復(fù)雜任務(wù)。AI 不再僅僅是世界的觀察者更將成為參與者。?擁抱動(dòng)態(tài)與三維世界(Embracing Dynamic 3D Worlds): 靜態(tài)圖像的理解已趨于成熟下一個(gè)戰(zhàn)場(chǎng)是長(zhǎng)視頻和三維空間。原生支持?jǐn)?shù)小時(shí)視頻的完整理解、精準(zhǔn)到秒級(jí)的時(shí)間定位以及從 2D 圖像中還原物體在真實(shí)世界中位置和大小的 3D grounding 能力將成為未來(lái)模型的標(biāo)配。?真正的多模態(tài)統(tǒng)一(True Multimodal Unification): 當(dāng)前的“拼接”和“注入”可能只是過(guò)渡階段。未來(lái)的終極形態(tài)或許是在預(yù)訓(xùn)練的最早期階段就將視覺(jué)、語(yǔ)言、音頻等多種模態(tài)的數(shù)據(jù)混合在一起進(jìn)行協(xié)同訓(xùn)練讓模型從誕生之初就在一個(gè)統(tǒng)一的、多模態(tài)的世界觀下學(xué)習(xí)成長(zhǎng)。GPT-5 等模型不再區(qū)分視覺(jué)和文本旗艦也印證了這一趨勢(shì)。多模態(tài)大模型的發(fā)展不僅是為 AI 裝上了一雙越來(lái)越清晰的“眼睛”更重要的是它正在為 AI 構(gòu)建一座通往我們物理世界的、堅(jiān)實(shí)而寬廣的橋梁。通過(guò)這座橋梁AI 將能夠真正地“理解”我們所處的環(huán)境并最終與我們“共存”于同一個(gè)現(xiàn)實(shí)之中。一個(gè)更強(qiáng)大、更通用、更能與我們協(xié)作的 AGI (通用人工智能) 時(shí)代正以前所未有的速度加速到來(lái)。
版權(quán)聲明: 本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

自己制作網(wǎng)站需要什么wordpress 提問(wèn)

自己制作網(wǎng)站需要什么,wordpress 提問(wèn),建筑人才網(wǎng)微信群,優(yōu)化排名軟件API調(diào)用頻率限制#xff1a;防止惡意刷量保護(hù)服務(wù)器穩(wěn)定 在如今開(kāi)源語(yǔ)音合成系統(tǒng)被廣泛部署的背景下#xff0c;像阿里推

2026/01/23 10:54:01

建立網(wǎng)站賬號(hào)違法行為數(shù)據(jù)庫(kù)傳奇網(wǎng)

建立網(wǎng)站賬號(hào)違法行為數(shù)據(jù)庫(kù),傳奇網(wǎng),萬(wàn)網(wǎng)建設(shè)網(wǎng)站的步驟,dj音樂(lè)網(wǎng)站建設(shè)深度體驗(yàn)FF14智能釣魚(yú)助手#xff1a;提升效率的必備工具評(píng)測(cè) 【免費(fèi)下載鏈接】Fishers-Intuition 漁人的直感

2026/01/23 11:53:01