97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

模板網(wǎng)站和定制網(wǎng)站有什么區(qū)別wordpress獲取php變量給模板

鶴壁市浩天電氣有限公司 2026/01/24 16:12:21
模板網(wǎng)站和定制網(wǎng)站有什么區(qū)別,wordpress獲取php變量給模板,商城版網(wǎng)站制作,wordpress入門教程知乎henry 發(fā)自 凹非寺量子位 | 公眾號 QbitAI壓縮即智能#xff0c;又有新進展#xff01;在最新研究CompressARC中#xff0c;Mamba作者Albert Gu團隊給出了一個不同于大規(guī)模預訓練的智能配方——最小描述長度#xff08;MDL#xff09;。研究顯示#xff0c;僅通過在推理階…h(huán)enry 發(fā)自 凹非寺量子位 | 公眾號 QbitAI壓縮即智能又有新進展在最新研究CompressARC中Mamba作者Albert Gu團隊給出了一個不同于大規(guī)模預訓練的智能配方——最小描述長度MDL。研究顯示僅通過在推理階段最小化目標謎題的描述長度一個76K參數(shù)完全沒有經過預訓練的模型就能在ARC-AGI-1基準上解決20%的問題。值得一提的是CompressARC不僅沒使用ARC-AGI的訓練集還是目前唯一一個只在單個樣本上運行的深度學習方法。憑借這一突破CompressARC獲得了ARC Prize 2025的第三名并且據(jù)論文一作Isaac Liao透露這項研究僅使用了一張GPU就得以完成。這是怎么做到的新的智能recipe最小描述長度如上所說CompressARC一沒利用訓練集、二不進行預訓練且網(wǎng)絡中僅有76K參數(shù)但它仍能泛化并解決20%的評估謎題和34.75%的訓練謎題。這種不靠預訓練獲取智能的關鍵在于CompressARC的最終目標不是像普通神經網(wǎng)絡那樣學習一個泛化的規(guī)則而是把一個特定的ARC-AGI謎題用一個最短的計算機程序表達出來。換句話說CompressARC并不是像監(jiān)督學習一樣學習一個x到y(tǒng)的映射而是尋找一種能用最少比特信息來表述給定謎題的方法。這一思想源自最小描述長度MDL理論以及與其相關的Solomonoff歸納法和Kolmogorov復雜度理論——一個現(xiàn)象謎題的最短描述程序往往能揭示其最深層的規(guī)律。在ARC-AGI的情境中CompressARC旨在將一個特定的ARC-AGI謎題包括其輸入和期望的輸出用一個最短的計算機程序來表達出來。這個最短的程序意味著它找到了最簡潔、最本質的規(guī)則而這些規(guī)則恰好就是謎題的解。與此同時研究還遵循奧卡姆剃刀原理即最短的程序被假設具有最強大的泛化能力。因此CompressARC僅使用謎題本身兩個示例輸入/輸出對和測試輸入而不加載任何額外的附加數(shù)據(jù)或訓練集。接下來我們具體來看。CompressARC挑戰(zhàn)的ARC-AGI-1是一個檢驗系統(tǒng)能否在少量示例中找到規(guī)則的測試。簡單來說這有點像行測考試里的找規(guī)律題每道題目會給出幾對輸入-輸出作為示例模型需要找到謎題中的規(guī)則從而生成正確的、對應的網(wǎng)格。CompressARC 的“壓縮”過程就是找到圖里最本質的信息/規(guī)則。目前在該測試中取得最好成績的仍是基于互聯(lián)網(wǎng)數(shù)據(jù)預訓練的大語言模型。比如o3能達到88%的成績但o1則只有25%左右。而在不進行預訓練、僅使用ARC-AGI 數(shù)據(jù)訓練的神經網(wǎng)絡中最高成績?yōu)?0.3%CompressARC這次只在測試謎題本身上進行訓練??偟膩碚fCompressARC解決問題的過程是一個最小化目標謎題的程序性描述長度Minimum Description Length, MDL的過程這可看作是用神經網(wǎng)絡來“寫”最短的程序。MDL 框架與搜索空間的轉換首先由于計算機程序的組合搜索空間過于龐大無法窮盡所有可能的程序來找到絕對最短的那一個計算上不可行。因此論文設計了一個固定的“程序模板”Template Program / Algorithm 1。這個模板包含一套固定的運算流程從隨機噪聲z采樣經過一個神經網(wǎng)絡再次采樣生成謎題顏色。這些模板中留下了幾個“空位”用于填入硬編碼的數(shù)值即“種子”以及神經網(wǎng)絡的權重。只要填入了這些種子和權重這個模板程序就能運行并“打印”出整個 ARC-AGI 數(shù)據(jù)集。由此尋找最短程序的問題就轉化成了尋找最短的種子和權重的問題。接下來研究借鑒了變分自編碼器VAE的原理將程序長度的最小化轉化為一個可微分的優(yōu)化問題種子長度 1 (KL 散度)衡量了從標準正態(tài)分布中采樣隨機輸入z所需的編碼信息成本。通過最小化z分布與標準正態(tài)分布的KL散度實現(xiàn)了對z所攜帶信息量的懲罰迫使網(wǎng)絡以最短的比特數(shù)來編碼z。種子長度 2 (交叉熵/重構損失) 衡量了神經網(wǎng)絡輸出的謎題與真實已知謎題的匹配程度即負對數(shù)似然。匹配得越好說明該謎題被成功重構所需的“額外校正信息”即用于校正輸出結果的種子就越少。不過原始的算法2需要進行復雜的相對熵編碼REC涉及指數(shù)級的計算速度太慢。因此CompressARC通過算法3跳過了這些復雜步驟直接用VAE中的損失函數(shù)KL 散度和交叉熵來近似種子的預期長度。這把原本不可行的“尋找最短程序”的組合搜索問題轉化成了一個可行的、可以用梯度下降深度學習的標準優(yōu)化方法來求解的優(yōu)化問題。在架構方面網(wǎng)絡的全部目標是在沒有外部訓練數(shù)據(jù)的情況下通過內置的強大歸納偏置Inductive Biases使得網(wǎng)絡本身就具有極高的概率能“生成”一個合理的 ARC-AGI 謎題從而使所需的種子信息量降到最低。這包含四個方面的處理等變性與對稱性處理架構內置了對ARC-AGI 謎題常見變換的等變性Equivariance包括旋轉、翻轉、顏色置換和示例順序置換。這保證了網(wǎng)絡能夠默認賦予所有等價變換后的謎題相同的概率避免了使用冗長代碼來描述這些對稱性進一步縮短了程序長度。數(shù)據(jù)結構多張量Multitensor網(wǎng)絡內部并非使用一個單一的大張量而是使用一個“張量桶”或多張量Multitensor其中包含形狀不同的張量每個張量代表不同粒度的信息。這種表示方式專門用于存儲高層次的關系信息從而提供了更有效的歸納偏置使網(wǎng)絡能夠更容易地進行抽象推理。核心骨干類 Transformer 結構架構在結構上類似于Transformer采用一個殘差骨干Residual Backbone由線性投影讀取/寫入和專門設計的操作組成并重復運行4次。整個模型僅有76K參數(shù)。這是因為大部分參數(shù)僅用于通道維度的線性讀/寫投影而核心操作本身是無參數(shù)的。歸納偏置無參數(shù)的自定義操作網(wǎng)絡的核心功能不是傳統(tǒng)的注意力機制而是一系列針對謎題規(guī)則高度定制的、無參數(shù)的操作這些操作直接體現(xiàn)了對ARC-AGI謎題規(guī)則的先驗知識信息匯總與傳播 沿著一個軸求和并將結果廣播回去實現(xiàn)不同粒度信息的交互。幾何操作 沿著幾何維度進行單像素平移實現(xiàn)對象的移動/復制。拓撲/形狀操作 沿著幾何維度取累積最大值Cumulative Max有助于捕捉圖案的延伸、填充或邊界等拓撲屬性。通過這種“高度工程化”的架構CompressARC確保了其對謎題的描述性程序能夠被最大程度地壓縮從而在無預訓練、數(shù)據(jù)極度受限的條件下成功實現(xiàn)了對ARC-AGI謎題的泛化求解。實驗驗證為了評估CompressARC的性能研究為CompressARC提供了2000個推理時訓練步驟來處理每個謎題每個謎題大約花費20分鐘。在這個推理時計算預算內CompressARC 正確解決了20%的評估集謎題和34.75%的訓練集謎題。如開頭所示總的來說研究挑戰(zhàn)了智能必須源于大規(guī)模預訓練和數(shù)據(jù)的假設其表明巧妙地運用MDL和壓縮原理可以帶來令人驚訝的能力。CompressARC作為一個概念證明旨在展示現(xiàn)代深度學習框架可以與MDL結合從而創(chuàng)建一條通往通用人工智能AGI的可能的、互補的替代路徑。One more thing這篇論文的作者Isaac Liao目前是CMU機器學習系的在讀博士生師從Albert Gu教授。他本科與碩士階段均就讀于麻省理工學院MIT且本科期間便拿下了計算機科學與物理學雙學位。他的研究興趣包括最小描述長度Minimum Description Length, MDL、變分推斷、超網(wǎng)絡Hypernetworks、元學習、優(yōu)化方法以及稀疏性。值得一提的是這項研究中用到的核心基準測試ARC-AGI-1Abstraction and Reasoning Corpus 由Google AI 研究員、深度學習庫Keras的創(chuàng)始人Fran?ois Chollet于2019年提出。這一基準是為了應對當時深度學習方法在狹窄、專業(yè)任務上表現(xiàn)出色但在展示類人泛化能力方面不足的現(xiàn)狀旨在評估 AI 處理新穎、未曾明確訓練過的問題的能力是衡量通用人工智能AGI能力的核心標尺。它專門用于基準測試技能習得能力智能的根本核心而非在單一預定義任務上的性能。一鍵三連「點贊」「轉發(fā)」「小心心」歡迎在評論區(qū)留下你的想法—完—
版權聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若內容造成侵權/違法違規(guī)/事實不符,請聯(lián)系我們進行投訴反饋,一經查實,立即刪除!

做php網(wǎng)站教程深圳制作小程序

做php網(wǎng)站教程,深圳制作小程序,無錫論壇網(wǎng)站制作,襄陽網(wǎng)站建設xtehusOlmo 3系列模型提出模型流程概念#xff0c;實現(xiàn)大模型全生命周期透明化。包含7B和32B兩種參數(shù)規(guī)模#xff0c;通過

2026/01/23 09:18:02

一個網(wǎng)站的后臺昌吉做網(wǎng)站需要多少錢

一個網(wǎng)站的后臺,昌吉做網(wǎng)站需要多少錢,搜狐快站官網(wǎng),深圳微信商城網(wǎng)站設計費用第一章#xff1a;云手機性能提升難題#xff0c;如何用Open-AutoGLM實現(xiàn)毫秒級響應#xff1f;在云手機系統(tǒng)中

2026/01/23 05:43:01