97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

網(wǎng)站下面版權(quán)代碼成都企業(yè)網(wǎng)站開發(fā)

鶴壁市浩天電氣有限公司 2026/01/24 15:42:55
網(wǎng)站下面版權(quán)代碼,成都企業(yè)網(wǎng)站開發(fā),陜西中藥材初加工平臺,建工網(wǎng)校建筑工程網(wǎng)為什么需要用transformer?在沒有transformer的時候#xff0c;我們都是用什么來完成這系列的任務(wù)的呢#xff1f;其實(shí)在之前我們使用的是RNN#xff08;或者是其的單向或者雙向變種LSTM/GRU等#xff09; 來作為編解碼器。RNN模塊每次只能夠吃進(jìn)一個輸入token和前一次的隱…為什么需要用transformer?在沒有transformer的時候我們都是用什么來完成這系列的任務(wù)的呢其實(shí)在之前我們使用的是RNN或者是其的單向或者雙向變種LSTM/GRU等 來作為編解碼器。RNN模塊每次只能夠吃進(jìn)一個輸入token和前一次的隱藏狀態(tài)然后得到輸出。它的時序結(jié)構(gòu)使得這個模型能夠得到長距離的依賴關(guān)系但是這也使得它不能夠并行計算模型效率十分低。transformer模型2017年google的機(jī)器翻譯團(tuán)隊(duì)在NIPS上發(fā)表了Attention is all you need的文章開創(chuàng)性地提出了在序列轉(zhuǎn)錄領(lǐng)域完全拋棄 CNN和RNN只依賴Attention-注意力結(jié)構(gòu)的簡單的網(wǎng)絡(luò)架構(gòu)名為Transformer論文實(shí)現(xiàn)的任務(wù)是機(jī)器翻譯。Transformer進(jìn)行機(jī)器翻譯的結(jié)構(gòu)仍然是編碼器-解碼器結(jié)構(gòu)但是在編碼器和解碼器內(nèi)部采用了Self-Attention機(jī)制。這個想法是在語言的翻譯過程中不只有從目標(biāo)語言到源語言的聯(lián)系目標(biāo)語言和源語言內(nèi)部同樣存在聯(lián)系可以認(rèn)為語法也包括在內(nèi)因此可以通過一個自注意力機(jī)制來捕捉這種聯(lián)系Transformer的結(jié)構(gòu)如圖左側(cè)即為編碼器右側(cè)為解碼器 編碼器由N個block堆疊而成每個block有兩層第一層是論文提出的Multi-Head Attention模型的Self-Attention就是由這個模塊學(xué)習(xí)的之后經(jīng)過殘差連接和LayerNorm輸入下層第二層是一個前向網(wǎng)絡(luò)同樣經(jīng)過殘差連接和LayerNorm輸入下個Block如此反復(fù)第N個Block的輸出會輸入到解碼器的各層中。解碼器同樣由N個Block堆疊而成但是每個Block分為三層第一層是和編碼器一樣的Self-Attention第二層是接收編碼器輸出的Multi-Head Attention這一層是目標(biāo)語言對源語言的Co-Attention第三層是和編碼器第二層一樣的前向?qū)??;窘Y(jié)構(gòu)Transformer 結(jié)構(gòu)可一句話概括由輸入、6 層堆疊的編碼器塊、6 層堆疊的解碼器塊以及經(jīng)線性層和 Softmax 的輸出組成 實(shí)現(xiàn)序列到序列的轉(zhuǎn)換。輸入模塊輸入模塊要解決兩個關(guān)鍵問題詞的語義怎么表示 以及 詞的順序怎么體現(xiàn) 對應(yīng)到模塊里就是詞向量化詞 Embedding 位置 Embedding 的組合。以“我有一只貓”為例此句一共有4個詞比如句子 “我 有 一只 貓”每個詞token都要轉(zhuǎn)換成向量。具體的轉(zhuǎn)換過程灰色方格這些字經(jīng)過詞 Embedding會變成一組浮點(diǎn)數(shù)淺藍(lán)色方格語言光有語義還不夠順序也很重要所以得給每個詞的位置加編碼。右側(cè)的公式就是就是用正弦、余弦函數(shù)給位置做標(biāo)記區(qū)分一句話里詞的先后順序。 藍(lán)色方格最后詞 Embedding 和位置 Embedding 相加得到每個詞的最終輸入向量 最后形成的輸入行數(shù)是詞的數(shù)量列數(shù)是詞向量維度。每個方格的浮點(diǎn)數(shù)就是融合了語義 位置的編碼結(jié)果模型后續(xù)的注意力機(jī)制、前饋網(wǎng)絡(luò)都基于這些向量 “理解” 句子enconder blockenconder block是6個堆疊在一起組成的。每一個小的encoder有包括自注意力、前饋神經(jīng)網(wǎng)絡(luò)以及他們的中間鏈接部分。 下面將詳細(xì)介紹 一個編碼器接收向量列表作為輸入接著將向量列表中的向量傳遞到自注意力層進(jìn)行處理然后傳遞到前饋神經(jīng)網(wǎng)絡(luò)層中將輸出結(jié)果傳遞到下一個編碼器中在每個編碼器中的每個子層自注意力、前饋網(wǎng)絡(luò)的周圍都有一個殘差連接并且都跟隨著一個“層-歸一化”步驟。Decoder block同encoder一樣Decoder解碼器Transformer的解碼器由6個相同的層組成每層包含三個子層掩蔽自注意力層、Encoder-Decoder注意力層和逐位置的前饋神經(jīng)網(wǎng)絡(luò)。每個子層后都有殘差連接和層歸一化操作簡稱AddNorm。這樣的結(jié)構(gòu)確保解碼器在生成序列時能夠考慮到之前的輸出并避免未來信息的影響。Encoder-Decoder 工作過程編碼器輸出編碼器處理完輸入序列后會生成一組上下文向量。這些向量被分解成 鍵向量 K 和 值向量 V Encoder-Decoder 解碼器在生成每個詞時會基于當(dāng)前的隱藏狀態(tài)生成 查詢向量 Q。計算方式與自注意力類似只不過這時Q 來自解碼器本身K,V 來自編碼器的輸出。這樣解碼器就能“對齊”輸入序列決定應(yīng)該關(guān)注輸入的哪些部分。 逐步生成解碼器利用跨注意力層得到的上下文信息結(jié)合已生成的部分預(yù)測下一個詞。 每生成一個新詞就把它作為輸入反饋給解碼器直到生成終止符號。輸出層解碼組件最后會輸出一個實(shí)數(shù)向量。我們?nèi)绾伟迅↑c(diǎn)數(shù)變成一個單詞這便是線性變換層要做的工作它之后就是Softmax層。線性變換層是一個簡單的全連接神經(jīng)網(wǎng)絡(luò)它可以把解碼組件產(chǎn)生的向量投射到一個比它大得多的、被稱作對數(shù)幾率logits的向量里。此頁的圖片是從底部以解碼器組件產(chǎn)生的輸出向量開始。之后它會轉(zhuǎn)化出一個輸出單詞。
版權(quán)聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

廣東網(wǎng)站制作設(shè)計wordpress 替換google字體

廣東網(wǎng)站制作設(shè)計,wordpress 替換google字體,室內(nèi)設(shè)計公司網(wǎng)站設(shè)計,上海平臺網(wǎng)站建設(shè)價格Vue3Antdv后臺管理系統(tǒng)#xff1a;5分鐘快速搭建企業(yè)級應(yīng)用 【免費(fèi)下載鏈接】vue3-a

2026/01/23 12:58:02

產(chǎn)地證哪個網(wǎng)站做南昌做網(wǎng)站流程

產(chǎn)地證哪個網(wǎng)站做,南昌做網(wǎng)站流程,網(wǎng)站開發(fā)學(xué)什么好,網(wǎng)站做頁游推廣終極漫畫閱讀神器#xff1a;Venera跨平臺開源工具完整指南 【免費(fèi)下載鏈接】venera A comic app 項(xiàng)目地址:

2026/01/23 00:47:01

攝影網(wǎng)站設(shè)計說明書google優(yōu)化師

攝影網(wǎng)站設(shè)計說明書,google優(yōu)化師,電商公司網(wǎng)站建設(shè)流程,wordpress 在線商城員工培訓(xùn)材料整理#xff1a;HunyuanOCR自動歸檔會議紙質(zhì)記錄 在企業(yè)日常運(yùn)營中#xff0c;一場培訓(xùn)

2026/01/23 01:15:01