97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

visio網(wǎng)站建設(shè)流程圖嘉興做網(wǎng)站費(fèi)用

鶴壁市浩天電氣有限公司 2026/01/24 10:50:55
visio網(wǎng)站建設(shè)流程圖,嘉興做網(wǎng)站費(fèi)用,網(wǎng)站建設(shè)了解,WordPress插件集成在主題簡(jiǎn)介 本文詳細(xì)介紹了11種大模型參數(shù)高效微調(diào)方法#xff0c;包括前綴調(diào)優(yōu)、提示調(diào)優(yōu)、P-Tuning v2、LORA及其衍生方法(DyLORA、AdaLORA)、QLORA、OA-LORA、LongLORA、VeRA和S-LORA。這些方法通過(guò)凍結(jié)預(yù)訓(xùn)練模型參數(shù)#xff0c;僅優(yōu)化少量特定參數(shù)#xff0c;顯著減少計(jì)算和存…簡(jiǎn)介本文詳細(xì)介紹了11種大模型參數(shù)高效微調(diào)方法包括前綴調(diào)優(yōu)、提示調(diào)優(yōu)、P-Tuning v2、LORA及其衍生方法(DyLORA、AdaLORA)、QLORA、OA-LORA、LongLORA、VeRA和S-LORA。這些方法通過(guò)凍結(jié)預(yù)訓(xùn)練模型參數(shù)僅優(yōu)化少量特定參數(shù)顯著減少計(jì)算和存儲(chǔ)資源消耗同時(shí)保持模型性能為不同規(guī)模和應(yīng)用場(chǎng)景的模型微調(diào)提供了多樣化的解決方案。前綴調(diào)優(yōu)前綴調(diào)優(yōu)(PrefixTuning)是一種輕量級(jí)的微調(diào)替代方法專門用于自然語(yǔ)言生成任務(wù)。前綴調(diào)優(yōu)的靈感來(lái)自于語(yǔ)言模型提示前綴就好像是“虛擬標(biāo)記”一樣這種方法可在特定任務(wù)的上下文中引導(dǎo)模型生成文本。前綴調(diào)優(yōu)的獨(dú)特之處在于它不改變語(yǔ)言模型的參數(shù)而是通過(guò)凍結(jié)LM參數(shù)僅優(yōu)化一系列連續(xù)的任務(wù)特定向量(即前綴)來(lái)實(shí)現(xiàn)優(yōu)化任務(wù)如圖1所示由于在訓(xùn)練中只需要為每個(gè)任務(wù)存儲(chǔ)前綴前綴調(diào)優(yōu)的輕量級(jí)設(shè)計(jì)避免了存儲(chǔ)和計(jì)算資源的浪費(fèi)同時(shí)保持了模型的性能具有模塊化和高效利用空間的特點(diǎn)有望在NLP任務(wù)中提供高效的解決方案。提示調(diào)優(yōu)提示調(diào)優(yōu)(PromptTuning)方法是由BrianLester在論文“ThePower of Scale for Parameter-Efficient Prompt Tuning,”中提出的。提示調(diào)優(yōu)采用“軟提示”(SoftPrompt)的方式通過(guò)凍結(jié)整個(gè)預(yù)訓(xùn)練模型只允許每個(gè)下游任務(wù)在輸入文本前面添加k個(gè)可調(diào)的標(biāo)記(Token)來(lái)優(yōu)化模型參數(shù)賦予語(yǔ)言模型能夠執(zhí)行特定的下游任務(wù)的能力如圖2所示在論文的實(shí)驗(yàn)對(duì)比中對(duì)于T5-XXL模型每個(gè)經(jīng)過(guò)調(diào)整的模型副本需要110億個(gè)參數(shù)相較于為每個(gè)下游任務(wù)制作特定的預(yù)訓(xùn)練模型副本提示調(diào)優(yōu)需要的參數(shù)規(guī)模僅為20480個(gè)參數(shù)。該方法在少樣本提示方面表現(xiàn)出色。P-Tuning v2盡管提示調(diào)優(yōu)在相應(yīng)任務(wù)上取得了一定的效果但當(dāng)?shù)鬃P鸵?guī)模較小特別是小于1000億個(gè)參數(shù)時(shí)效果表現(xiàn)不佳。為了解決這個(gè)問題清華大學(xué)的團(tuán)隊(duì)提出了針對(duì)深度提示調(diào)優(yōu)的優(yōu)化和適應(yīng)性實(shí)現(xiàn)–P-Tuning v2方法。該方法最顯著的改進(jìn)是對(duì)預(yù)訓(xùn)練模型的每一層應(yīng)用連續(xù)提示而不僅僅是輸入層。這實(shí)際上是一種針對(duì)大型語(yǔ)言模型的軟提示方法主要是將大型語(yǔ)言模型的詞嵌入層和每個(gè)Transformer網(wǎng)絡(luò)層前都加上新的參數(shù)。深度提示調(diào)優(yōu)增加了連續(xù)提示的功能并縮小了在各種設(shè)置之間進(jìn)行微調(diào)的差距特別是對(duì)于小型模型和困難的任務(wù)。LORA微軟公司在2021年提出了一種名為L(zhǎng)ow-RankAdaptation(LORA,低秩適配器)的方法。LORA的核心思想是通過(guò)凍結(jié)預(yù)訓(xùn)練模型的權(quán)重并將可訓(xùn)練的秩分解矩陣注入Transformer架構(gòu)的每一層從而顯著減少下游任務(wù)中可訓(xùn)練參數(shù)的數(shù)量。在訓(xùn)練過(guò)程中只需要固定原始模型的參數(shù)然后訓(xùn)練降維矩陣A和升維矩陣B如圖3所示與使用Adam微調(diào)的GPT-3175B相比LORA可以將可訓(xùn)練參數(shù)的數(shù)量減少10000倍并將GPU內(nèi)存需求減少3倍。盡管LORA的可訓(xùn)練參數(shù)較少訓(xùn)練吞吐量較高但與ROBERTa、DeBERTa、GPT-2和GPT-3等模型相比LORA在模型質(zhì)量性能方面與微調(diào)相當(dāng)甚至更好DyLORA但隨著研究的深入LORA塊存在兩大核心問題1一旦訓(xùn)練完成后LORA塊的大小便無(wú)法更改若要調(diào)整LORA塊的秩則需重新訓(xùn)練整個(gè)模型這無(wú)疑增加了大量時(shí)間和計(jì)算成本。2LORA塊的大小是在訓(xùn)練前設(shè)計(jì)的固定超參優(yōu)化秩的過(guò)程需要精細(xì)的搜索與調(diào)優(yōu)操作僅設(shè)計(jì)單一的超參可能無(wú)法有效提升模型效果。為解決上述問題研究者引入了一種全新的方法-DyLORA(動(dòng)態(tài)低秩適應(yīng))研究者參考LORA的基本架構(gòu)針對(duì)每個(gè)LORA塊設(shè)計(jì)了上投影(Wup)和下投影(Wdw)矩陣及當(dāng)前LORA塊的規(guī)模范圍R。為確保增加或減少秩不會(huì)明顯阻礙模型的表現(xiàn)在訓(xùn)練過(guò)程中通過(guò)對(duì)LORA塊對(duì)不同秩的信息內(nèi)容進(jìn)行排序再結(jié)合預(yù)定義的隨機(jī)分布中進(jìn)行抽樣來(lái)對(duì)LORA塊鏡像上投影矩陣和下投影矩陣截?cái)嘧罱K確認(rèn)單個(gè)LORA塊的大小如圖4所示研究結(jié)果表明與LORA相比使用DyLORA訓(xùn)練出的模型速度可提升4~7倍且性能幾乎沒有下降。此外與LORA相比該模型在更廣泛的秩范圍內(nèi)展現(xiàn)出了卓越的性能。AdaLORA正如DyLORA優(yōu)化方法一樣提出AdaLORA的研究者也發(fā)現(xiàn)當(dāng)前LORA存在的改進(jìn)方向:由于權(quán)重矩陣在不同LORA塊和模型層中的重要性存在差異因此不能提前制定一個(gè)統(tǒng)一規(guī)模的秩來(lái)約束相關(guān)權(quán)重信息需要設(shè)計(jì)可以支持動(dòng)態(tài)更新的參數(shù)矩陣需要設(shè)計(jì)有效的方法來(lái)評(píng)估當(dāng)前參數(shù)矩陣的重要性并根據(jù)重要性程度為重要性高的矩陣分配更多參數(shù)量以提升模型效果對(duì)重要性低的矩陣進(jìn)行裁剪進(jìn)一步降低計(jì)算量根據(jù)上述思想。研究者提出了AdaLORA方法可以根據(jù)權(quán)重矩陣的重要性得分在權(quán)重矩陣之間自適應(yīng)地分配參數(shù)規(guī)模。在實(shí)際操作中AdaLoRA采用奇異值分解(SVD)的方法來(lái)進(jìn)行參數(shù)訓(xùn)練根據(jù)重要性指標(biāo)剪裁掉不重要的奇異值來(lái)提高計(jì)算效率從而進(jìn)一步提升模型在微調(diào)階段的效果。QLORATimDettmers等研究者在論文“QLORA:Efficient Finetuning ofQuantized LLMs”中提出了一種高效的模型微調(diào)方法–OLORA如圖5所示OLORA的創(chuàng)新內(nèi)容主要如下:4bit NormalFloat(NF4)。NF4是一種新型數(shù)據(jù)類型它對(duì)正態(tài)分布的權(quán)重來(lái)說(shuō)是信息理論上的最優(yōu)選擇雙重量化技術(shù)。雙重量化技術(shù)減少了平均內(nèi)存的使用它通過(guò)對(duì)已量化的常量進(jìn)行再量化來(lái)實(shí)現(xiàn)分頁(yè)優(yōu)化器。分頁(yè)優(yōu)化器有助于管理內(nèi)存峰值防止梯度檢查點(diǎn)時(shí)出現(xiàn)內(nèi)存不足的錯(cuò)誤實(shí)驗(yàn)表明QLORA技術(shù)使得研究者能夠在單個(gè)48GBGPU上微調(diào)650億個(gè)參數(shù)規(guī)模的模型同時(shí)維持16bit精度任務(wù)的完整性能。例如在訓(xùn)練Guanaco模型時(shí)僅需在單個(gè)GPU上微調(diào)24h即可達(dá)到與ChatGPT相當(dāng)?shù)?9.3%性能水平。通過(guò)OLORA微調(diào)技術(shù)可以有效降低模型微調(diào)時(shí)的顯存消耗OA-LORA在論文“OA-LoRA: Quantization-aware Low-rank Adaptation oflargelanguagemodels”中研究者提出了一種量化感知的低秩適應(yīng)(OA-LORA)算法。該方法來(lái)源于量化和適應(yīng)的自由度不平衡的思想。研究者提出采用分組運(yùn)算符的方式旨在增加量化自由度的同時(shí)減少適應(yīng)自由度。QA-LORA的實(shí)現(xiàn)簡(jiǎn)便僅需幾行代碼同時(shí)賦予原始的LORA兩倍的能力:在微調(diào)過(guò)程中LLM的權(quán)重被量化(如INT4)以降低時(shí)間和內(nèi)存的使用微調(diào)后LLM和輔助權(quán)重能夠自然地集成到一個(gè)量化模型中而不損失準(zhǔn)確性通過(guò)在LLaMA和LLaMA2模型系列的實(shí)驗(yàn)中證明QA-LORA在不同的微調(diào)數(shù)據(jù)集和下游場(chǎng)景中驗(yàn)證了其有效性。如圖6所示與之前的適應(yīng)方法LORA和QLORA相比OA-LORA在微調(diào)和推理階段都具有更高的計(jì)算效率。由于不需要進(jìn)行訓(xùn)練后量化因此它不會(huì)導(dǎo)致準(zhǔn)確性損失。在圖6中展示了INT4的量化但OA-LORA可以推廣到INT3和INT2LongLORA通常情況下用較長(zhǎng)的上下文長(zhǎng)度訓(xùn)練大型語(yǔ)言模型的計(jì)算成本較高需要大量的訓(xùn)練時(shí)間和GPU資源。為了在有限的計(jì)算成本下擴(kuò)展預(yù)訓(xùn)練大型語(yǔ)言模型的上下文大小研究者在論文“LongLoRA: Efficient Fine-tuningof Long-ContextLarge LanguageModels”中提出了LongLORA的方法如圖7所示LongLORA在兩個(gè)方面進(jìn)行了改進(jìn):雖然在推理過(guò)程中需要密集的全局注意力但通過(guò)采用稀疏的局部注意力可以有效地進(jìn)行模型微調(diào)。在LongLORA中引入的轉(zhuǎn)移短暫的注意力機(jī)制能夠有效地實(shí)現(xiàn)上下文擴(kuò)展從而在性能上與使用香草注意力(Vanilla Attention)進(jìn)行微調(diào)的效果相似通過(guò)重新審視上下文擴(kuò)展的參數(shù)高效微調(diào)機(jī)制研究者發(fā)現(xiàn)在可訓(xùn)練嵌入和規(guī)范化的前提下用于上下文擴(kuò)展的LORA表現(xiàn)良好LongLORA在從70億、130億到700億個(gè)參數(shù)的LLaMA2模型的各種任務(wù)上都取得了良好的結(jié)果。LongLORA采用LLaMA2-7B型將上下文長(zhǎng)度從4000個(gè)Token擴(kuò)展到10萬(wàn)個(gè)Token展現(xiàn)了其在增加上下文長(zhǎng)度的同時(shí)保持了高效計(jì)算的能力。這為大型語(yǔ)言模型的進(jìn)一步優(yōu)化和應(yīng)用提供了有益的思路。VeRALORA是一種常用的大型語(yǔ)言模型微調(diào)方法它在微調(diào)大型語(yǔ)言模型時(shí)能夠減少可訓(xùn)練參數(shù)的數(shù)量。然而隨著模型規(guī)模的進(jìn)一步擴(kuò)大或者需要部署大量適應(yīng)于每個(gè)用戶或任務(wù)的模型時(shí)存儲(chǔ)問題仍然是一個(gè)挑戰(zhàn)。研究者提出了一種基于向量的隨機(jī)矩陣適應(yīng)(Vector-based Randommatrix AdaptationVeRA)的方法VeRA的實(shí)現(xiàn)方法是通過(guò)使用對(duì)低秩矩陣在所有層之間共享并學(xué)習(xí)小的縮放向量來(lái)實(shí)現(xiàn)這一目標(biāo)。與LORA相比VeRA成功將可訓(xùn)練參數(shù)的數(shù)量減少了10倍同時(shí)保持了相同的性能水平如圖8所示LORA通過(guò)訓(xùn)練低秩矩陣和來(lái)更新權(quán)重矩陣中間秩為。在VeRA中這些矩陣被凍結(jié)在所有層之間共享并通過(guò)可訓(xùn)練向量和進(jìn)行適應(yīng)從而顯著減少可訓(xùn)練參數(shù)的數(shù)量。在這種情況下低秩矩陣和向量可以合并到原始權(quán)重矩陣中不引入額外的延遲。這種新穎的結(jié)構(gòu)設(shè)計(jì)使得VeRA在減少存儲(chǔ)開銷的同時(shí)還能夠保持和LORA相媲美的性能為大型語(yǔ)言模型的優(yōu)化和應(yīng)用提供了更加靈活的解決方案。實(shí)驗(yàn)證明VeRA在GLUE和E2E基準(zhǔn)測(cè)試中展現(xiàn)了其有效性并在使用LLaMA2 7B模型時(shí)僅使用140萬(wàn)個(gè)參數(shù)的指令就取得了一定的效果。這一方法為在大型語(yǔ)言模型微調(diào)中降低存儲(chǔ)開銷提供了一種新的思路有望在實(shí)際應(yīng)用中取得更為顯著的效益。S-LORALORA作為一種參數(shù)高效的大型語(yǔ)言模型微調(diào)方法通常用于將基礎(chǔ)型適應(yīng)到多種任務(wù)中從而形成了大量派生自基礎(chǔ)模型的LORA模型。由于多個(gè)采用LORA形式訓(xùn)練的模型的底座模型都為同一個(gè)因此可以參考批處理模式進(jìn)行推理。據(jù)此研究者提出了一種S-LoRA(Servingthousandsofcon currentLoRAadapters)方法S-LORA是一種專為可伸縮地服務(wù)多個(gè)LORA適配器而設(shè)計(jì)的方法。S-LORA的設(shè)計(jì)理念是將所有適配器存儲(chǔ)在主內(nèi)存中并在GPU內(nèi)存中動(dòng)態(tài)獲取當(dāng)前運(yùn)行查詢所需的適配器。為了高效使用GPU內(nèi)存并減少碎片S-LORA引入了統(tǒng)一分頁(yè)。統(tǒng)一分頁(yè)采用統(tǒng)一的內(nèi)存池來(lái)管理具有不同秩的動(dòng)態(tài)適配器權(quán)重以及具有不同序列長(zhǎng)度的KV緩存張量。此外S-LORA還采用了一種新穎的張量并行策略和高度優(yōu)化的自定義CUDA核心用于異構(gòu)批處理LORA計(jì)算。這些特性使得S-LORA能夠在單個(gè)GPU或跨多個(gè)GPU上提供數(shù)千個(gè)LORA適配器而開銷相對(duì)較小。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)S-LORA的吞吐量提高了4倍多并且提供的適配器數(shù)量增加了數(shù)個(gè)數(shù)量級(jí)。因此S-LORA在實(shí)現(xiàn)對(duì)許多任務(wù)特定微調(diào)模型的可伸縮服務(wù)方面取得了顯著進(jìn)展并為大規(guī)模定制微調(diào)服務(wù)提供了潛在的可能性。如何學(xué)習(xí)AI大模型如果你對(duì)AI大模型入門感興趣那么你需要的話可以點(diǎn)擊這里大模型重磅福利入門進(jìn)階全套104G學(xué)習(xí)資源包免費(fèi)分享這份完整版的大模型 AI 學(xué)習(xí)和面試資料已經(jīng)上傳CSDN朋友們?nèi)绻枰梢晕⑿艗呙柘路紺SDN官方認(rèn)證二維碼免費(fèi)領(lǐng)取【保證100%免費(fèi)】這是一份大模型從零基礎(chǔ)到進(jìn)階的學(xué)習(xí)路線大綱全覽小伙伴們記得點(diǎn)個(gè)收藏第一階段從大模型系統(tǒng)設(shè)計(jì)入手講解大模型的主要方法第二階段在通過(guò)大模型提示詞工程從Prompts角度入手更好發(fā)揮模型的作用第三階段大模型平臺(tái)應(yīng)用開發(fā)借助阿里云PAI平臺(tái)構(gòu)建電商領(lǐng)域虛擬試衣系統(tǒng)第四階段大模型知識(shí)庫(kù)應(yīng)用開發(fā)以LangChain框架為例構(gòu)建物流行業(yè)咨詢智能問答系統(tǒng)第五階段大模型微調(diào)開發(fā)借助以大健康、新零售、新媒體領(lǐng)域構(gòu)建適合當(dāng)前領(lǐng)域大模型第六階段以SD多模態(tài)大模型為主搭建了文生圖小程序案例第七階段以大模型平臺(tái)應(yīng)用與開發(fā)為主通過(guò)星火大模型文心大模型等成熟大模型構(gòu)建大模型行業(yè)應(yīng)用。100套AI大模型商業(yè)化落地方案大模型全套視頻教程200本大模型PDF書籍學(xué)會(huì)后的收獲? 基于大模型全棧工程實(shí)現(xiàn)前端、后端、產(chǎn)品經(jīng)理、設(shè)計(jì)、數(shù)據(jù)分析等通過(guò)這門課可獲得不同能力? 能夠利用大模型解決相關(guān)實(shí)際項(xiàng)目需求 大數(shù)據(jù)時(shí)代越來(lái)越多的企業(yè)和機(jī)構(gòu)需要處理海量數(shù)據(jù)利用大模型技術(shù)可以更好地處理這些數(shù)據(jù)提高數(shù)據(jù)分析和決策的準(zhǔn)確性。因此掌握大模型應(yīng)用開發(fā)技能可以讓程序員更好地應(yīng)對(duì)實(shí)際項(xiàng)目需求? 基于大模型和企業(yè)數(shù)據(jù)AI應(yīng)用開發(fā)實(shí)現(xiàn)大模型理論、掌握GPU算力、硬件、LangChain開發(fā)框架和項(xiàng)目實(shí)戰(zhàn)技能 學(xué)會(huì)Fine-tuning垂直訓(xùn)練大模型數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)蒸餾、大模型部署一站式掌握? 能夠完成時(shí)下熱門大模型垂直領(lǐng)域模型訓(xùn)練能力提高程序員的編碼能力 大模型應(yīng)用開發(fā)需要掌握機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)框架等技術(shù)這些技術(shù)的掌握可以提高程序員的編碼能力和分析能力讓程序員更加熟練地編寫高質(zhì)量的代碼。LLM面試題合集大模型產(chǎn)品經(jīng)理資源合集大模型項(xiàng)目實(shí)戰(zhàn)合集獲取方式有需要的小伙伴可以保存圖片到wx掃描二v碼免費(fèi)領(lǐng)取【保證100%免費(fèi)】
版權(quán)聲明: 本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

商務(wù)網(wǎng)站的分類百度推廣app下載官方

商務(wù)網(wǎng)站的分類,百度推廣app下載官方,360網(wǎng)站外鏈建設(shè),在線制作電子簡(jiǎn)歷在建筑行業(yè)數(shù)字化轉(zhuǎn)型的浪潮中#xff0c;傳統(tǒng)項(xiàng)目管理模式已難以滿足現(xiàn)代企業(yè)高效運(yùn)營(yíng)的需求。項(xiàng)目進(jìn)度滯后、成本超支、質(zhì)量安全

2026/01/22 21:31:01

自動(dòng)發(fā)卡網(wǎng)站開發(fā)小楓云主機(jī)

自動(dòng)發(fā)卡網(wǎng)站開發(fā),小楓云主機(jī),gif網(wǎng)站素材,WordPress插件免費(fèi)下載如何快速構(gòu)建大規(guī)模書籍語(yǔ)料庫(kù)#xff1a;BookCorpus完全指南 【免費(fèi)下載鏈接】bookcorpus Crawl B

2026/01/21 16:32:01