97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

建站系統(tǒng)主要包括企業(yè)網(wǎng)站系統(tǒng)最珠海app下載官網(wǎng)

鶴壁市浩天電氣有限公司 2026/01/24 08:48:13
建站系統(tǒng)主要包括企業(yè)網(wǎng)站系統(tǒng),最珠海app下載官網(wǎng),wordpress提醒美化,深圳外貿(mào)seo網(wǎng)站推廣2025年12月#xff0c;第39屆神經(jīng)信息處理系統(tǒng)大會(huì)#xff08;NeurIPS#xff1a;Annual Conference on Neural Information Processing System#xff09;在美國加利福尼亞州圣迭戈順利召開。NeurIPS是機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議#xff0c;與ICML、ICLR并稱為機(jī)器學(xué)習(xí)領(lǐng)域三…2025年12月第39屆神經(jīng)信息處理系統(tǒng)大會(huì)NeurIPSAnnual Conference on Neural Information Processing System在美國加利福尼亞州圣迭戈順利召開。NeurIPS是機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議與ICML、ICLR并稱為機(jī)器學(xué)習(xí)領(lǐng)域三大會(huì)議。阿里云 PAI 團(tuán)隊(duì)與中國科學(xué)院大學(xué)前沿交叉科學(xué)學(xué)院等單位合作的研究成果——輕量級(jí)動(dòng)態(tài)數(shù)據(jù)調(diào)度方案 Skrull論文被 NeurIPS2025 會(huì)議接收。長上下文微調(diào)Long-SFT對(duì)提升大模型處理長文本的能力至關(guān)重要但混合長短序列的訓(xùn)練數(shù)據(jù)給現(xiàn)有系統(tǒng)帶來效率瓶頸。Skrull 通過在線平衡長短序列的計(jì)算負(fù)載在幾乎零調(diào)度開銷下顯著提升 Long-SFT 的訓(xùn)練效率。實(shí)測(cè)表明Skrull 相比基線平均提速 3.76 倍最高達(dá) 7.54 倍為高效長上下文訓(xùn)練提供了實(shí)用的系統(tǒng)優(yōu)化思路。一、研究背景長文本能力是語言模型的核心能力之一對(duì)諸多下游任務(wù)都至關(guān)重要。續(xù)訓(xùn)練Continue Pre-Training和長文本微調(diào)Long Context Fine-Tuning是擴(kuò)展大語言模型長文本能力的重要一環(huán)。通常情況下這些訓(xùn)練場(chǎng)景通常會(huì)在精心挑選的數(shù)據(jù)集中進(jìn)行在數(shù)據(jù)長度分布上會(huì)有顯著的特點(diǎn)如展現(xiàn)出極度的長尾效應(yīng)數(shù)據(jù)集中短數(shù)據(jù)占絕大多數(shù)同時(shí)存在超長的訓(xùn)練數(shù)據(jù)或者是雙峰分布的特征短序列和長序列同時(shí)在數(shù)據(jù)集中占大多數(shù)。這種特殊的數(shù)據(jù)分布特征給現(xiàn)有的訓(xùn)練系統(tǒng)帶來了廣泛的性能問題。繼 PAI 團(tuán)隊(duì)論文【ICML 2025】Chunkflow后Skrull在上下文并行Context Parallelism以及負(fù)載均衡的角度繼續(xù)優(yōu)化系統(tǒng)訓(xùn)練性能。二、論文思路針對(duì)這種特殊數(shù)據(jù)集長度分布的訓(xùn)練數(shù)據(jù)集原始的序列并行方案很難達(dá)到最優(yōu)性能。首先訓(xùn)練數(shù)據(jù)中長度值差異顯著。單一的上下文并行方案在處理這類場(chǎng)景面臨困難。長序列需要更大的上下文并行維度以減少顯存壓力但會(huì)給短序列處理時(shí)帶來更多的通信代價(jià)以及性能劣化。特別地在長文本微調(diào)場(chǎng)景中訓(xùn)練數(shù)據(jù)中的短文本通常是占絕大多數(shù)的。因此如何在維持長文本處理能力的同時(shí)高效地處理較短數(shù)據(jù)成為了提升該場(chǎng)景訓(xùn)練系統(tǒng)性能的關(guān)鍵問題。Skrull論文中提供了一個(gè)高效且魯棒的解決方案。為了保持長文本處理能力同時(shí)提升短文本的訓(xùn)練效率Skrull在每個(gè)iteration動(dòng)態(tài)地將訓(xùn)練數(shù)據(jù)分為兩組分布式計(jì)算的數(shù)據(jù)組和局部計(jì)算的數(shù)據(jù)組。分布式計(jì)算組如同上下文并行的機(jī)制一樣將訓(xùn)練數(shù)據(jù)切分到不同的GPU上計(jì)算并通過通信傳輸attention計(jì)算所需的Key/Value Cache。局部計(jì)算的數(shù)據(jù)將被完整分配到上下文并行組的某個(gè)GPU上以避免額外的通信和提升計(jì)算效率。于此同時(shí)由于兩組計(jì)算沒有依賴性分布式計(jì)算的通信時(shí)間可以與局部計(jì)算重疊進(jìn)一步提升性能。同時(shí)負(fù)載均衡成為提升系統(tǒng)性能的重要環(huán)節(jié)。局部計(jì)算的數(shù)據(jù)數(shù)量和長度同樣表現(xiàn)出顯著差異。尤其是attention機(jī)制中計(jì)算量FLOPs與數(shù)據(jù)長度的二次方增長的趨勢(shì)與顯存占用的一次方增長趨勢(shì)的差異使得在追求負(fù)載均衡的同時(shí)難以對(duì)峰值顯存做出有效控制增加了顯存溢出的風(fēng)險(xiǎn)。因此為了拿到最大收益我們需要規(guī)劃出最高效的數(shù)據(jù)分組以及數(shù)據(jù)分配方案。理論上我們可以根據(jù)性能建模將該問題形式化成優(yōu)化問題。但是為了實(shí)際的效果以及訓(xùn)練時(shí)表現(xiàn)的魯棒性Skrull系統(tǒng)使用啟發(fā)式的方案來完成上述數(shù)據(jù)的分組與分配。我們觀察到盡可能多的將訓(xùn)練數(shù)據(jù)用作局部計(jì)算能減少通信量和提升運(yùn)算效率但不恰當(dāng)?shù)姆纸M也增大了顯存溢出的風(fēng)險(xiǎn)。同時(shí)我們需要時(shí)刻保持計(jì)算的負(fù)載均衡。我們可以通過統(tǒng)計(jì)每個(gè)GPU實(shí)際負(fù)載FLOPs來判斷負(fù)載均衡情況從而指導(dǎo)局部計(jì)算數(shù)據(jù)的分配。前兩點(diǎn)設(shè)計(jì)雖然最大化了性能收益但都共同增加了顯存溢出風(fēng)險(xiǎn)。因此我們?cè)O(shè)計(jì)了回滾機(jī)制來排除這種風(fēng)險(xiǎn)。因?yàn)橛?xùn)練顯存占用與序列長度的線性關(guān)系我們?cè)诖_定模型和訓(xùn)練策略的基礎(chǔ)上很容易就可以推算出單個(gè)GPU最長可容納的序列總長度即為BucketSize。我們將BucketSize作為數(shù)據(jù)分配的硬約束當(dāng)分配序列超出時(shí)我們將會(huì)強(qiáng)制回滾操作保證了訓(xùn)練的穩(wěn)定性。我們上述的優(yōu)化都是在一個(gè)微批次中進(jìn)行。事實(shí)上我們可以在Global batch內(nèi)就做這種數(shù)據(jù)調(diào)度以獲取更大的性能提升空間同時(shí)不影響模型訓(xùn)練的優(yōu)化軌跡。同理我們通過排序并間隔取長短序列的方式使得其在數(shù)據(jù)并行維度更加負(fù)載均衡、并將長短序列均勻分配到不同微批次中。三、實(shí)驗(yàn)數(shù)據(jù)在多種尺寸的Qwen系列模型中驗(yàn)證系統(tǒng)收益。選取了三個(gè)數(shù)據(jù)集分別代表常見的長尾和雙峰分布。注前兩個(gè)數(shù)據(jù)集不是專用于長文本微調(diào)場(chǎng)景但是其數(shù)據(jù)分布與該場(chǎng)景極為相似。下圖展示了在不同配置下Qwen-0.5B和Qwen-7B相對(duì)于DeepSpeedZero-2和簡(jiǎn)單排序sorted batching均取得了顯著的加速。同時(shí)我們測(cè)試了不同BatchSize和BucketSize設(shè)定對(duì)于性能的影響、更大尺寸模型以及高效微調(diào)方法Lora的兼容性如下圖所示。進(jìn)一步的消融實(shí)驗(yàn)和分析如下表所示展示出Skrull的啟發(fā)式策略以及回滾機(jī)制對(duì)于性能提升的重要性。四、更多論文相關(guān)信息論文標(biāo)題Skrull: Towards Efficient Long Context Fine-tuning through Dynamic Data Scheduling論文作者Hongtao XuWenting ShenYuanxin WeiAng WangGuo RunfanTianxingWangYong LiMingzhen LiWeile Jia論文鏈接https://arxiv.org/abs/2505.19609
版權(quán)聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

泰州外貿(mào)網(wǎng)站建設(shè)百度優(yōu)化教程

泰州外貿(mào)網(wǎng)站建設(shè),百度優(yōu)化教程,個(gè)人網(wǎng)站建設(shè)分幾個(gè)步走,網(wǎng)頁的功能有哪些方面在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域#xff0c;AI驅(qū)動(dòng)的3D建模工具正以前所未有的速度改變著游戲規(guī)則。騰訊開源的混元3D-1.0作為一個(gè)強(qiáng)

2026/01/23 06:29:01