97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

深圳建設信息網(wǎng)站官網(wǎng)上海公司網(wǎng)站建設服務

鶴壁市浩天電氣有限公司 2026/01/24 14:29:01
深圳建設信息網(wǎng)站官網(wǎng),上海公司網(wǎng)站建設服務,wordpress foxpay,網(wǎng)站開發(fā)的工作好做嗎大規(guī)模的神經(jīng)網(wǎng)絡模型需要依托分布式集群環(huán)境完成載入和訓練。技術演進不僅讓模型規(guī)模膨脹#xff0c;支撐算力的硬件也迭代升級#xff0c;如何充分利用異構算力將成為難題。調(diào)研分享在異構集群下并行訓練的近期研究。 1 模型分布式訓練的并行策略 訓練神經(jīng)網(wǎng)絡模型就像是在…大規(guī)模的神經(jīng)網(wǎng)絡模型需要依托分布式集群環(huán)境完成載入和訓練。技術演進不僅讓模型規(guī)模膨脹支撐算力的硬件也迭代升級如何充分利用異構算力將成為難題。調(diào)研分享在異構集群下并行訓練的近期研究。1 模型分布式訓練的并行策略訓練神經(jīng)網(wǎng)絡模型就像是在做雕塑不斷喂給它數(shù)據(jù)對其進行打磨反復迭代后最終產(chǎn)出的參數(shù)就是成品。但如果模型太大單個機器裝不下進行分布式訓練就是必然的選擇了。分布式訓練的核心要義是對規(guī)模龐大的模型進行拆分由節(jié)點組成的集群共同完成訓練任務衍生出多種并行訓練策略以下簡單列出幾種主流的并行策略數(shù)據(jù)并行Data Parallelism, DP。每個節(jié)點載入完整模型將數(shù)據(jù)拆分成多份喂到不同節(jié)點當前epoch前向反向傳播計算完成后執(zhí)行梯度同步并更新參數(shù)進入下一個epoch。張量并行Tensor Parallelism, TP。把模型中的參數(shù)矩陣進行切割分配到不同的節(jié)點進行計算子矩陣的計算結果及時聚合完成當前epoch參數(shù)更新進入下一個epoch。流水線并行Pipeline Parallelism, PP。將神經(jīng)網(wǎng)絡按層進行劃分不同節(jié)點負責不同層的計算輸入輸出前后對接形成流水線多個epoch同時進行。更專業(yè)的解釋以及其他并行策略可以去網(wǎng)上檢索或者詢問大模型這里不做贅述。2 跨架構的機器學習訓練框架就像開頭所說的硬件迭代的速度不比模型規(guī)模慢多少。盡管采用分布式訓練要湊齊同架構的計算芯片來組成集群也并非易事。因此支持跨架構的分布式訓練尤為重要?,F(xiàn)有的主流機器學習訓練框架如 PyTorch、TensorFlow 等支持跨架構執(zhí)行其效果類似于高級編程語言支持跨平臺運行一樣。以Java、Python和Rust舉例Java 依靠 JVM 虛擬機實現(xiàn)“一次編譯到處運行”不同平臺要安裝對應系統(tǒng)的 JVM 虛擬機。Python 依靠解釋器實現(xiàn)跨平臺解釋運行不同平臺通過該解釋器再編譯運行。Rust 依靠 LLVM 直接生成目標平臺可執(zhí)行代碼編譯前端生成中間表達由編譯后端指定輸出到對應平臺。為什么突然提到編程語言是因為想要介紹 LLVM 這種跨架構的方式這在早期的分享中有提到過。它將上層高級語言和多種硬件底層代碼通過統(tǒng)一的中間表達進行轉(zhuǎn)換關聯(lián)從而實現(xiàn)跨平臺架構的能力。在機器學習框架中Pytorch、TensorFlow甚至 JAX 高性能數(shù)組計算庫都能實現(xiàn)跨架構執(zhí)行。它們使用 XLA 線性代數(shù)編譯器將計算函數(shù)轉(zhuǎn)換為一種代數(shù)運算的高層中間表示然后再進一步編譯到目標平臺的可執(zhí)行代碼。圖1 機器學習框架編譯路徑圖 1 將這幾種機器學習框架的編譯路徑做了清晰的展示。通過 XLA 編譯之后框架根據(jù)目標平臺在普通 CPU 和 GPU 繼續(xù)編譯成 LLVM 中間表示由對應編譯器后端生成可執(zhí)行代碼。谷歌自研的 TPU 專用芯片由專門的 TPU 后端編譯生成可執(zhí)行代碼。3 面向異構集群混合訓練方案跨架構對于編程語言甚至是程序應用來說都是一種很重要的能力。但這并不意味著現(xiàn)有的機器學習框架可以直接面向異構集群進行分布式訓練Megatron-LM 更多是針對在同構集群中對訓練任務的調(diào)度分配。這里所指的異構除了同架構多代 GPU 混合如 A100V100也包括了跨廠商的芯片如 NVIDIAAMD甚至還有不同芯片類型如 CPUGPUNPU。將這些計算能力充分利用起來需要從多種維度例如任務劃分和調(diào)度、架構設計和流程等重新組織分布式訓練。在異構集群環(huán)境下進行分布式訓練目前已有相當多的前人研究。結合本人的調(diào)研工作共收集整理了 15 篇相關文獻列舉如下。AIBox論文標題AIBox: CTR Prediction Model Training on a Single Node發(fā)表信息2019 年 - CKIM - 百度方案簡介解決搜索引擎廣告面臨的現(xiàn)有問題。使用 CPUSSDGPU 架構適配廣告領域里訓練數(shù)據(jù)的稀疏性特點。開源實現(xiàn)無論文鏈接https://doi.org/10.1145/3357384.3358045BytePS論文標題A unified architecture for accelerating distributed DNN training in heterogeneous GPU/CPU clusters發(fā)表信息2020 年 - USENIX - 字節(jié)方案簡介參數(shù) k 用來指定額外的 CPU 數(shù)量決定將多少梯度聚合任務卸載到 CPU 上。當 k0 退化為 all-reducekn 退化為傳統(tǒng) PS。開源實現(xiàn)https://github.com/bytedance/byteps - 自研框架可插件支持 TensorFlow、PyTorch 和 MXNet。論文鏈接https://www.usenix.org/conference/osdi20/presentation/jiangGavel論文標題Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads發(fā)表信息2020 年 - USENIX - Stanford方案簡介將調(diào)度策略形式化為優(yōu)化求解問題計算每個子任務分配到不同 GPU 卡的最優(yōu)時間。開源實現(xiàn)https://github.com/stanford-futuredata/gavel - 基于 PyTorch 框架實現(xiàn)。論文鏈接https://www.usenix.org/conference/osdi20/presentation/narayanan-deepakHetPipe論文標題HetPipe: enabling large DNN training on (whimpy) heterogeneous GPU clusters through integration of pipelined model parallelism and data parallelism發(fā)表信息2020 年 - USENIX - UNIST方案簡介異構 GPU 組成虛擬工作節(jié)點節(jié)點之間數(shù)據(jù)并行節(jié)點內(nèi)部流水線模型并行允許一定程度的梯度滯后。開源實現(xiàn)未開源 - 基于 TensorFlow 框架實現(xiàn)。論文鏈接https://www.usenix.org/conference/atc20/presentation/parkWhale論文標題Whale: Efficient Giant Model Training over Heterogeneous GPUs發(fā)表信息2020 年 - USENIX - 阿里方案簡介設計了 replicate/split 兩大原語顯式進行分布式訓練策略用邏輯設備屏蔽異構 GPU。開源實現(xiàn)https://github.com/alibaba/EasyParallelLibrary - 基于 TensorFlow 框架實現(xiàn)。論文鏈接https://www.usenix.org/conference/atc22/presentation/jia-xianyanAMP論文標題AMP: Automatically Finding Model Parallel Strategies with Heterogeneity Awareness發(fā)表信息2022 年 - NeurIPS - CMU方案簡介自動為異構模型和異構集群生成高吞吐的 3D 模型并行策略。開源實現(xiàn)https://github.com/DachengLi1/AMP - 基于 DeepSpeed 框架實現(xiàn)。論文鏈接https://doi.org/10.48550/arXiv.2210.07297Hare論文標題Hare: Exploiting Inter-job and Intra-job Parallelism of Distributed Machine Learning on Heterogeneous GPUs發(fā)表信息2022 年 - HPDC - 會津大方案簡介在異構 GPU 集群上進行快速任務切換同時挖掘作業(yè)間與作業(yè)內(nèi)并行。開源實現(xiàn)未開源 - 基于 PyTorch 框架實現(xiàn)。論文鏈接https://doi.org/10.1145/3502181.3531462HeterPS論文標題HeterPS: Distributed deep learning with reinforcement learning based scheduling in heterogeneous environments發(fā)表信息2023 年 - FGCS - 百度方案簡介按 IO/計算占比對任務劃分為通信敏感和計算敏感兩類對此進行強化學習決定把層放到 CPU 還是 GPU 做計算。開源實現(xiàn)未開源 - 基于 PaddlePaddle 框架實現(xiàn)。論文鏈接https://doi.org/10.1016/j.future.2023.05.032SDPipe論文標題SDPipe: A Semi-Decentralized Framework for Heterogeneity-Aware Pipeline-parallel Training發(fā)表信息2023 年 - VLDB - CMU方案簡介中央調(diào)度器動態(tài)生成同步組組內(nèi)去中心化模型實施流水線并行。開源實現(xiàn)https://github.com/Hsword/VLDB2023_SDPipe - 基于北大 Hetu 框架實現(xiàn)。論文鏈接https://doi.org/10.14778/3598581.3598604HETHUB論文標題HETHUB: A Distributed Training System with Heterogeneous Cluster for Large-Scale Models發(fā)表信息2024 年 - arXiv - 無問芯穹方案簡介異構節(jié)點之間流水線并行節(jié)點內(nèi)再做數(shù)據(jù)并行進一步實施張量并行。開源實現(xiàn)未開源 - 基于 Megatron LM 和 Megatron-DeepSpeed 框架實現(xiàn)。論文鏈接https://doi.org/10.48550/arXiv.2405.16256Metis論文標題Metis: Fast Automatic Distributed Training on Heterogeneous GPUs發(fā)表信息2024 年 - USENIX - 三星方案簡介感知異構設備剪枝匹配搜索空間流水線并行根據(jù)容量負載均衡階段內(nèi)數(shù)據(jù)和張量并行。開源實現(xiàn)未開源 - 基于 Alpa 框架實現(xiàn)。論文鏈接https://www.usenix.org/conference/atc24/presentation/umHAPT論文標題HAPT: Heterogeneity-Aware Automated Parallel Training on Heterogeneous Clusters發(fā)表信息2025 年 - arXiv - 復旦方案簡介跨子集群使用算子間并行根據(jù)階段間通信代價自適應調(diào)整微批次發(fā)射數(shù)量。開源實現(xiàn)未開源 - 基于 Alpa 框架實現(xiàn)。論文鏈接https://doi.org/10.48550/arXiv.2509.24859Hetu v2論文標題Hetu v2: A General and Scalable Deep Learning System with Hierarchical and Heterogeneous Single Program Multiple Data Annotations發(fā)表信息2025 年 - arXiv - 北大方案簡介分層異構范式通過代碼注解實現(xiàn)計算圖推導和通信策略規(guī)劃。開源實現(xiàn)https://github.com/PKU-DAIR/Hetu - 自研框架 Hetu可與主流框架互聯(lián)互通。論文鏈接https://doi.org/10.48550/arXiv.2504.20490HexiScale論文標題HexiScale: Accommodating Large Language Model Training over Heterogeneous Environment發(fā)表信息2025 年 - arXiv - 港科大方案簡介非對稱并行劃分先全局圖劃分形成 GPU 組組內(nèi)獨立選并行策略貪心搜索選最優(yōu)策略。開源實現(xiàn)未開源 - 基于 PyTorch 框架實現(xiàn)。論文鏈接https://doi.org/10.48550/arXiv.2409.01143HGTrainer論文標題Training Large Models on Heterogeneous and Geo-Distributed Resource with Constricted Networks發(fā)表信息2025 年 - BDMA - 清華方案簡介異構感知分層優(yōu)化算法求解最優(yōu)混合并行策略。開源實現(xiàn)無論文鏈接https://doi.org/10.26599/BDMA.2025.90200314 對前沿研究工作總結和整理上述這些研究工作僅僅是截至到寫這篇分享為止檢索到的盡可能多的相關文獻。這個方向的研究未來肯定還會有尤其是隨著模型需求的變化。比較麻煩的是光是這 15 篇文獻已經(jīng)讓人眼花繚亂了。所以我從不同的角度簡單對其進行總結和整理。首先從開源的角度。為方便進行后續(xù)研究可復現(xiàn)對比可工程實用代碼開源非常關鍵。這些方案都有開源BytePS、Gavel、Whale、AMP、SDPipe、Hetu v2可以多一些關注和研究。其次雖然都是研究工作但明顯有些文獻是工程經(jīng)驗的總結而有些則是技術方法的探索。我將其按領域劃分為工業(yè)界和學術界工業(yè)界表明該文章所提方案或已經(jīng)在工程上實用了學術界表明該文章所提方案主要在研究階段可行。領域方案工業(yè)界AIBox、BytePS、Whale、HETHUB、Metis學術界Gavel、HetPipe、AMP、Hare、HeterPS、SDPipe、HAPT、Hetu v2、HexiScale、HGTrainer最后從研究工作的內(nèi)容來看所提方案可以分成三種類型架構設計傾向于異構集群該如何組織從而安排分布式訓練編程改造傾向于通過代碼注解來調(diào)度和簡化在異構集群上的訓練任務優(yōu)化問題則把調(diào)度抽象為任務和節(jié)點的最優(yōu)匹配做優(yōu)化求解。類型方案架構設計AIBox、HetPipe、SDPipe、HETHUB、Metis編程改造BytePS、Whale、Hetu v2優(yōu)化問題Gavel、AMP、Hare、HeterPS、HAPT、HexiScale、HGTrainer上述劃分純粹是個人理解僅供參考。通過簡單分類可以幫助快速掌握研究現(xiàn)狀并選擇相關研究進一步深入。我個人傾向是架構設計和編程改造類的研究工作有一定程度的思路啟發(fā)和工程借鑒。而優(yōu)化問題則過于抽象換個條件和目標又是一篇文章可行性難以衡量P.S. 主要是我太菜看不懂。
版權聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請聯(lián)系我們進行投訴反饋,一經(jīng)查實,立即刪除!

建設釣魚網(wǎng)站搭建wordpress個人博客

建設釣魚網(wǎng)站,搭建wordpress個人博客,最全的域名后綴,幫人做任務的網(wǎng)站簡介 本文以Qwen2.5-32B大語言模型為例#xff0c;詳細解析大模型推理中Self-Attention模塊的算子計

2026/01/21 18:47:01

南昌網(wǎng)站設計專業(yè)免費看看視頻用什么軟件好

南昌網(wǎng)站設計專業(yè),免費看看視頻用什么軟件好,蘇州建設網(wǎng)站公司在什么地方,網(wǎng)絡服務提供者不是網(wǎng)絡運營者正確還是錯誤QtScrcpy鼠標點擊失效實戰(zhàn)排障#xff1a;從癥狀識別到高效修復 【免費下載鏈接】

2026/01/23 17:35:01

網(wǎng)站縮放代碼wordpress兩欄

網(wǎng)站縮放代碼,wordpress兩欄,我的世界怎么做購買點卷網(wǎng)站,網(wǎng)頁設計網(wǎng)站大全PXIe-1435 圖像采集設備是一款高性能工業(yè)圖像采集模塊#xff0c;適用于高速、高精度圖像采集和處理#xff0c

2026/01/23 00:00:01

蚌埠集團網(wǎng)站建設哪些平臺制作網(wǎng)站

蚌埠集團網(wǎng)站建設,哪些平臺制作網(wǎng)站,網(wǎng)站建設開發(fā)服務費會計科目,汕頭市公司黃頁ContextMenuManager#xff1a;快速解決Windows右鍵菜單臃腫問題的終極方案 【免費下載鏈接】Con

2026/01/23 09:24:01