手機高端網(wǎng)站建設(shè),設(shè)計云平臺,有什么可以接單做的網(wǎng)站,大連企業(yè)制作網(wǎng)站文章目錄Prefill 計算密集、Decode 訪存密集——這對天然割裂的階段#xff0c;決定了大模型推理并非一鍋燉。把兩者解耦#xff08;PD 分離#xff09; 用 vLLM 的 PagedAttention 精準(zhǔn)管控 KV Cache#xff0c;是目前在昇騰場景下把吞吐與成本同時打上去的可靠路徑。 …文章目錄Prefill 計算密集、Decode 訪存密集——這對天然割裂的階段決定了大模型推理并非一鍋燉。把兩者解耦PD 分離用 vLLM 的 PagedAttention 精準(zhǔn)管控 KV Cache是目前在昇騰場景下把吞吐與成本同時打上去的可靠路徑。我們就用DeepSeek-V3-w8a8為例完整記錄在vLLM-ascend上落地PD 分離的過程與最佳實踐并附常見報錯與處理清單幫助你少走彎路。1.背景與意義Prefill把完整輸入編碼為隱藏狀態(tài)并生成初始 KV Cache計算密集、顯存瞬時占用高。Decode一次生成一個 token強依賴 KV Cache 讀寫訪存/帶寬密集、鏈路易 HostBound。PD 分離Prefill/Decode 解耦將兩類負(fù)載放到更合適的資源上避免強強碰撞。配合vLLM 的 PagedAttention分塊管理 KV 內(nèi)存可以有效降低 Cache 碎片化與浪費讓高并發(fā) 長上下文的場景更穩(wěn)、更省、更快。2.環(huán)境版本與依賴2.1 基礎(chǔ)環(huán)境點擊圖片可查看完整電子表格2.2 軟件依賴點擊圖片可查看完整電子表格建議把vLLM與vLLM-ascend的 commit/tag 鎖定到同一大版本避免 API 漂移帶來的兼容性問題。3.環(huán)境搭建要點版3.1 連通性與健康檢查| Bash# 設(shè)備與狀態(tài) npu-smi info # HCCL 鏈路逐卡 for i in {0…15}; do hccn_tool -i $i -lldp -g | grep Ifname; done for i in {0…15}; do hccn_tool -i $i -link -g; done for i in {0…15}; do hccn_tool -i $i -net_health -g; done for i in {0…15}; do hccn_tool -i $i -netdetect -g; done for i in {0…15}; do hccn_tool -i $i -gateway -g; done # TLS 行為一致PD 分離場景建議顯式設(shè)置 for i in {0…15}; do hccn_tool -i $i -tls -g; done | grep switch for i in {0…15}; do hccn_tool -i $i -tls -s enable 0; done # 跨節(jié)點互通從本節(jié)點 ping 對端 NPU IP for i in {0…15}; do hccn_tool -i $i -ip -g; done for i in {0…15}; do hccn_tool -i $i -ping -g address ; done || :— |3.2 容器建議示例使用–privileged–nethost并掛載 Ascend 驅(qū)動/日志路徑。進(jìn)入容器后每次記得 source set_env.shtoolkit 與 atb。3.3 安裝 CANN / torch / torch-npuCANN安裝 toolkit kernels nnal磁盤預(yù)留 10GB完成后Bashsource /path/to/cann/ascend-toolkit/set_env.sh source /path/to/cann/nnal/atb/set_env.shPyTorch torch-npu固定源避免“依賴沖突找不到包”的老問題Bashpip config set global.extra-index-url https://download.pytorch.org/whl/cpu/ https://mirrors.huaweicloud.com/ascend/repos/pypi pip install torchvision0.20.1 # 將自動裝 torch2.5.1cpu pip install torch-npu2.5.1.post1.dev202506193.4 安裝 vLLM 與 vLLM-ascendBash# vLLM git clone https://github.com/vllm-project/vllm.git cd vllm git checkout releases/v0.9.1 VLLM_TARGET_DEVICEempty pip install -v -e . # vLLM-ascend cd … git clone https://github.com/vllm-project/vllm-ascend cd vllm-ascend git checkout v0.9.1-dev pip install -v -e .克隆倉庫如遇到 SSL 校驗報錯可臨時4.PD 分離部署流程4.1 生成 ranktable.json在兩臺參與 PD 的機器上執(zhí)行IP 順序Prefill 在前Decode 在后Bashcd /home//vllm-ascend/examples/disaggregate_prefill_v1/ bash gen_ranktable.sh --ips 141.61.41.163 141.61.41.164 --npus-per-node 16 --network-card-name ens3f0 --prefill-device-cnt 16 --decode-device-cnt 16關(guān)鍵參數(shù)說明--ipsPD 兩端的宿主機 IPPrefill 優(yōu)先、Decode 其次 --network-card-name承載通信的網(wǎng)卡名ifconfig 查同 IP --prefill/--decode-device-cnt分配的 NPU 數(shù)量4.2 Prefill 節(jié)點腳本PBash# 環(huán)境與端口 export HCCL_IF_IP141.61.41.163 export GLOO_SOCKET_IFNAME“ens3f0” export TP_SOCKET_IFNAME“ens3f0” export HCCL_SOCKET_IFNAME“ens3f0” export DISAGGREGATED_PREFILL_RANK_TABLE_PATH/home//vllm-ascend/examples/disaggregate_prefill_v1/ranktable.json export OMP_PROC_BINDfalse export OMP_NUM_THREADS32 export VLLM_USE_V11 export VLLM_LLMDD_RPC_PORT5559 # 拉起服務(wù)Prefill 端 vllm serve /home/weight/deepseek/DeepSeek-V3.1-w8a8-rot-mtp --host 0.0.0.0 --port 20002 --data-parallel-size 1 --data-parallel-size-local 1 --api-server-count 1 --data-parallel-address 141.61.41.163 --data-parallel-rpc-port 13356 --tensor-parallel-size 16 --enable-expert-parallel --quantization ascend --seed 1024 --served-model-name deepseek --max-model-len 32768 --max-num-batched-tokens 32768 --max-num-seqs 64 --trust-remote-code --enforce-eager --gpu-memory-utilization 0.9 --kv-transfer-config ‘{“kv_connector”:“LLMDataDistCMgrConnector”,“kv_buffer_device”:“npu”,“kv_role”:“kv_producer”,“kv_parallel_size”:1,“kv_port”:“20001”,“engine_id”:“0”,“kv_connector_module_path”:“vllm_ascend.distributed.llmdatadist_c_mgr_connector”}’關(guān)鍵項–quantization ascendw8a8 量化避免 OOM、–kv-transfer-configPD 分離 KV 傳輸。4.3 Decode 節(jié)點腳本DBash# 環(huán)境與端口 export HCCL_IF_IP141.61.41.164 export GLOO_SOCKET_IFNAME“ens3f0” export TP_SOCKET_IFNAME“ens3f0” export HCCL_SOCKET_IFNAME“ens3f0” export DISAGGREGATED_PREFILL_RANK_TABLE_PATH/home//vllm-ascend/examples/disaggregate_prefill_v1/ranktable.json export OMP_PROC_BINDfalse export OMP_NUM_THREADS32 export VLLM_USE_V11 export VLLM_LLMDD_RPC_PORT5659 # 拉起服務(wù)Decode 端注意更小的 max-model-len / batch vllm serve /home/weight/deepseek/DeepSeek-V3.1-w8a8-rot-mtp --host 0.0.0.0 --port 20002 --data-parallel-size 1 --data-parallel-size-local 1 --api-server-count 1 --data-parallel-address 141.61.41.164 --data-parallel-rpc-port 13356 --tensor-parallel-size 16 --enable-expert-parallel --quantization ascend --seed 1024 --served-model-name deepseek --max-model-len 8192 --max-num-batched-tokens 256 --max-num-seqs 64 --trust-remote-code --gpu-memory-utilization 0.9 --kv-transfer-config ‘{“kv_connector”:“LLMDataDistCMgrConnector”,“kv_buffer_device”:“npu”,“kv_role”:“kv_consumer”,“kv_parallel_size”:1,“kv_port”:“20001”,“engine_id”:“0”,“kv_connector_module_path”:“vllm_ascend.distributed.llmdatadist_c_mgr_connector”}’ --additional-config ‘{“torchair_graph_config”:{“enabled”:true}}’Decode 端更關(guān)注RPS 與時延因此 max-model-len / max-num-batched-tokens 可按場景調(diào)小。4.4 分別拉起 P 與 DBash# Prefill 節(jié)點 cd vllm-ascend/examples/disaggregate_prefill_v1/ bash npu16_vllm_ds_prefill.sh # Decode 節(jié)點 cd vllm-ascend/examples/disaggregate_prefill_v1/ bash npu16_vllm_ds_decode.sh看到 Application startup complete. 即表示就緒。4.5 代理層可選但推薦Prefill 機再開一個容器窗口啟動負(fù)載均衡代理Bashsource /home//cmc/cann_8.2.rc1/ascend-toolkit/set_env.sh source /home//cmc/cann_8.2.rc1/nnal/atb/set_env.sh cd /home//vllm-ascend/examples/disaggregate_prefill_v1/ python load_balance_proxy_server_example.py --host 141.61.41.163 --port 1025 --prefiller-hosts 141.61.41.163 --prefiller-ports 20002 --decoder-hosts 141.61.41.164 --decoder-ports 20002代理層負(fù)責(zé)把請求按階段路由到 P / D輸出里會顯示初始化成功的客戶端數(shù)與服務(wù)地址。5.功能驗證與壓測5.1 API 驗證Bashcurl http://141.61.41.163:1025/v1/completions -H “Content-Type: application/json” -d ‘{ “model”:“deepseek”, “prompt”:“how is it today”, “max_tokens”:50, “temperature”:0 }’添加 -v 可查看更細(xì)日志響應(yīng)中 choices[0].text 為模型輸出。5.2 benchmarkvLLM 官方腳本Bashsource /home//cmc/cann_8.2.rc1/ascend-toolkit/set_env.sh source /home//cmc/cann_8.2.rc1/nnal/atb/set_env.sh cd /home//vllm/benchmarks/ python benchmark_serving.py --backend vllm --dataset-name random --random-input-len 10 --random-output-len 100 --num-prompts 10 --ignore-eos --model deepseek --tokenizer /home/weight/deepseek/DeepSeek-V3.1-w8a8-rot-mtp --host 141.61.41.163 --port 1025 --endpoint /v1/completions --max-concurrency 4 --request-rate 4關(guān)注指標(biāo)平均時延、P99、吞吐req/s 或 tok/s。對比PD 混部 vs PD 分離一般在中高并發(fā)下分離更穩(wěn)。6.易錯點與快速修復(fù)1torch-npu 找不到可用版本現(xiàn)象No matching distribution found for torch-npu原因源不對/被墻。解法Bashpip uninstall torch -y pip config set global.trusted-host “download.pytorch.org mirrors.huaweicloud.com mirrors.aliyun.com” pip config set global.extra-index-url https://download.pytorch.org/whl/cpu/ https://mirrors.huaweicloud.com/ascend/repos/pypi pip install torchvision0.20.1 pip install torch-npu2.5.1.post1.dev202506192依賴沖突torch-npu 與 torch 版本不兼容現(xiàn)象Cannot install torch-npu2.5.1.post1 and torch2.5.1 …解法| Bashpip uninstall torch2.5.1 torch-npu2.5.1.post1.dev20250619 -y pip cache purge pip config unset global.extra-index-url pip config set global.extra-index-url https://download.pytorch.org/whl/cpu/ https://mirrors.huaweicloud.com/ascend/repos/pypi pip install torch2.5.1 pip install torch-npu2.5.1.post1.dev20250619 pip show torch torch-npu | grep Version || :— |3NPU OOM現(xiàn)象RuntimeError: NPU out of memory …根因量化未生效或 batch 過大。解法啟動參數(shù)加 --quantization ascend調(diào)小 --max-model-len / --max-num-batched-tokens / --max-num-seqs。4aclnnQuantMatmulV4 類型不支持現(xiàn)象Tensor scale not implemented for DT_FLOAT16 …根因模型 torch_dtype 與內(nèi)核期望不符。解法改模型 config.json“torch_dtype”:“bfloat16”。5HCCL 初始化失敗現(xiàn)象HCCL function error … error code is 6根因HCCL_IF_IP 與本機 IP 不一致 / ranktable 不匹配。解法修正 HCCL_IF_IP復(fù)查 ranktable.json 與實際卡數(shù)/網(wǎng)卡。7.優(yōu)化建議進(jìn)階KV 策略長文本場景適當(dāng)提高 --max-model-len但要與 Decode 側(cè)并發(fā)上限平衡觀察 PagedAttention 的 page 命中情況避免頻繁遷移。并行度–tensor-parallel-size 與模型結(jié)構(gòu)相關(guān)EP專家并行建議先按官方實踐設(shè)置壓測后再做微調(diào)。IRQ/綁核Decode 端對延遲敏感建議業(yè)務(wù)線程與高頻 IRQ 分核同 NUMA。代理層把路由邏輯從業(yè)務(wù)進(jìn)程剝離便于后續(xù)橫向擴縮多 P / 多 D。故障演練壓測時主動制造 Decode 端抖動觀察代理的重試/熔斷策略是否生效。8.小結(jié)PD 分離讓 Prefill 的計算與 Decode 的訪存/帶寬壓力“各歸其位”避免互相爭搶。vLLM 的 PagedAttention把 KV Cache 的占用與碎片化壓得更穩(wěn)適合長上下文與高并發(fā)。在vLLM-ascend上部署DeepSeek-V3-w8a8的關(guān)鍵是版本對齊、量化生效、HCCL 正確與KV 傳輸配置。按文中流程走一遍基本能做到“可復(fù)現(xiàn)、可壓測、可擴展”。剩下的就是基于你的業(yè)務(wù)畫像做參數(shù)的工程化微調(diào)了。

97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

手機高端網(wǎng)站建設(shè)設(shè)計云平臺

長春網(wǎng)站建設(shè)外包網(wǎng)站搭建培訓(xùn)學(xué)校

潛山云建站網(wǎng)站建設(shè)sem推廣

企業(yè)網(wǎng)站手機端開發(fā)阿里oss wordpress

網(wǎng)站相關(guān)知識青島外貿(mào)網(wǎng)站建站公司

西部數(shù)碼網(wǎng)站管理助手 mysql保存路徑熱門網(wǎng)頁游戲排行

寧波網(wǎng)站設(shè)計推廣培訓(xùn)班html中文網(wǎng)站模板