97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

asp 大型網(wǎng)站開發(fā)程序員軟件開發(fā)

鶴壁市浩天電氣有限公司 2026/01/24 10:32:46
asp 大型網(wǎng)站開發(fā),程序員軟件開發(fā),建設(shè)銀行網(wǎng)站注冊企業(yè),青島的網(wǎng)站建設(shè)作者 | 深藍學(xué)院 來源 | 深藍AI原文鏈接#xff1a;南洋理工、哈佛提出OpenREAD#xff1a;用端到端RL統(tǒng)一駕駛認(rèn)知與軌跡規(guī)劃 點擊下方卡片#xff0c;關(guān)注“自動駕駛之心”公眾號戳我- 領(lǐng)取自動駕駛近30個方向?qū)W習(xí)路線自動駕駛前沿信息獲取→自動駕駛之心知識…作者 | 深藍學(xué)院 來源 | 深藍AI原文鏈接南洋理工、哈佛提出OpenREAD用端到端RL統(tǒng)一駕駛認(rèn)知與軌跡規(guī)劃點擊下方卡片關(guān)注“自動駕駛之心”公眾號戳我-領(lǐng)取自動駕駛近30個方向?qū)W習(xí)路線自動駕駛前沿信息獲取→自動駕駛之心知識星球本文只做學(xué)術(shù)分享如有侵權(quán)聯(lián)系刪文「讓視覺語言大模型同時學(xué)會“思考”與“執(zhí)行”」在自動駕駛研究中利用大語言視覺語言模型(LLMNLM)學(xué)習(xí)開放式駕駛知識進而提升軌跡規(guī)劃與決策能力正逐漸成為新的趨勢。然而傳統(tǒng)的監(jiān)督微調(diào)(SFT)范式難以充分挖掘模型的推理潛力對知識的學(xué)習(xí)效率也存在不足。DeepSeek-R1的出現(xiàn)向我們展示了強化學(xué)習(xí)在提升模型推理與思考能力方面的巨大潛力使模型具備更強的泛化表現(xiàn)。因此一個關(guān)鍵問題隨之而來:如何通過強化學(xué)習(xí)增強視覺語言模型的推理能力讓模型“學(xué)會思考”并在同一框架下同時掌握開放式駕駛知識與軌跡規(guī)劃?這正是基于視覺語言大模型實現(xiàn)端到端自動駕駛所面臨的全新挑戰(zhàn)。南洋理工大學(xué)與哈佛大學(xué)聯(lián)合推出OpenREAD--一個通過強化學(xué)習(xí)(RL)全面提升視覺語言大模型(VLM)推理能力的全新框架。1—方法該方法引入 Qwen3-LLM作為“評判專家”將強化學(xué)習(xí)從傳統(tǒng)只適用于可驗證的下游任務(wù)(如決策、規(guī)劃)成功拓展到“駕駛建議”“場景分析等開放式任務(wù)實現(xiàn)從高層語義推理到低層軌跡規(guī)劃的端到端強化微調(diào)。在LingoQA知識評測和NuScenes開環(huán)評測中OpenREAD均取得了SOTA表現(xiàn)。1.大語言模型作為開放式知識學(xué)習(xí)的打分器在自動駕駛領(lǐng)域現(xiàn)有強化學(xué)習(xí)多應(yīng)用于軌跡預(yù)測或決策規(guī)劃等“可驗證”的下游任務(wù)因為這些任務(wù)可以直接根據(jù)真值計算誤差。但基于語言的駕駛知識學(xué)習(xí)屬于開放式問題同一個參考答案可能有多種不同表達方式這給RL的獎勵函數(shù)設(shè)計帶來了很大挑戰(zhàn)。為解決這一問題我們做了以下兩步準(zhǔn)備(1) 構(gòu)建帶顯式思維鏈(CoT)的知識數(shù)據(jù)。我們在LingoQA數(shù)據(jù)集上使用GPT-4標(biāo)注了一批包含詳細(xì)推理過程的駕駛知識數(shù)據(jù)覆蓋“感知類”與“決策類”兩大任務(wù)讓模型能夠?qū)W習(xí)到可解釋的推理鏈條。(2) 將OmniDrive數(shù)據(jù)集轉(zhuǎn)換為RL可用格式。我們將其統(tǒng)一轉(zhuǎn)換為“思考回答”的形式使其能用于強化學(xué)習(xí)訓(xùn)練包含兩類任務(wù)軌跡規(guī)劃與偽軌跡分析。兩個數(shù)據(jù)集上的示例標(biāo)注如圖所示在數(shù)據(jù)準(zhǔn)備完成后我們先利用CoT標(biāo)注進行冷啟動(cold start)讓模型快速獲得基礎(chǔ)的思考與推理能力。隨后進入基于GRPO的強化微調(diào)階段進一步提升推理能力。在這個階段我們引入Qwen3LLM被用作評判專家將問題、參考答案和模型生成的回答一起作為Owen3-LLM的輸入讓其判斷模型的預(yù)測與參考答案是否一致如果一致則設(shè)置獎勵值1反之為0。為了讓模型的回答不僅正確還要簡潔、不啰嗦我們進一步計算生成答案與參考答案的embedding余弦相似度將其作為額外獎勵與Owen3的評判結(jié)果共同作用使模型在語言表達上更加貼近高質(zhì)量輸出。通過這種“專家判斷語義相似度”雙重獎勵機制模型得以在開放式駕駛知識學(xué)習(xí)中獲得更穩(wěn)定且更可靠的推理能力。2.駕駛知識與軌跡規(guī)劃的協(xié)同強化學(xué)習(xí)在解決了開放式知識學(xué)習(xí)的獎勵函數(shù)難題后我們進一步將強化學(xué)習(xí)同時應(yīng)用于駕駛知識推理與軌跡規(guī)劃實現(xiàn)兩類任務(wù)的協(xié)同訓(xùn)練模型在學(xué)習(xí)“如何思考駕駛知識”的同時也學(xué)習(xí)“如何利用這些知識進行更合理、更安全的軌跡規(guī)劃”。對于軌跡規(guī)劃任務(wù)我們設(shè)計了基于軌跡誤差的獎勵數(shù)??h體來說我們將軌跡誤差作為指數(shù)函數(shù)的變量對較遠(yuǎn)時間點的軌跡誤差給予更寬松的容忍度因為此類誤差對即時安全性影響較小對近距離時間點的軌跡誤差設(shè)置更嚴(yán)格的要求以確保模型在關(guān)鍵位置的規(guī)劃更加精準(zhǔn)可靠。在聯(lián)合強化學(xué)習(xí)過程中一個訓(xùn)練批次內(nèi)可能包含不同類型的任務(wù)(如駕駛決策問答、軌跡規(guī)劃等)我們?yōu)槊款惾蝿?wù)分別計算其對應(yīng)的獎勵函數(shù)最后綜合得到當(dāng)前批次的整體獎勵用于更新模型參數(shù)使模型能夠在知識推理與路徑規(guī)劃之間建立自然的聯(lián)系從而提升其整體的駕駛智能。OpenREAD的整體訓(xùn)練框架如下圖所示2—實驗結(jié)果為了驗證強化學(xué)習(xí)對知識學(xué)習(xí)和軌跡規(guī)劃協(xié)同微調(diào)帶來的提升我們分別在LingoQA和NuScenes數(shù)據(jù)集上對OpenREAD進行評測。RFT VS. SFT從上圖可以看到在僅使用軌跡規(guī)劃任務(wù)的情況下即使引入強化學(xué)習(xí)進行微調(diào)軌跡誤差和碰撞率的提升都非常有限。隨著相關(guān)駕駛知識數(shù)據(jù)的引入強化學(xué)習(xí)微調(diào)的效果逐漸顯現(xiàn)最終在軌跡誤差、碰撞率和相關(guān)駕駛知識的評測中都超過了SFT證明了引入強化學(xué)習(xí)同步學(xué)習(xí)駕駛知識和軌跡規(guī)劃的必要性。路徑規(guī)劃評測對比在與其他現(xiàn)有方法的軌跡規(guī)劃對比中OpenREAD取得了更為出色的碰撞控制能力保證了駕駛的安全性。與同樣使用GRPO進行強化學(xué)習(xí)微調(diào)的AutoVLA相比OpenREAD均取得了更為出色的軌跡誤差和碰撞率控制這一差異也進一步說明引入駕駛知識對下游任務(wù)的重要意義。駕駛知識評測對比在LingoQA數(shù)據(jù)集的駕駛知識評測中OpenREAD超過了先前的WiseAD、RecogDrive等一系列工作取得了最高的Lingo-Judge準(zhǔn)確率3—更多可視化結(jié)果RFT與SFT的軌跡規(guī)劃結(jié)果對比。OpenREAD與Owen3-VL和WiseAD在LingoQA上的對比。4—總結(jié)OpenREAD通過引入Qwen3-LLM作為“評判專家”實現(xiàn)了對駕駛知識與軌跡規(guī)劃的協(xié)同強化學(xué)習(xí)微調(diào)進一步拓展了強化學(xué)習(xí)在端到端自動駕駛中的應(yīng)用邊界。該框架不僅提升了模型的整體推理與規(guī)劃能力也為深入挖掘駕駛知識對下游任務(wù)性能的促進作用提供了重要參考。論文鏈接:https://arxiv.org/abs/2512.01830代碼鏈接:https://github.com/wyddmw/OpenREAD數(shù)據(jù)連接:https://huggingface.co/datasets/wyddmw/OpenREAD自動駕駛之心面向量產(chǎn)的端到端小班課添加助理咨詢課程
版權(quán)聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請聯(lián)系我們進行投訴反饋,一經(jīng)查實,立即刪除!

加強網(wǎng)站隊伍建設(shè)百度推廣的效果

加強網(wǎng)站隊伍建設(shè),百度推廣的效果,剛上線的網(wǎng)站,上海金工建設(shè)集團有限公司網(wǎng)站深入解讀HashKey與背后的行業(yè)信號#xff0c;我們能清晰看到#xff1a;寒冬不是終點#xff0c;而是“合規(guī)者上位、

2026/01/21 17:31:01

網(wǎng)站是用php還是asp 怎么區(qū)別qq瀏覽器官方下載

網(wǎng)站是用php還是asp 怎么區(qū)別,qq瀏覽器官方下載,作文網(wǎng)站投稿,英文旅游網(wǎng)站建設(shè)并行計算如何重塑現(xiàn)代氣象數(shù)據(jù)處理#xff1a;從TB到PB級的實戰(zhàn)躍遷你有沒有想過#xff0c;一次臺風(fēng)路徑預(yù)測背

2026/01/23 10:43:01

臨沂網(wǎng)站建設(shè)推薦奔奔網(wǎng)站建設(shè)

臨沂網(wǎng)站建設(shè)推薦,奔奔網(wǎng)站建設(shè),html商務(wù)網(wǎng)站模板,網(wǎng)站建設(shè)制作設(shè)計seo優(yōu)化湖北Markn#xff1a;重新定義你的Markdown文檔閱讀體驗 【免費下載鏈接】markn Lightweight

2026/01/23 07:54:02

阿里虛擬主機怎么做兩個網(wǎng)站嗎收錄網(wǎng)址教程

阿里虛擬主機怎么做兩個網(wǎng)站嗎,收錄網(wǎng)址教程,外貿(mào)假發(fā)網(wǎng)站,廈門跨境電商前十LobeChat能否合作高校#xff1f;產(chǎn)學(xué)研結(jié)合新模式 在人工智能技術(shù)加速滲透教育領(lǐng)域的今天#xff0c;越來越多的高校開

2026/01/21 17:29:01

營口建設(shè)信息網(wǎng)站保定哪家做網(wǎng)站好

營口建設(shè)信息網(wǎng)站,保定哪家做網(wǎng)站好,哈爾濱網(wǎng)站制作哪家好薇,WordPress圖片類源碼從零開始掌握Proteus 8#xff1a;電子電路設(shè)計與仿真的全能實戰(zhàn)指南 你有沒有過這樣的經(jīng)歷#xff1f;

2026/01/23 06:23:01