97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

手機(jī)pc微信三合一網(wǎng)站wordpress群站域名

鶴壁市浩天電氣有限公司 2026/01/22 06:28:55
手機(jī)pc微信三合一網(wǎng)站,wordpress群站域名,wordpress 淘寶模板,怎么學(xué)做網(wǎng)站PHP本文是一篇關(guān)于AI Agent的全面綜述#xff0c;系統(tǒng)介紹了AI Agent從誕生到應(yīng)用的完整框架。內(nèi)容涵蓋配置文件定義#xff08;靜態(tài)與動(dòng)態(tài)#xff09;、記憶機(jī)制#xff08;短期與長(zhǎng)期#xff09;、計(jì)劃與決策能力、行動(dòng)執(zhí)行、多智能體協(xié)作模式、自我進(jìn)化機(jī)制、測(cè)試評(píng)估方法…本文是一篇關(guān)于AI Agent的全面綜述系統(tǒng)介紹了AI Agent從誕生到應(yīng)用的完整框架。內(nèi)容涵蓋配置文件定義靜態(tài)與動(dòng)態(tài)、記憶機(jī)制短期與長(zhǎng)期、計(jì)劃與決策能力、行動(dòng)執(zhí)行、多智能體協(xié)作模式、自我進(jìn)化機(jī)制、測(cè)試評(píng)估方法、工具部署生態(tài)以及安全挑戰(zhàn)。文章還提供了AI Agent在科學(xué)研究、游戲、社會(huì)科學(xué)和生產(chǎn)力工具等領(lǐng)域的應(yīng)用案例為開發(fā)者和研究者提供了構(gòu)建或完善自身Agent知識(shí)體系的全面參考。AI Agent無(wú)疑是近幾個(gè)月AI領(lǐng)域最炙手可熱的話題之一。事實(shí)上過(guò)去幾年間圍繞Agent的研究與開發(fā)已經(jīng)取得了突飛猛進(jìn)的進(jìn)展大量成果涌現(xiàn)為我們提供了豐富的知識(shí)儲(chǔ)備和實(shí)踐資源。但面對(duì)如此快速的進(jìn)展我們?cè)撊绾慰焖倮砬錋I Agent的研究脈絡(luò)并構(gòu)建起屬于自己的認(rèn)知框架最近來(lái)自北京大學(xué)、伊利諾伊大學(xué)芝加哥分校、南洋理工大學(xué)、騰訊優(yōu)圖實(shí)驗(yàn)室等全球多所頂尖高校和研究機(jī)構(gòu)的學(xué)者們寫了一篇綜述性文章https://arxiv.org/abs/2503.21460,系統(tǒng)性地回顧了AI Agent的研究現(xiàn)狀為我們構(gòu)建了一個(gè)從Agent誕生、擁有記憶、進(jìn)行規(guī)劃決策、執(zhí)行任務(wù)、與其他Agent協(xié)作到最終實(shí)現(xiàn)自我進(jìn)化和應(yīng)用的完整概念框架。我們認(rèn)為這篇綜述文章為AI Agent領(lǐng)域繪制了一幅“知識(shí)地圖”提供了一個(gè)全面且結(jié)構(gòu)化的索引系統(tǒng)性地梳理了當(dāng)前Agent研究的關(guān)鍵路徑與成果。對(duì)于希望構(gòu)建或完善自身Agent知識(shí)體系、乃至尋求創(chuàng)新突破口的開發(fā)者和研究者而言這份框架提供了極佳的起點(diǎn)和參照。正因如此我們特別編譯整理了這篇重要文獻(xiàn)的核心內(nèi)容希望能幫助大家更高效地理解和探索AI Agent的世界。01配置文件定義每一個(gè)Agent在投入運(yùn)行之前都要經(jīng)歷一個(gè)“誕生”階段即配置文件定義。這決定了Agent的“先天特質(zhì)”和“人格”為后續(xù)行為打下基礎(chǔ)。靜態(tài)配置可以理解為生成一個(gè)Agent實(shí)例就像在游戲里創(chuàng)建一個(gè)角色。此時(shí)需要確定這名Agent用哪個(gè)大型語(yǔ)言模型作為“大腦”以及基本的運(yùn)行框架。創(chuàng)建階段還包括賦予Agent一個(gè)角色設(shè)定Profile即定義它的身份、屬性和行為模式。通過(guò)人工精心設(shè)定的靜態(tài)配置Agent的行為會(huì)嚴(yán)格遵循預(yù)先設(shè)計(jì)的規(guī)則和風(fēng)格以確保在特定領(lǐng)域的一致性和可控性。很多多Agent系統(tǒng)會(huì)預(yù)先定義好幾類固定角色。例如像 Camel、AutoGen 和 OpenAgents 等框架會(huì)通過(guò)預(yù)定義的對(duì)話角色例如用戶代理和助手代理來(lái)協(xié)調(diào)人機(jī)協(xié)作通過(guò)結(jié)構(gòu)化對(duì)話執(zhí)行任務(wù)。而像 MetaGPT、ChatDev 和 AFlow 等框架則展示了基于角色的協(xié)調(diào)模式通過(guò)設(shè)定和協(xié)調(diào)具有特定技術(shù)或職能的角色如 ChatDev 框架中設(shè)定的產(chǎn)品經(jīng)理、程序員、測(cè)試員等與確定性交互協(xié)議來(lái)協(xié)作完成特定任務(wù)如 ChatDev 專注于代碼開發(fā)或?qū)⑦@一范式通過(guò)結(jié)構(gòu)化角色編排擴(kuò)展到更廣泛的通用任務(wù)解決如 MetaGPT 和 AFlow。動(dòng)態(tài)配置除了靜態(tài)配置還有一種動(dòng)態(tài)初始化的方式。動(dòng)態(tài)Profile會(huì)通過(guò)參數(shù)化的方法批量生成一系列多樣化的Agent配置。這有點(diǎn)像在模擬社會(huì)中一次性創(chuàng)造出性格各異的一群“NPC”。比如在初始化時(shí)隨機(jī)賦予每個(gè)Agent不同的性格傾向、知識(shí)背景或者價(jià)值觀讓整個(gè)Agent群體呈現(xiàn)豐富的多樣性。研究者通過(guò)模板提示或從潛在空間采樣的方法來(lái)生成這些差異使Agent在群體中表現(xiàn)出復(fù)雜的社交動(dòng)態(tài)。這種方式常用于模擬人類社群行為的研究例如讓幾十個(gè)性格各異的AI代理在一個(gè)虛擬小鎮(zhèn)中互動(dòng)一段時(shí)間后觀察是否會(huì)涌現(xiàn)出類似人類社會(huì)的行為模式。無(wú)論靜態(tài)還是動(dòng)態(tài)的Profile設(shè)置都相當(dāng)于在Agent啟動(dòng)前給它“奠定人格”和“初始記憶”規(guī)定了它的決策邊界和交互風(fēng)格。此外DSPy 可以進(jìn)一步優(yōu)化代理配置文件初始化的參數(shù)。02記憶機(jī)制一個(gè)Agent光有初始設(shè)定還不夠要讓它在執(zhí)行復(fù)雜任務(wù)時(shí)表現(xiàn)出連貫智能必須賦予它記憶機(jī)制。記憶讓Agent可以記住上下文、積累經(jīng)驗(yàn)并在后續(xù)步驟中調(diào)用這些信息。短期記憶類似于人類的工作記憶或緩存用于儲(chǔ)存對(duì)話的上下文和最近收到的環(huán)境反饋。短期記憶維持的是任務(wù)執(zhí)行過(guò)程中的臨時(shí)信息。例如當(dāng)Agent與用戶多輪對(duì)話時(shí)短期記憶讓它記得“之前用戶提過(guò)的要求”從而在對(duì)話后面的回答中不跑題。在很多Agent框架中都實(shí)現(xiàn)了短期記憶功能比如ReAct系統(tǒng)通過(guò)讓Agent回顧自己的思考步驟來(lái)進(jìn)行反思ChatDev讓軟件Agent記住代碼修改的歷史Graph-of-Thoughts框架中Agent會(huì)保留推理鏈等等 。短期記憶提高了Agent的推理深度和連貫性但它也像人腦的短暫記憶一樣易逝且容量有限——一旦任務(wù)完成或?qū)υ捊Y(jié)束短期記憶中的內(nèi)容往往就被清空不會(huì)長(zhǎng)期保留 。長(zhǎng)期記憶實(shí)踐中長(zhǎng)期記憶系統(tǒng)能夠系統(tǒng)性地歸檔智能體的中間推理軌跡并將其轉(zhuǎn)化為可復(fù)用的“資產(chǎn)”。這種轉(zhuǎn)化過(guò)程體現(xiàn)在幾種主要范式中一是構(gòu)建編碼了程序性知識(shí)的技能庫(kù)例如Voyager項(xiàng)目在Minecraft游戲中實(shí)現(xiàn)的自動(dòng)化技能發(fā)現(xiàn)或GITM項(xiàng)目采用的基于文本的知識(shí)庫(kù)二是建立存儲(chǔ)了成功或失敗模式的經(jīng)驗(yàn)庫(kù)如ExpeL項(xiàng)目中的精煉經(jīng)驗(yàn)池或是Reflexion框架用于優(yōu)化試驗(yàn)的記憶機(jī)制三是通過(guò)工具合成框架實(shí)現(xiàn)工具的組合與自適應(yīng)演化TPTU的自適應(yīng)工具組合和OpenAgents的自擴(kuò)展工具包便是此類代表。知識(shí)檢索知識(shí)檢索本身也被視為一種重要的記憶形式它將外部知識(shí)源整合到生成過(guò)程中。當(dāng)前的實(shí)現(xiàn)包括通過(guò)文本語(yǔ)料庫(kù)如經(jīng)典的RAG或結(jié)構(gòu)化知識(shí)圖譜如GraphRAG進(jìn)行靜態(tài)知識(shí)定位通過(guò)結(jié)合智能體對(duì)話與外部查詢進(jìn)行交互式檢索如Chain of Agents所示其中智能體間的短期通信能觸發(fā)上下文相關(guān)的知識(shí)獲取以及將逐步推理與動(dòng)態(tài)知識(shí)獲取相結(jié)合的集成推理檢索方法如IRCoT和Llatrieval系統(tǒng)所展示的那樣更有KG-RAR等高級(jí)變體。03計(jì)劃與決策有了角色和記憶一個(gè)Agent還需要計(jì)劃與決策能力才能自主完成復(fù)雜任務(wù)。這里的“計(jì)劃”指的是把最終目標(biāo)拆解成具體可執(zhí)行的步驟并在執(zhí)行過(guò)程中不斷調(diào)整策略。任務(wù)分解面對(duì)復(fù)雜問題時(shí)Agent會(huì)將其拆解為更小的子任務(wù)來(lái)逐一解決 。最簡(jiǎn)單的分解方式是“鏈?zhǔn)揭?guī)劃”Agent先想出一個(gè)從頭到尾的步驟鏈然后按順序依次完成每個(gè)子任務(wù)。鏈?zhǔn)揭?guī)劃實(shí)現(xiàn)簡(jiǎn)單但缺點(diǎn)是一旦前面步驟有錯(cuò)誤后面就會(huì)層層傳遞而且中途不易更改。為此有研究讓Agent采用動(dòng)態(tài)規(guī)劃不預(yù)先固定整個(gè)計(jì)劃只生成當(dāng)前最需要做的下一步然后執(zhí)行、獲取反饋、再?zèng)Q定后續(xù)步驟 。除了線性鏈條有些任務(wù)需要更復(fù)雜的決策樹。于是出現(xiàn)了“樹狀規(guī)劃”Tree-of-Thought的方法Agent在腦海中探索一棵決策樹分支出多種可能的解題路徑 。它可以同時(shí)嘗試不同思路如果某條路徑走不通還能回溯backtrack到之前的節(jié)點(diǎn)改走其他路徑 。樹狀規(guī)劃讓Agent擁有“試錯(cuò)-糾錯(cuò)”的能力非常適合那些需要反復(fù)摸索的復(fù)雜任務(wù) 。一些高級(jí)方法甚至把強(qiáng)化學(xué)習(xí)引入其中例如利用蒙特卡洛樹搜索MCTS來(lái)幫助Agent在決策樹中選擇最佳路徑 。反饋驅(qū)動(dòng)迭代設(shè)置Agent根據(jù)反饋不斷改進(jìn)自己的計(jì)劃。這種反饋可以來(lái)自多方面——環(huán)境的反應(yīng)、用戶的提示、Agent自身的反思或其他Agent的建議。通過(guò)反饋Agent可以發(fā)現(xiàn)計(jì)劃中的不足并及時(shí)調(diào)整。這種邊執(zhí)行邊學(xué)習(xí)的機(jī)制讓Agent的決策更具適應(yīng)性和穩(wěn)健性 。04行動(dòng)執(zhí)行有了詳細(xì)的計(jì)劃藍(lán)圖Agent還需要真正執(zhí)行行動(dòng)將想法落地。這一步聽起來(lái)理所當(dāng)然但對(duì)于AI Agent而言執(zhí)行行動(dòng)意味著兩件事一是調(diào)用外部工具或接口去完成某些它自身做不到的操作二是如果在物理世界行動(dòng)則要能控制實(shí)體或設(shè)備。工具使用大型語(yǔ)言模型本身擅長(zhǎng)的是文本推理和生成但并不擅長(zhǎng)精確計(jì)算、實(shí)時(shí)查詢等。為了讓Agent具備更廣泛的能力我們可以為它配置各種插件工具。例如可以讓Agent調(diào)用計(jì)算器進(jìn)行復(fù)雜運(yùn)算、訪問互聯(lián)網(wǎng)獲取最新資訊、調(diào)用日歷安排日程甚至執(zhí)行代碼。關(guān)鍵的問題在于Agent需要決定什么時(shí)候該用工具以及選用哪一個(gè)工具 。Agent應(yīng)在不確定自己答案是否可靠或者遇到特定功能需求時(shí)考慮調(diào)用工具。這就像人遇到不會(huì)的問題會(huì)查資料一樣Agent如果對(duì)某步?jīng)Q策信心不足可以請(qǐng)求幫手。工具選擇同樣重要——Agent需要理解當(dāng)前有哪些工具可用、各自擅長(zhǎng)什么然后挑選最合適的那個(gè)。有些框架通過(guò)簡(jiǎn)化工具文檔或示例讓Agent更容易明白每個(gè)工具的用法和能力邊界從而做出正確選擇。實(shí)體交互當(dāng)Agent被賦予控制物理設(shè)備或在現(xiàn)實(shí)環(huán)境中行動(dòng)的職責(zé)時(shí)就涉及實(shí)體世界的交互 。這類執(zhí)行要求Agent能夠理解物理環(huán)境的反饋并據(jù)此調(diào)整動(dòng)作 。這些都超出了純文本生成的范疇需要結(jié)合現(xiàn)實(shí)常識(shí)和環(huán)境模型。研究者為此探索了讓LLM Agent掌握一些物理知識(shí)和社交常識(shí)的方法 或者通過(guò)與其他Agent協(xié)作來(lái)完成需要實(shí)體互動(dòng)的任務(wù)。05多智能體協(xié)作團(tuán)隊(duì)作戰(zhàn)與通信調(diào)度當(dāng)任務(wù)復(fù)雜到需要不同專業(yè)的知識(shí)或者規(guī)模大到一個(gè)Agent忙不過(guò)來(lái)時(shí)我們就需要構(gòu)建多智能體協(xié)作的系統(tǒng)。多Agent協(xié)作主要是調(diào)度和通信這兩個(gè)關(guān)鍵機(jī)制如何分配任務(wù)、以及Agent之間如何交流信息。首先不同協(xié)作架構(gòu)在組織形式上有所區(qū)別主要分為集中式、去中心化和混合式三種 集中式協(xié)作集中式架構(gòu)下會(huì)有一個(gè)充當(dāng)“總控”的中心Agent負(fù)責(zé)全局的任務(wù)分配和決策整合 。其它的子Agent聽從這個(gè)中心指揮只與中心通信而不直接彼此對(duì)話 。這種方式優(yōu)點(diǎn)是協(xié)調(diào)統(tǒng)一適合對(duì)時(shí)序和配合要求極高的場(chǎng)景但缺點(diǎn)是一旦中心出問題整個(gè)系統(tǒng)可能癱瘓而且過(guò)于依賴單點(diǎn)智慧可能限制創(chuàng)造力。典型的實(shí)現(xiàn)如Coscientist框架把人類操作者當(dāng)作中央調(diào)度者親自分配實(shí)驗(yàn)任務(wù)給多個(gè)AI助手 MetaGPT也采取集中式由一個(gè)Manager代理分配軟件開發(fā)各階段的子任務(wù)給不同角色的Agent。在這些系統(tǒng)中任務(wù)調(diào)度由中心Agent完成它負(fù)責(zé)把大任務(wù)拆解成子任務(wù)指派給合適的Agent并收集結(jié)果匯總。消息傳遞方面所有溝通都通過(guò)中心節(jié)點(diǎn)與其它Agent不能私下溝通以保證信息流單一、決策鏈清晰 。去中心化協(xié)作在去中心化協(xié)作架構(gòu)中不存在絕對(duì)的中心化領(lǐng)導(dǎo)所有智能體Agent均以對(duì)等方式直接通信并共同參與決策過(guò)程形成一個(gè)復(fù)雜的網(wǎng)狀交流結(jié)構(gòu)。這種模式下信息傳遞發(fā)生在任意智能體對(duì)之間而任務(wù)的調(diào)度與分配往往并非由中央指定而是通過(guò)智能體間的競(jìng)爭(zhēng)、投票例如MedAgents項(xiàng)目中領(lǐng)域?qū)<抑悄荏w在獨(dú)立提出和修改決策后通過(guò)最終投票達(dá)成共識(shí)或預(yù)設(shè)約定機(jī)制來(lái)自發(fā)實(shí)現(xiàn)。其核心優(yōu)勢(shì)在于系統(tǒng)的魯棒性和靈活性——沒有單點(diǎn)故障單個(gè)智能體的失敗不會(huì)導(dǎo)致全局崩潰同時(shí)多個(gè)智能體并行探索可能催生出更多元的解決方案。結(jié)構(gòu)化編輯/迭代完善協(xié)議示例項(xiàng)目名稱項(xiàng)目?jī)?nèi)容ReConcile協(xié)調(diào)智能體進(jìn)行相互響應(yīng)分析和置信度評(píng)估以優(yōu)化最終答案。METAL使用專門的文本和視覺修訂智能體提升特定任務(wù)如圖表生成質(zhì)量修訂信號(hào)可來(lái)自外部知識(shí)庫(kù)。靈活對(duì)話/推理觀察協(xié)議示例項(xiàng)目名稱項(xiàng)目?jī)?nèi)容AutoGen實(shí)現(xiàn)群聊框架支持多智能體通過(guò)迭代辯論來(lái)完善決策。MAD / MADR運(yùn)用結(jié)構(gòu)化通信協(xié)議解決智能體固化于初始想法的問題使其能相互批判不合理主張并完善論證。MDebate通過(guò)在堅(jiān)持己見與協(xié)作完善之間進(jìn)行策略性切換來(lái)優(yōu)化共識(shí)構(gòu)建?;旌鲜絽f(xié)作混合式協(xié)作旨在融合中心化的高效管控與去中心化的靈活創(chuàng)新通過(guò)設(shè)立局部領(lǐng)導(dǎo)或分層控制結(jié)構(gòu)來(lái)實(shí)現(xiàn)。這種協(xié)作可以通過(guò)兩種主要模式實(shí)現(xiàn)一種是靜態(tài)系統(tǒng)其中協(xié)作模式與不同模式中心化/去中心化的組合方式是預(yù)先定義好的固定結(jié)構(gòu)。項(xiàng)目名稱系統(tǒng)特點(diǎn)CAMEL將智能體組織成內(nèi)部去中心化的角色扮演小組同時(shí)通過(guò)更高層級(jí)的集中治理進(jìn)行協(xié)調(diào)。AFlow設(shè)計(jì)了明確的三層體系集中的戰(zhàn)略規(guī)劃、去中心化的戰(zhàn)術(shù)談判、市場(chǎng)驅(qū)動(dòng)的資源分配。EoT形式化定義了多種固定協(xié)作拓?fù)淙缈偩€、星形、樹形旨在將網(wǎng)絡(luò)結(jié)構(gòu)與特定任務(wù)特性精確匹配。另一種則是更前沿的動(dòng)態(tài)系統(tǒng)它們引入了諸如神經(jīng)拓?fù)鋬?yōu)化器等機(jī)制能夠根據(jù)實(shí)時(shí)的性能反饋或任務(wù)變化動(dòng)態(tài)地調(diào)整和重構(gòu)智能體間的協(xié)作結(jié)構(gòu)實(shí)現(xiàn)自適應(yīng)優(yōu)化。項(xiàng)目名稱系統(tǒng)特點(diǎn)DiscoGraph通過(guò)教師-學(xué)生框架實(shí)現(xiàn)可訓(xùn)練協(xié)作利用矩陣值邊緣權(quán)重進(jìn)行自適應(yīng)空間注意力分配。DyLAN先評(píng)估智能體重要性得分識(shí)別關(guān)鍵貢獻(xiàn)者然后動(dòng)態(tài)調(diào)整協(xié)作結(jié)構(gòu)以最高效完成任務(wù)。MDAgents根據(jù)任務(wù)復(fù)雜度低、中、高動(dòng)態(tài)指派協(xié)作模式簡(jiǎn)單任務(wù)用單個(gè)智能體復(fù)雜任務(wù)自動(dòng)切換到分層協(xié)作結(jié)構(gòu)。06Agent 的自我進(jìn)化如果說(shuō)多Agent協(xié)作讓智能體“群策群力”那么自我進(jìn)化則讓每個(gè)Agent能夠“自我提升”。理想狀態(tài)下我們希望Agent越用越聰明能夠根據(jù)經(jīng)驗(yàn)不斷優(yōu)化自身。這正是Agent生命周期中**演進(jìn)Evolution**階段關(guān)注的核心 。Agent的進(jìn)化可以從多個(gè)維度來(lái)看主要包括自主優(yōu)化學(xué)習(xí)、群體共同進(jìn)化以及借助外部資源來(lái)提升 。自主優(yōu)化與自我學(xué)習(xí)智能體Agent可以通過(guò)自身的嘗試和反饋不斷提高能力從而減少對(duì)人類監(jiān)督的依賴。這方面的機(jī)制涵蓋了多種策略如自監(jiān)督學(xué)習(xí)、自我反思、自我糾錯(cuò)以及自我獎(jiǎng)勵(lì)機(jī)制等。簡(jiǎn)單來(lái)說(shuō)就是讓智能體扮演自己的老師和裁判。例如在自監(jiān)督學(xué)習(xí)方面智能體可以生成自己的練習(xí)數(shù)據(jù)進(jìn)行訓(xùn)練比如通過(guò)動(dòng)態(tài)調(diào)整輸入信息的遮蔽方式讓模型預(yù)測(cè)缺失部分來(lái)改進(jìn)自身參數(shù)。在解決問題時(shí)智能體可以先給出初步答案然后啟動(dòng)自我反思與糾錯(cuò)流程來(lái)檢驗(yàn)和修正錯(cuò)誤一些研究也讓AI反復(fù)進(jìn)行自我驗(yàn)證如同檢查推理步驟一般如利用自我驗(yàn)證技術(shù)回顧性地評(píng)估和修正輸出這有助于減少錯(cuò)誤的輸出和“幻覺”現(xiàn)象。此外通過(guò)引入內(nèi)部自我獎(jiǎng)勵(lì)機(jī)制智能體能為自己的良好表現(xiàn)“打分”并以此強(qiáng)化有效的決策策略即自我強(qiáng)化學(xué)習(xí)自監(jiān)督學(xué)習(xí)示例技術(shù)核心內(nèi)容動(dòng)態(tài)輸入遮蔽讓模型通過(guò)預(yù)測(cè)被遮蔽隱藏的部分來(lái)學(xué)習(xí)和改進(jìn)參數(shù)。SE (Self-Evolving Learning)通過(guò)動(dòng)態(tài)調(diào)整掩碼遮蔽方式和學(xué)習(xí)策略來(lái)增強(qiáng)預(yù)訓(xùn)練效果。DiverseEvol通過(guò)提升生成練習(xí)數(shù)據(jù)的多樣性來(lái)優(yōu)化模型的指令調(diào)整能力。自我反思與自我糾錯(cuò)示例技術(shù)核心內(nèi)容SELF-REFINE應(yīng)用迭代式的自我反饋生成答案 - 自我批評(píng) - 根據(jù)批評(píng)修正答案來(lái)改善最終輸出。STaR / V-STaR專注于訓(xùn)練模型具備驗(yàn)證和精煉自身推理過(guò)程與解題步驟的能力。自我驗(yàn)證 (Self-Verification)讓智能體反復(fù)檢查自身的推理或輸出步驟如同人類檢查工作一樣以回顧性地評(píng)估和修正減少錯(cuò)誤與“幻覺”。自我獎(jiǎng)勵(lì)/自我強(qiáng)化學(xué)習(xí)示例技術(shù)核心內(nèi)容對(duì)比蒸餾 (Contrastive Distillation)利用技術(shù)對(duì)比蒸餾讓智能體通過(guò)自己生成的獎(jiǎng)勵(lì)信號(hào)進(jìn)行自我對(duì)齊使其行為符合預(yù)期。RLC利用評(píng)估結(jié)果和生成內(nèi)容之間的差距結(jié)合強(qiáng)化學(xué)習(xí)策略來(lái)促進(jìn)智能體的自我改進(jìn)。模擬獎(jiǎng)勵(lì)信號(hào) (Simulated Reward Signals)智能體在達(dá)成目標(biāo)或避免錯(cuò)誤時(shí)能模擬產(chǎn)生內(nèi)部的正反饋獎(jiǎng)勵(lì)信號(hào)以此強(qiáng)化好的決策。多Agent共同進(jìn)化當(dāng)多個(gè)智能體Agent一起學(xué)習(xí)時(shí)會(huì)產(chǎn)生“共同進(jìn)化”的效果。通過(guò)彼此互動(dòng)智能體可以在合作中共享知識(shí)、協(xié)調(diào)行動(dòng)在競(jìng)爭(zhēng)中發(fā)現(xiàn)弱點(diǎn)、改進(jìn)策略從而共同提高。多智能體合作學(xué)習(xí)示例技術(shù)核心內(nèi)容CORY 框架大語(yǔ)言模型通過(guò)角色交換輪換角色思考機(jī)制進(jìn)行迭代改進(jìn)以增強(qiáng)策略。ProAgent智能體通過(guò)推測(cè)隊(duì)友意圖并更新自身信念來(lái)動(dòng)態(tài)適應(yīng)協(xié)作任務(wù)能有效增強(qiáng)零樣本協(xié)調(diào)能力。CAMEL 框架作為角色扮演框架讓溝通型智能體能利用初始提示自主協(xié)作提升任務(wù)解決效率。多智能體競(jìng)爭(zhēng)進(jìn)化示例技術(shù)核心內(nèi)容紅隊(duì)LLMs (Red Teaming LLMs)智能體在對(duì)抗性互動(dòng)如模擬攻擊中動(dòng)態(tài)進(jìn)化目的是發(fā)現(xiàn)和修復(fù)系統(tǒng)如大模型的漏洞。多智能體辯論 (如 MAD 框架)多個(gè)智能體通過(guò)多輪次的相互批評(píng)和完善論點(diǎn)來(lái)提升各自的推理能力和論證的事實(shí)準(zhǔn)確性。(類比GAN機(jī)制)通過(guò)對(duì)抗性互動(dòng)類似“軍備競(jìng)賽”促使參與各方不斷改進(jìn)最終共同提高能力。借助外部資源進(jìn)化智能體的提升不光可以自給自足也可以借力外部的知識(shí)和反饋。一方面智能體可以吸收結(jié)構(gòu)化知識(shí)來(lái)武裝自己例如將專業(yè)的知識(shí)圖譜、行業(yè)規(guī)則引入讓其在決策時(shí)參考這些權(quán)威信息從而減少錯(cuò)誤和憑空猜測(cè)。智能體吸收結(jié)構(gòu)化知識(shí)示例技術(shù)核心內(nèi)容KnowAgent將動(dòng)作知識(shí)庫(kù)融入規(guī)劃模塊以約束決策路徑并減輕“幻覺”現(xiàn)象。WKM (世界知識(shí)模型)綜合利用專家知識(shí)與過(guò)往經(jīng)驗(yàn)知識(shí)來(lái)指導(dǎo)規(guī)劃過(guò)程能顯著降低無(wú)效行動(dòng)的發(fā)生。智能體利用外部反饋示例技術(shù)核心內(nèi)容CRITIC 框架智能體能夠調(diào)用外部工具來(lái)審查和修正自身的輸出以提高準(zhǔn)確性并減少內(nèi)容上的不一致。STE 框架通過(guò)模擬試錯(cuò)、想象和記憶機(jī)制來(lái)增強(qiáng)對(duì)外部工具的學(xué)習(xí)和使用能力實(shí)現(xiàn)更有效的工具調(diào)用和長(zhǎng)期適應(yīng)。SelfEvolve采用兩步框架讓智能體能夠根據(jù)代碼實(shí)際執(zhí)行結(jié)果的好壞反饋來(lái)自行生成和調(diào)試代碼。07測(cè)試與評(píng)估當(dāng)我們構(gòu)建了一個(gè)強(qiáng)大的Agent系統(tǒng)后面臨的一個(gè)實(shí)際問題是如何評(píng)估它的表現(xiàn)好壞評(píng)估一個(gè)復(fù)雜的智能Agent不像給學(xué)生考試那么簡(jiǎn)單因?yàn)锳gent的能力是多維度的。為此研究者設(shè)計(jì)了各種基準(zhǔn)測(cè)試Benchmark和數(shù)據(jù)集來(lái)全面測(cè)量Agent的智能水平 (AGent.pdf)。通用能力評(píng)估早期AI系統(tǒng)常用成功率或準(zhǔn)確率這類單一指標(biāo)但對(duì)于具備推理、規(guī)劃、協(xié)作能力的Agent來(lái)說(shuō)需要更立體的考察?,F(xiàn)代評(píng)測(cè)框架傾向于多維度分析Agent的表現(xiàn)比如是否能夠高效地計(jì)劃、多步推理正確率、適應(yīng)新環(huán)境的能力等等。多維度能力評(píng)測(cè)測(cè)評(píng)框架主要內(nèi)容AgentBench覆蓋8個(gè)交互式環(huán)境, 評(píng)估代理在多場(chǎng)景下的復(fù)雜推理與交互能力。Mind2Web專注于Web交互場(chǎng)景, 對(duì)137個(gè)真實(shí)世界網(wǎng)站進(jìn)行測(cè)評(píng), 任務(wù)橫跨31個(gè)領(lǐng)域。MMAU通過(guò)3,000跨領(lǐng)域任務(wù), 將智能分為五大核心能力并進(jìn)行細(xì)粒度能力映射。BLADE關(guān)注科學(xué)發(fā)現(xiàn)場(chǎng)景, 通過(guò)追蹤專家驗(yàn)證工作流程的分析決策模式來(lái)評(píng)估代理表現(xiàn)。VisualAgentBench側(cè)重多模態(tài)基礎(chǔ)代理的統(tǒng)一基準(zhǔn), 包括物化交互、GUI操作及視覺設(shè)計(jì)等復(fù)雜視覺任務(wù)。Embodied Agent Interface提供模塊化推理組件, 如對(duì)象解釋、子對(duì)象分解等, 為嵌入式系統(tǒng)提供細(xì)粒度錯(cuò)誤分類。CRAB通過(guò)圖形化評(píng)估與統(tǒng)一的Python接口進(jìn)行跨平臺(tái)測(cè)試。動(dòng)態(tài)和自我進(jìn)化的評(píng)估范式測(cè)評(píng)框架主要內(nèi)容BENCHAGENTS借助LLM代理自動(dòng)創(chuàng)建基準(zhǔn), 用于規(guī)劃、驗(yàn)證和測(cè)量設(shè)計(jì), 支持快速容量擴(kuò)展。Benchmark Self-Evolving提出六種重構(gòu)操作, 能動(dòng)態(tài)生成測(cè)試實(shí)例來(lái)對(duì)抗捷徑偏差, 保證評(píng)測(cè)結(jié)果的時(shí)效性和魯棒性。Revisiting Benchmark (TestAgent)利用強(qiáng)化學(xué)習(xí)機(jī)制與代理交互, 用于面向特定領(lǐng)域的自適應(yīng)評(píng)估。Seal-Tools設(shè)計(jì)了1,024個(gè)嵌套實(shí)例的工具調(diào)用場(chǎng)景, 用于評(píng)估代理在調(diào)用外部工具過(guò)程中的泛化與穩(wěn)健性。CToolEval涉及14個(gè)領(lǐng)域、398個(gè)中文API調(diào)用的測(cè)評(píng)數(shù)據(jù)集, 主要用于檢驗(yàn)代理對(duì)中文工具/接口的調(diào)用正確性。特定領(lǐng)域評(píng)估除了通用測(cè)試還有針對(duì)特定行業(yè)或場(chǎng)景的模擬評(píng)估。例如醫(yī)療診斷Agent會(huì)有一套醫(yī)學(xué)問答和病例推理測(cè)試編程Agent有代碼生成和錯(cuò)誤調(diào)試測(cè)試機(jī)器人Agent則在仿真環(huán)境中考核導(dǎo)航和操作能力。通過(guò)定制接近真實(shí)應(yīng)用的場(chǎng)景評(píng)估結(jié)果才能反映Agent在該領(lǐng)域的可靠程度。特定領(lǐng)域的能力測(cè)試測(cè)評(píng)框架主要內(nèi)容MedAgentBench測(cè)試醫(yī)療保健應(yīng)用包含在符合FHIR環(huán)境中由臨床醫(yī)生設(shè)計(jì)的任務(wù)。AI Hospital通過(guò)多智能體協(xié)作模擬臨床工作流程來(lái)測(cè)試醫(yī)療保健應(yīng)用。LaMPilot用于評(píng)估自動(dòng)駕駛系統(tǒng)通過(guò)代碼生成基準(zhǔn)測(cè)試連接到LLM自動(dòng)駕駛架構(gòu)。DSEval評(píng)估數(shù)據(jù)科學(xué)能力涵蓋從數(shù)據(jù)處理到模型部署的生命周期管理。DA-Code與DSEval一同評(píng)估數(shù)據(jù)科學(xué)能力DCA-Bench根據(jù)實(shí)際質(zhì)量問題評(píng)估數(shù)據(jù)集管理代理。TravelPlanner為旅行計(jì)劃場(chǎng)景提供沙盒環(huán)境測(cè)試多步驟推理、工具集成和約束平衡能力。MLAgent-Bench測(cè)量機(jī)器學(xué)習(xí)工程能力模擬需要優(yōu)化端到端管道的類似 Kaggle 的挑戰(zhàn)。MLE-Bench與MLAgent-Bench一同測(cè)量機(jī)器學(xué)習(xí)工程能力文本未詳細(xì)區(qū)分具體側(cè)重。AgentHarm以安全為中心包含多種惡意代理任務(wù)評(píng)估LLM在多步驟工具使用場(chǎng)景中的濫用風(fēng)險(xiǎn)。真實(shí)世界環(huán)境模擬測(cè)評(píng)表框架主要內(nèi)容OSWorld構(gòu)建可擴(kuò)展的真實(shí)計(jì)算機(jī)操作系統(tǒng)環(huán)境 (Ubuntu/Windows/macOS)支持多種應(yīng)用程序任務(wù)。TurkingBench使用眾包方式獲取的HTML界面來(lái)評(píng)估微任務(wù)的執(zhí)行能力。LaMPilot為自動(dòng)駕駛場(chǎng)景引入了可執(zhí)行代碼生成的基準(zhǔn)測(cè)試。OmniACT提供大量的 (32K) 網(wǎng)頁(yè)和桌面自動(dòng)化實(shí)例包含視覺基礎(chǔ)要求。EgoLife通過(guò)大型多模態(tài)自我中心數(shù)據(jù)集模擬人類日?;顒?dòng)測(cè)試代理在動(dòng)態(tài)環(huán)境中的多種能力。GTA整合真實(shí)世界工具和多模態(tài)輸入如圖像、網(wǎng)頁(yè)以評(píng)估現(xiàn)實(shí)世界中的問題解決能力。協(xié)同與對(duì)抗評(píng)估對(duì)于多Agent系統(tǒng)評(píng)估還得看它們的協(xié)作效果或?qū)鼓芰?。一些研究搭建了協(xié)同任務(wù)環(huán)境讓多個(gè)Agent一起完成看團(tuán)隊(duì)績(jī)效如何還有對(duì)抗性的環(huán)境讓Agent跟人類或其他AI對(duì)戰(zhàn)測(cè)試其博弈策略。協(xié)同評(píng)測(cè)關(guān)注的是團(tuán)隊(duì)配合度、通信效率等而對(duì)抗評(píng)測(cè)則關(guān)注Agent在復(fù)雜競(jìng)技中的策略演化和適應(yīng)性。多代理系統(tǒng)基準(zhǔn)測(cè)試測(cè)評(píng)表/工作名稱簡(jiǎn)要描述TheAgentCompany開創(chuàng)性地使用模擬軟件公司環(huán)境進(jìn)行企業(yè)級(jí)評(píng)估測(cè)試網(wǎng)頁(yè)交互和代碼協(xié)作能力。AutoGen 和 CrewAI 對(duì)比分析通過(guò)機(jī)器學(xué)習(xí)代碼生成挑戰(zhàn)進(jìn)行對(duì)比分析為多智能體系統(tǒng)評(píng)估建立方法論標(biāo)準(zhǔn)。MLRB為評(píng)估多智能體協(xié)作能力設(shè)計(jì)了7個(gè)競(jìng)賽級(jí)別的機(jī)器學(xué)習(xí)研究任務(wù)。MLE-Bench通過(guò)71個(gè)真實(shí)世界的競(jìng)賽來(lái)評(píng)估Kaggle風(fēng)格的模型工程能力。08工具與部署生態(tài)要讓Agent走出實(shí)驗(yàn)室良好的工具生態(tài)和基礎(chǔ)設(shè)施是不可或缺的。這方面可以分為三部分Agent用的工具Agent自己創(chuàng)造的工具以及開發(fā)者用來(lái)管理Agent的工具。正如前文提到Agent可以利用外部工具來(lái)增強(qiáng)能力。現(xiàn)在已經(jīng)有很多現(xiàn)成的插件接口比如瀏覽器接口、數(shù)據(jù)庫(kù)查詢接口、各種API服務(wù)等等可以被集成進(jìn)Agent系統(tǒng)。開發(fā)者也在為Agent定制更多專用工具以彌補(bǔ)目前通用工具的不足。知識(shí)檢索工具工具名稱簡(jiǎn)要介紹搜索引擎 (通用)幫助 LLM 代理快速訪問最新的、其訓(xùn)練知識(shí)庫(kù)之外的實(shí)時(shí)信息。WebGPT成功地結(jié)合了在線搜索引擎和 LLMs并整合了商業(yè) API。WebCPM開發(fā)了一個(gè)網(wǎng)絡(luò)搜索界面并用其構(gòu)建了第一個(gè)中文長(zhǎng)篇問答LFQA數(shù)據(jù)集。ToolCoder使用 DuckDuckgo 搜索常用公共庫(kù)對(duì)不常用或私有庫(kù)則使用 BM25 分?jǐn)?shù)進(jìn)行檢索。計(jì)算工具工具名稱簡(jiǎn)要介紹Python 解釋器 (通用)幫助 LLM 代理處理復(fù)雜的代碼執(zhí)行任務(wù)。數(shù)學(xué)計(jì)算器 (通用)幫助 LLM 代理處理精確的或復(fù)雜的計(jì)算任務(wù)。AutoCoder設(shè)計(jì)了一個(gè)與編碼執(zhí)行結(jié)果交互的數(shù)據(jù)集以促進(jìn)基于 LLM 的代碼生成。RLEF通過(guò)端到端強(qiáng)化學(xué)習(xí)框架使 LLM 能從代碼執(zhí)行者那里學(xué)習(xí)反饋以提高代碼生成性能。CodeActAgent一個(gè)自動(dòng)代理系統(tǒng)能根據(jù)與代碼解釋器的交互來(lái)更新其動(dòng)作。Toolformer集成包括計(jì)算器在內(nèi)的一系列工具顯著提高模型在數(shù)學(xué)計(jì)算等任務(wù)中的性能且不影響模型通用性。ART使 LLM 在解決復(fù)雜任務(wù)時(shí)能調(diào)用外部工具如計(jì)算器擅長(zhǎng)數(shù)學(xué)推理和復(fù)雜計(jì)算任務(wù)。API 交互工具/系統(tǒng)工具/系統(tǒng)名稱簡(jiǎn)要介紹RestGPT結(jié)合 LLM 與 RESTful API 來(lái)探索更現(xiàn)實(shí)的應(yīng)用場(chǎng)景并提出了 RestBench 用于評(píng)估其性能。GraphQLRestBench構(gòu)建了一個(gè)包含自然語(yǔ)言和函數(shù)調(diào)用序列的數(shù)據(jù)集用于評(píng)估現(xiàn)有開源 LLM 進(jìn)行 API 調(diào)用的能力。傳統(tǒng)的工具通常是給人用的而Agent直接調(diào)用可能不夠便利或高效。因此出現(xiàn)了一些讓Agent“造工具”的探索例如當(dāng)現(xiàn)有工具不能滿足需求時(shí)Agent可以自主編寫一段代碼等于創(chuàng)造了一個(gè)新工具來(lái)完成子任務(wù)然后下次需要時(shí)重復(fù)使用。LLM Agent創(chuàng)建的工具工具/框架名稱簡(jiǎn)要介紹CRAFRT通過(guò)收集特定任務(wù)的GPT-4代碼解法并將其抽象為代碼片段來(lái)創(chuàng)建專用工具集為工具創(chuàng)建和檢索提供靈活框架。Toolink通過(guò)創(chuàng)建工具集然后運(yùn)用解決方案鏈CoS方法整合工具的規(guī)劃和調(diào)用來(lái)執(zhí)行任務(wù)分解。CREATOR提出一個(gè)包含創(chuàng)建、決策、執(zhí)行和反思四個(gè)階段的框架使LLM代理能夠創(chuàng)建工具并提高輸出結(jié)果的穩(wěn)健性魯棒性。LATM提出一個(gè)兩階段框架讓LLM分別充當(dāng)工具制造者和使用者并包含工具緩存機(jī)制以提高效率、降低成本同時(shí)保持性能。前面我們介紹了 LLM Agent可以調(diào)用和自己創(chuàng)造的工具接下來(lái)我們將整理用于部署、開發(fā)、運(yùn)維這些 LLM Agent的相關(guān)工具、框架和協(xié)議。用于部署LLM Agent的工具/框架/協(xié)議工具/框架/協(xié)議名稱簡(jiǎn)要介紹AutoGen一個(gè)開源框架使開發(fā)人員能夠使用可定制的、對(duì)話式的多個(gè)代理來(lái)構(gòu)建LLM應(yīng)用程序。LangChain一個(gè)高度可擴(kuò)展的開源框架用于構(gòu)建LLM應(yīng)用程序允許用戶創(chuàng)建自定義模塊和工作流以滿足特定需求。LlamaIndex一個(gè)服務(wù)于大型模型應(yīng)用的數(shù)據(jù)框架允許用戶基于本地?cái)?shù)據(jù)構(gòu)建LLM應(yīng)用并提供了訪問/索引數(shù)據(jù)、檢索/重排及構(gòu)建查詢引擎的工具箱。Dify一個(gè)開源LLM應(yīng)用開發(fā)平臺(tái)允許用戶在畫布(canvas)上構(gòu)建和測(cè)試AI工作流也能監(jiān)控和分析應(yīng)用日志及性能以進(jìn)行持續(xù)改進(jìn)。Ollama一個(gè)用于構(gòu)建LLM代理的平臺(tái)同時(shí)提供可觀察性和監(jiān)控支持允許團(tuán)隊(duì)實(shí)時(shí)跟蹤模型性能。MCP (模型上下文協(xié)議)一種開放協(xié)議標(biāo)準(zhǔn)化應(yīng)用程序?yàn)長(zhǎng)LM提供上下文的方式用于創(chuàng)建LLM與數(shù)據(jù)源間的安全鏈接及構(gòu)建代理和工作流。MCP-Agent一個(gè)使用 MCP 來(lái)構(gòu)建代理的簡(jiǎn)單框架。09安全挑戰(zhàn)對(duì)抗攻擊惡意方可能通過(guò)精心設(shè)計(jì)的輸入誘導(dǎo)Agent出錯(cuò)甚至做出有害行為這稱為對(duì)抗攻擊。例如在輸入中嵌入特殊擾動(dòng)對(duì)人類無(wú)害但對(duì)AI是陷阱讓Agent產(chǎn)生錯(cuò)誤判斷 。再比如通過(guò)一系列巧妙的提示誘使Agent違反預(yù)設(shè)原則輸出不良內(nèi)容這就是常說(shuō)的提示劫持Prompt Jailbreaking。這些攻擊會(huì)損害Agent決策的可靠性和安全性目前研究者也在開發(fā)對(duì)應(yīng)的防御策略如輸入過(guò)濾、響應(yīng)驗(yàn)證等。后門攻擊更陰險(xiǎn)的是在Agent的底層模型中種下“后門”。攻擊者如果有機(jī)會(huì)在模型訓(xùn)練階段做手腳可能讓模型記住一個(gè)隱秘的觸發(fā)模式——一旦日后輸入含有該模式Agent就會(huì)按照攻擊者預(yù)設(shè)輸出特定內(nèi)容或執(zhí)行特定動(dòng)作 。這種攻擊隱藏性強(qiáng)難以發(fā)現(xiàn)。防御手段包括嚴(yán)格控制訓(xùn)練數(shù)據(jù)來(lái)源、訓(xùn)練后對(duì)模型進(jìn)行安全審計(jì)等。多Agent協(xié)作安全當(dāng)多個(gè)Agent協(xié)同時(shí)還會(huì)出現(xiàn)協(xié)作攻擊的風(fēng)險(xiǎn)。如果其中一個(gè)Agent被攻破或本身不可靠它可能向其他Agent傳遞錯(cuò)誤信息導(dǎo)致整個(gè)團(tuán)隊(duì)決策失誤。因此在多Agent系統(tǒng)中需要設(shè)計(jì)機(jī)制來(lái)檢測(cè)異常行為的Agent必要時(shí)將其隔離防止謠言或錯(cuò)誤在Agent網(wǎng)絡(luò)中蔓延。附錄Agent在各行業(yè)的中的應(yīng)用案例合集為了方便讀者查找原始文獻(xiàn)我們也附上了原文中的引用序號(hào)Agent在科學(xué)研究領(lǐng)域的應(yīng)用項(xiàng)目/應(yīng)用名稱領(lǐng)域簡(jiǎn)要描述通用科學(xué)與實(shí)驗(yàn)SciAgents [266]通用科學(xué)使用多個(gè)專門的LLM Agent如“本體論者”、“科學(xué)家”、“批評(píng)家”協(xié)同生成和完善科學(xué)假設(shè)。Curie [267]通用科學(xué)構(gòu)建了一個(gè)多Agent框架“架構(gòu)師”Agent設(shè)計(jì)實(shí)驗(yàn)“技術(shù)員”Agent執(zhí)行來(lái)自動(dòng)化、嚴(yán)謹(jǐn)?shù)剡M(jìn)行科學(xué)實(shí)驗(yàn)。AgentReview [268]通用科學(xué)提出一個(gè)基于LLM Agent的框架來(lái)模擬學(xué)術(shù)同行評(píng)審過(guò)程為改進(jìn)論文評(píng)估協(xié)議提供見解?;瘜W(xué)、材料科學(xué)與天文學(xué)ChemCrow [269]化學(xué)將LLM與18個(gè)化學(xué)專業(yè)工具集成使其能夠自主規(guī)劃和執(zhí)行化學(xué)合成任務(wù)。AtomAgents [270]材料科學(xué)一個(gè)考慮物理知識(shí)的多Agent系統(tǒng)用于自動(dòng)化合金設(shè)計(jì)規(guī)劃者Agent分解任務(wù)批評(píng)家Agent驗(yàn)證。D. Kostunin et al. [271]天文學(xué)為切倫科夫望遠(yuǎn)鏡陣列開發(fā)的AI助手Agent用于自主管理望遠(yuǎn)鏡配置數(shù)據(jù)庫(kù)和生成數(shù)據(jù)分析代碼。生物學(xué)BioDiscoveryAgent [273]生物學(xué)通過(guò)解析文獻(xiàn)和基因數(shù)據(jù)庫(kù)提出可能闡明特定生物通路的基因敲除或編輯實(shí)驗(yàn)設(shè)計(jì)。GeneAgent [274]生物學(xué)使用自我修正循環(huán)從生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)基因關(guān)聯(lián)并通過(guò)與已知基因集交叉檢查提高可靠性。RiGPS [275]生物學(xué)開發(fā)了一個(gè)具有基于實(shí)驗(yàn)的自我驗(yàn)證強(qiáng)化學(xué)習(xí)框架的多Agent系統(tǒng)用于增強(qiáng)單細(xì)胞數(shù)據(jù)集中的生物標(biāo)志物識(shí)別任務(wù)。BioRAG [211]生物學(xué)開發(fā)了一個(gè)基于多Agent的RAG系統(tǒng)來(lái)處理生物學(xué)相關(guān)的問答其中包含檢索信息的Agent和自我評(píng)估結(jié)果的Agent。科學(xué)數(shù)據(jù)集構(gòu)建PathGen-1.6M [276]科學(xué)數(shù)據(jù)集構(gòu)建通過(guò)多Agent協(xié)作視覺模型選區(qū)、LLM生成描述、其他Agent優(yōu)化生成大規(guī)模病理圖像數(shù)據(jù)集。KALIN [277]科學(xué)數(shù)據(jù)集構(gòu)建開發(fā)多Agent協(xié)作框架以分塊研究文章為背景生成高質(zhì)量的領(lǐng)域LLM訓(xùn)練語(yǔ)料庫(kù)科學(xué)問題并利用知識(shí)層次結(jié)構(gòu)進(jìn)行自我評(píng)估和進(jìn)化。GeneSUM [278]科學(xué)數(shù)據(jù)集構(gòu)建自動(dòng)維護(hù)基因功能描述知識(shí)數(shù)據(jù)集包含閱讀基因本體的Agent、檢索文獻(xiàn)的Agent和生成摘要的Agent。醫(yī)學(xué)AgentHospital [281]醫(yī)學(xué)創(chuàng)建一個(gè)虛擬醫(yī)院由LLM驅(qū)動(dòng)的醫(yī)生、護(hù)士和患者Agent互動(dòng)模擬從分診到治療的完整醫(yī)療流程。ClinicalLab [282]醫(yī)學(xué)引入了一個(gè)全面的基準(zhǔn)測(cè)試和一個(gè)用于多科室醫(yī)療診斷的Agent覆蓋多個(gè)醫(yī)學(xué)??啤IPatient [283]醫(yī)學(xué)創(chuàng)建由LLM驅(qū)動(dòng)的逼真患者模擬器利用結(jié)構(gòu)化醫(yī)學(xué)知識(shí)圖譜和推理RAG流程進(jìn)行可信的醫(yī)患對(duì)話。CXR-Agent [284]醫(yī)學(xué)結(jié)合視覺語(yǔ)言模型和LLM來(lái)解讀胸部X光片并生成帶有不確定性評(píng)估的放射學(xué)報(bào)告。MedRAX [285]醫(yī)學(xué)集成多種工具OCR、分割模型、LLM解決需要同時(shí)參考患者病史和影像的復(fù)雜胸部X光病例。Agent在游戲領(lǐng)域的應(yīng)用項(xiàng)目/應(yīng)用名稱領(lǐng)域簡(jiǎn)要描述游戲玩法ReAct [33]游戲在文本或具身環(huán)境中促使LLM將推理和反思整合到行動(dòng)生成中以增強(qiáng)決策能力。Voyager [35]游戲在《我的世界》中引入了一個(gè)由LLM驅(qū)動(dòng)的終身學(xué)習(xí)Agent可持續(xù)探索游戲世界。ChessGPT [287]游戲基于混合游戲-語(yǔ)言數(shù)據(jù)的自主Agent用于棋盤狀態(tài)評(píng)估和國(guó)際象棋對(duì)弈。GLAM [288]游戲在BabyAI-text環(huán)境中構(gòu)建Agent使用策略選擇行動(dòng)并通過(guò)在線強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。游戲生成CALYPSO [289]游戲創(chuàng)建LLM Agent作為助手在《龍與地下城》等游戲中幫助構(gòu)建引人入勝的敘事。GameGPT [290]游戲利用雙Agent協(xié)作和分層方法使用多個(gè)內(nèi)部字典來(lái)自動(dòng)化和增強(qiáng)游戲開發(fā)過(guò)程。Sun et al. [291]游戲在《一千零一夜》中創(chuàng)建互動(dòng)式講故事游戲體驗(yàn)結(jié)合指令性語(yǔ)言模型和圖像生成來(lái)塑造敘事和世界。Agent在社會(huì)科學(xué)領(lǐng)域的應(yīng)用項(xiàng)目/應(yīng)用名稱領(lǐng)域簡(jiǎn)要描述經(jīng)濟(jì)學(xué)Econagent [292]社會(huì)科學(xué)使用提示工程創(chuàng)建模擬人類決策或宏觀經(jīng)濟(jì)模擬的Agent。TradingGPT [293]社會(huì)科學(xué)提出一個(gè)用于金融交易的多Agent框架通過(guò)分層記憶結(jié)構(gòu)和辯論機(jī)制模擬人類決策過(guò)程。CompeteAI [294]社會(huì)科學(xué)利用LLM Agent模擬一個(gè)虛擬城鎮(zhèn)中餐館和顧客的互動(dòng)以提供符合社會(huì)學(xué)和經(jīng)濟(jì)學(xué)理論的見解。心理學(xué)Ma et al. [295]社會(huì)科學(xué)研究使用基于LLM的對(duì)話Agent進(jìn)行心理健康支持的心理效應(yīng)和潛在益處。Zhang et al. [296]社會(huì)科學(xué)考察具有獨(dú)特特質(zhì)和思維過(guò)程的LLM Agent如何復(fù)制類似人類的社會(huì)行為如同眾效應(yīng)。TE [297]社會(huì)科學(xué)使用LLM Agent模擬心理學(xué)實(shí)驗(yàn)揭示語(yǔ)言模型在復(fù)制特定人類行為時(shí)可能存在的系統(tǒng)性偏差。社會(huì)模擬Generative agents [30]社會(huì)科學(xué)在交互式沙盒環(huán)境中引入多Agent交互模型利用LLM Agent模擬各種情境下的逼真人類行為。Liu et al. [298]社會(huì)科學(xué)提出一種訓(xùn)練范式使LLM能夠從涉及多個(gè)LLM Agent的模擬社會(huì)互動(dòng)中學(xué)習(xí)。S3 [299]社會(huì)科學(xué)開發(fā)基于LLM的多Agent系統(tǒng)確保Agent在社交網(wǎng)絡(luò)中的行為與真實(shí)人類高度相似。Agent在生產(chǎn)力工具領(lǐng)域的應(yīng)用項(xiàng)目/應(yīng)用名稱領(lǐng)域簡(jiǎn)要描述軟件開發(fā)SDM [300]生產(chǎn)力工具引入一個(gè)自我協(xié)作框架引導(dǎo)多個(gè)LLM Agent在代碼生成任務(wù)上協(xié)同工作以應(yīng)對(duì)復(fù)雜的軟件開發(fā)挑戰(zhàn)。ChatDev [301]生產(chǎn)力工具提出一個(gè)由聊天驅(qū)動(dòng)的軟件開發(fā)框架指導(dǎo)Agent溝通的內(nèi)容和方式模擬軟件開發(fā)流程。MetaGPT [27]生產(chǎn)力工具通過(guò)元編程方法將人類工作流程標(biāo)準(zhǔn)化操作程序SOPs融入LLM驅(qū)動(dòng)的多Agent協(xié)作中以增強(qiáng)協(xié)調(diào)性。推薦系統(tǒng)Agent4Rec [302]生產(chǎn)力工具使用集成了用戶畫像、記憶和行動(dòng)模塊的LLM Agent來(lái)模擬推薦系統(tǒng)中的用戶行為。AgentCF [303]生產(chǎn)力工具將用戶和物品都視為L(zhǎng)LM Agent引入?yún)f(xié)作學(xué)習(xí)框架來(lái)模擬推薦系統(tǒng)中的用戶-物品交互。MACRec [304]生產(chǎn)力工具直接開發(fā)多個(gè)Agent來(lái)協(xié)同完成推薦任務(wù)。RecMind [305]生產(chǎn)力工具利用LLM Agent整合外部知識(shí)并精心規(guī)劃工具的使用以實(shí)現(xiàn)零樣本個(gè)性化推薦。在大模型時(shí)代我們?nèi)绾斡行У娜W(xué)習(xí)大模型現(xiàn)如今大模型崗位需求越來(lái)越大但是相關(guān)崗位人才難求薪資持續(xù)走高AI運(yùn)營(yíng)薪資平均值約18457元AI工程師薪資平均值約37336元大模型算法薪資平均值約39607元。掌握大模型技術(shù)你還能擁有更多可能性? 成為一名全棧大模型工程師包括PromptLangChainLoRA等技術(shù)開發(fā)、運(yùn)營(yíng)、產(chǎn)品等方向全棧工程? 能夠擁有模型二次訓(xùn)練和微調(diào)能力帶領(lǐng)大家完成智能對(duì)話、文生圖等熱門應(yīng)用? 薪資上浮10%-20%覆蓋更多高薪崗位這是一個(gè)高需求、高待遇的熱門方向和領(lǐng)域? 更優(yōu)質(zhì)的項(xiàng)目可以為未來(lái)創(chuàng)新創(chuàng)業(yè)提供基石?!禔I大模型從0到精通全套學(xué)習(xí)包》如果你想要提升自己的能力卻又沒有方向想學(xué)大模型技術(shù)去幫助就業(yè)和轉(zhuǎn)行又不知道怎么開始那么這一套**《AI大模型零基礎(chǔ)入門到實(shí)戰(zhàn)全套學(xué)習(xí)大禮包》以及《大模型應(yīng)用開發(fā)視頻教程》**一定可以幫助到你限免0元1全套AI大模型應(yīng)用開發(fā)視頻教程包含深度學(xué)習(xí)、提示工程、RAG、LangChain、Agent、模型微調(diào)與部署、DeepSeek等技術(shù)點(diǎn)2大模型入門到實(shí)戰(zhàn)全套學(xué)習(xí)大禮包01大模型系統(tǒng)化學(xué)習(xí)路線作為學(xué)習(xí)AI大模型技術(shù)的新手方向至關(guān)重要。 正確的學(xué)習(xí)路線可以為你節(jié)省時(shí)間少走彎路方向不對(duì)努力白費(fèi)。這里我給大家準(zhǔn)備了一份最科學(xué)最系統(tǒng)的學(xué)習(xí)成長(zhǎng)路線圖和學(xué)習(xí)規(guī)劃帶你從零基礎(chǔ)入門到精通02大模型學(xué)習(xí)書籍文檔學(xué)習(xí)AI大模型離不開書籍文檔我精選了一系列大模型技術(shù)的書籍和學(xué)習(xí)文檔電子版它們由領(lǐng)域內(nèi)的頂尖專家撰寫內(nèi)容全面、深入、詳盡為你學(xué)習(xí)大模型提供堅(jiān)實(shí)的理論基礎(chǔ)。03AI大模型最新行業(yè)報(bào)告2025最新行業(yè)報(bào)告針對(duì)不同行業(yè)的現(xiàn)狀、趨勢(shì)、問題、機(jī)會(huì)等進(jìn)行系統(tǒng)地調(diào)研和評(píng)估以了解哪些行業(yè)更適合引入大模型的技術(shù)和應(yīng)用以及在哪些方面可以發(fā)揮大模型的優(yōu)勢(shì)。04大模型項(xiàng)目實(shí)戰(zhàn)配套源碼學(xué)以致用在項(xiàng)目實(shí)戰(zhàn)中檢驗(yàn)和鞏固你所學(xué)到的知識(shí)同時(shí)為你找工作就業(yè)和職業(yè)發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。05大模型大廠面試真題面試不僅是技術(shù)的較量更需要充分的準(zhǔn)備。在你已經(jīng)掌握了大模型技術(shù)之后就需要開始準(zhǔn)備面試我精心整理了一份大模型面試題庫(kù)涵蓋當(dāng)前面試中可能遇到的各種技術(shù)問題讓你在面試中游刃有余。*這些資料真的有用嗎*這份資料由我和魯為民博士(北京清華大學(xué)學(xué)士和美國(guó)加州理工學(xué)院博士)共同整理現(xiàn)任上海殷泊信息科技CEO其創(chuàng)立的MoPaaS云平臺(tái)獲Forrester全球’強(qiáng)勁表現(xiàn)者’認(rèn)證服務(wù)航天科工、國(guó)家電網(wǎng)等1000企業(yè)以第一作者在IEEE Transactions發(fā)表論文50篇獲NASA JPL火星探測(cè)系統(tǒng)強(qiáng)化學(xué)習(xí)專利等35項(xiàng)中美專利。本套AI大模型課程由清華大學(xué)-加州理工雙料博士、吳文俊人工智能獎(jiǎng)得主魯為民教授領(lǐng)銜研發(fā)。資料內(nèi)容涵蓋了從入門到進(jìn)階的各類視頻教程和實(shí)戰(zhàn)項(xiàng)目無(wú)論你是小白還是有些技術(shù)基礎(chǔ)的技術(shù)人員這份資料都絕對(duì)能幫助你提升薪資待遇轉(zhuǎn)行大模型崗位。06以上全套大模型資料如何領(lǐng)取用微信加上就會(huì)給你發(fā)無(wú)償分享遇到掃碼問題可以私信或評(píng)論區(qū)找我
版權(quán)聲明: 本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

制作網(wǎng)站升上去有動(dòng)效得網(wǎng)站

制作網(wǎng)站升上去,有動(dòng)效得網(wǎng)站,新洲城鄉(xiāng)建設(shè)局網(wǎng)站,工作總結(jié)ppt模板免費(fèi)下載OpenMTP#xff1a;macOS與Android文件傳輸?shù)慕K極免費(fèi)解決方案 【免費(fèi)下載鏈接】openmtp OpenM

2026/01/21 19:25:01

免費(fèi) 網(wǎng)站 空間廣東東莞自己建站教程

免費(fèi) 網(wǎng)站 空間,廣東東莞自己建站教程,太原網(wǎng)站優(yōu)化排名,蘇州高端網(wǎng)站設(shè)計(jì)制作Linly-Talker輕量化版本發(fā)布#xff1a;適用于移動(dòng)端嵌入 在智能手機(jī)性能不斷逼近輕薄筆記本的今天#xff0c;

2026/01/21 17:01:01

wordpress多站點(diǎn) 主題wordpress 掙錢

wordpress多站點(diǎn) 主題,wordpress 掙錢,大連關(guān)鍵詞快速排名,wordpress翻譯公司網(wǎng)站目錄 awk項(xiàng)目練習(xí) 1、檢測(cè)兩臺(tái)服務(wù)器指定目錄下的文件一致性 2、定時(shí)清空文件內(nèi)容#

2026/01/21 19:51:01

文化公司網(wǎng)站源碼飲料招商網(wǎng)站大全

文化公司網(wǎng)站源碼,飲料招商網(wǎng)站大全,哪個(gè)網(wǎng)站教做衣服,大連在哪里前端新手必看#xff1a;30分鐘搞懂DOM操作與JavaScript實(shí)戰(zhàn)技巧 前端新手必看#xff1a;30分鐘搞懂DOM操作與Jav

2026/01/21 20:12:02