97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

河北平臺(tái)網(wǎng)站建設(shè)推薦中國設(shè)計(jì)聯(lián)盟網(wǎng)服務(wù)內(nèi)容

鶴壁市浩天電氣有限公司 2026/01/22 06:48:01
河北平臺(tái)網(wǎng)站建設(shè)推薦,中國設(shè)計(jì)聯(lián)盟網(wǎng)服務(wù)內(nèi)容,做基金的網(wǎng)站哪個(gè)好,DANI主題wordpress文章全面剖析了AI Agent的技術(shù)演進(jìn)#xff0c;從早期LLM Agent到類Agent模型(OpenAI O1、DeepSeek R1)和真Agent模型(OpenAI DeepResearch)#xff0c;解析了其核心要素(記憶、工具使用、自主規(guī)劃)和面臨的技術(shù)挑戰(zhàn)。文章指出#xff0c;強(qiáng)化學(xué)習(xí)驅(qū)…文章全面剖析了AI Agent的技術(shù)演進(jìn)從早期LLM Agent到類Agent模型(OpenAI O1、DeepSeek R1)和真Agent模型(OpenAI DeepResearch)解析了其核心要素(記憶、工具使用、自主規(guī)劃)和面臨的技術(shù)挑戰(zhàn)。文章指出強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的端到端Agent訓(xùn)練成為新趨勢模型即產(chǎn)品和Agent社會(huì)化協(xié)同將引領(lǐng)未來工程化Agent將與端到端Agent模型長期共存。時(shí)間線我們先來回顧一下基于LLM的Agent發(fā)展時(shí)間線LLM的實(shí)質(zhì)性的起源時(shí)間只回溯到2017年的注意力機(jī)制的提出時(shí)間。在2017年前AI的世界一片混沌NLP領(lǐng)域更是停滯在RNN和LSTM止步不前?!度祟惾盒情W耀時(shí)》如果有續(xù)集我認(rèn)為2017年《Attention Is All You Need》的作者應(yīng)當(dāng)在列論文描述的注意力機(jī)制——Transformer架構(gòu)劃破了AI世界的第二個(gè)長夜一個(gè)嶄新的時(shí)代光速開啟。接下來的標(biāo)識(shí)性事件是GPT-3的誕生代碼生成場景GitHub Copilot重新定義了代碼補(bǔ)全?;贕PT 3.5的ChatGPT把通過自然語言聊天的形態(tài)把大模型帶到了普羅大眾面前超越tiktok成為增長最快的app。GPT-4是首個(gè)參數(shù)突破萬億的大模型在2023年GPT-4的性能無敵OpenAI也放慢了繼續(xù)擴(kuò)大模型參數(shù)的路子推出插件系統(tǒng)、GPTs等當(dāng)年業(yè)界大井噴出大量的LLM應(yīng)用開發(fā)框架CoT思維鏈Agent理念的祖師爺ReAct都在那時(shí)候推出OpenAI也把工具使用的能力訓(xùn)練進(jìn)了模型里推出FunctionCall這一年可謂AI agent的白銀時(shí)代。2024年Agent在水底下快速發(fā)展模型的預(yù)訓(xùn)練Scaling Law好像失效了GPT-4停滯不前GPT-5難產(chǎn)O1的出現(xiàn)宣告著訓(xùn)練的路徑要轉(zhuǎn)向了。2025年是后預(yù)訓(xùn)Scaling Law開始生效的時(shí)間蟄伏了兩年多的Agent得以浮出水面而模型側(cè)也因?yàn)閺?qiáng)化學(xué)習(xí)迎來了第二春后訓(xùn)練的Scaling Law。AI Agent是怎樣煉成的AI Agent是大模型應(yīng)用的一種特定形態(tài)在深入理解什么是AI Agent之前我們先直觀理解一下大模型的工作方式文本補(bǔ)全。LLM工作的核心形態(tài)文本補(bǔ)全如下圖所示我們給LLM發(fā)一段文本“下面我將要講一個(gè)故事。在很久很久以前有一個(gè)”大模型會(huì)收到輸入后它會(huì)返回一段文本“小村莊坐落在群山環(huán)換之中。村子里住著。。。省略數(shù)百字”然后結(jié)束了。這就是大模型一次工作的典型表現(xiàn)對(duì)輸入的文本進(jìn)行補(bǔ)全Text Completion這是為什么LLM們的接口都是completion、chat/completion的原因。用戶輸入的部份內(nèi)容稱之為提示詞——Prompt大模型生成的輸出的文本是生成內(nèi)容——Generated Text。整個(gè)核心形態(tài)看似簡單一次輸入輸出。實(shí)際上提示詞與生成內(nèi)容兩端分別是兩個(gè)巨大的領(lǐng)域提示詞工程與模型預(yù)訓(xùn)練。通過提示詞用戶可以讓大模型實(shí)現(xiàn)各種場景的文本生成任務(wù)例如詩歌創(chuàng)作、語言翻譯、代碼生成、廣告文案生成等而提示詞本身的編寫方法和質(zhì)量也會(huì)影響大模型生成內(nèi)容的效果因此如何寫好提示詞是一門綜合性的學(xué)問。另一方面提示詞是通過自然語言來表達(dá)的所以這也造成了大量的非AI科班出身的且非專業(yè)開發(fā)人員投入到了大模型應(yīng)用的開發(fā)浪潮當(dāng)中這個(gè)群體形成了提示詞工程的陣營我們看到的大部份LLM應(yīng)用側(cè)的工作都屬于該陣營?;谝陨蠈?duì)LLM應(yīng)用的了解我們繼續(xù)往下一站了解什么是AI Agent。什么是AI Agent在業(yè)界一度有一個(gè)亂象就是把所有基于大模型的聊天機(jī)器人都統(tǒng)稱為智能體即AI Agent。不管你是一個(gè)角色扮演的應(yīng)用或者通過流程編排出來的一個(gè)大模型工作流還是可以自主決策來去使用工具做任務(wù)的真Agent這些都統(tǒng)稱為AI agent但這其實(shí)是一個(gè)誤區(qū)和懶惰?,F(xiàn)在都說2025年是AI Agent的元年我們很有必要去澄清一下AI Agent它到底是什么。AI agent是基于大模型具備記憶能力、能夠有自主推理和規(guī)劃工具的使用從而來解決問題的智能程序。即AI Agent 大模型 記憶 使用工具 自主規(guī)劃?;诖竽P鸵馕吨梢酝ㄟ^自然語言去交互所以聊天是我們使用AI Agent最直觀感受到的交互方式。多輪對(duì)話與記憶有記憶能力就意味著他能記得跟你過往跟你聊天和互動(dòng)的歷史正因?yàn)槿绱四阕蛲砗湍愕腁I伴侶聊得火熱第二天起來TA也不會(huì)問你你是誰你想干什么AI agent要實(shí)現(xiàn)記憶能力簡單的做法就是把前序的聊天記錄附在提示詞里但很快迎來新的問題聊天記錄多了很容易就導(dǎo)致模型上下文爆token無法繼續(xù)生成隨后又發(fā)展出只取最近N次聊天記錄、只取與當(dāng)前問題相關(guān)的聊天記錄等等手段。單有記憶能支持人機(jī)之間進(jìn)行連續(xù)的多輪對(duì)話還不夠因?yàn)楣庹f不練的也不能叫做Agent。使用工具所以TA必須得懂得用工具。所謂的使用工具就是去訪問各種資源調(diào)度數(shù)據(jù)接口等。例如我們常見到的一種AI聊天的形態(tài)——聯(lián)網(wǎng)搜索你可以把它看成一種使用工具的能力AI把你的問題和該問題在網(wǎng)絡(luò)上相關(guān)的一些內(nèi)容加到一起去讓大模型給你生成答案。話又說回來能使用工具的就是Agent了嗎我們來比較一下元寶聯(lián)網(wǎng)搜索的自動(dòng)擋和手動(dòng)擋。在元寶里面你只要勾選了聯(lián)網(wǎng)的手動(dòng)擋每次你提問他都會(huì)先聯(lián)網(wǎng)查詢再給你回答而聯(lián)網(wǎng)的自動(dòng)擋會(huì)先判斷你這個(gè)問題需不需要更多輔助它解決的信息需要了再去聯(lián)網(wǎng)搜索不需要他就直接回答。同樣是使用工具但手動(dòng)擋表現(xiàn)出來的是固定的工作模式而自動(dòng)擋做法是AI agent的模式它有自己的自主的規(guī)劃和反思過程這是AI Agent的另一個(gè)重要的特征。這個(gè)容后詳述。Function Call回到工具大模型是怎樣使用工具的呢我們都知道大模型是一個(gè)文本模型它只能輸出文本所以實(shí)際上所謂的使用工具只是大模型在文本里說明要使用什么工具LLM的應(yīng)用程序解釋這段文本找到使用工具的信息按照大模型的吩附來執(zhí)行工具的調(diào)用如下圖所示上圖中我們在給大模型的輸入的提示詞內(nèi)容包括可用的工具說明包括工具的功能、接受的參數(shù)明細(xì)等。工具的調(diào)用規(guī)范及示例通過對(duì)工具調(diào)用的規(guī)范進(jìn)行詳細(xì)說明并使用fewshot的技術(shù)來給大模型學(xué)習(xí)一些例子。用戶問題最后是附上用戶的提問。大模型在回復(fù)的時(shí)候會(huì)按照提示詞中的工具調(diào)用規(guī)范返回實(shí)際的工具使用例子在上圖中是一串json格式的配置數(shù)據(jù)表達(dá)了要調(diào)用search_web這個(gè)工具參數(shù)有query和limit兩個(gè)。后來這種教大模型如何返回工具使用命令的工作被OpenAI率先預(yù)訓(xùn)練到模型里面去了并把這個(gè)功能叫Function Call訓(xùn)練到模型去即意味著不需要再通過提示詞指導(dǎo)大模型使用工具了而只需要告知大模型你有什么工具可用即可在OpenAI的接口中通過tools指定可用的工具集。再后來的事大家都知道了主流的大模型都先后效仿openAI支持了function call。MCPMCPModel Context Protocol)是由Anthropic(Claude母公司)在2024年底提出的一種大模型上下文模議目的是讓Agent能夠更方便地發(fā)現(xiàn)和使用來自各處的工具讓Agent能做的事情更多。最早的落地場景是在Cluade的桌面端中使用Claude通過MCP協(xié)議對(duì)用戶計(jì)算機(jī)的文件進(jìn)行讀寫和對(duì)用戶的電腦進(jìn)行操作。MCP隨著AI Agent的出圈也飛速流行起來當(dāng)前已然是一片不MCP無Agent的態(tài)勢國內(nèi)外大模型廠紛紛下場支持MCPMCP成了事實(shí)上的Agent工具使用標(biāo)準(zhǔn)。關(guān)于MCP與大模型Function Call的關(guān)系 經(jīng)常會(huì)被誤讀說MCP是替代Function Call的。但實(shí)際上Function Call和MCP兩者是不同層面的東西甚至反過來說是緊密配合的。如果 一個(gè)模型不具備Function Call或等價(jià)的能力那它就用不了MCP。Function Call是大模型返回調(diào)用工具指令的能力MCP是Agent在工程側(cè)的程序具體執(zhí)行調(diào)用工具的手段一個(gè)是說一個(gè)是做。在有MCP之前Agent收到大模型的Function Call指令后通過各種方法去調(diào)用外部的各種資源和服務(wù)的如要自己實(shí)現(xiàn)讀寫文件查數(shù)據(jù)庫調(diào)搜索接口等等這些方法可以千差萬別開發(fā)過程長成本高。而MCP的出現(xiàn)統(tǒng)一了工程側(cè)調(diào)用工具的規(guī)范它服務(wù)的廠商按照MCP Server的標(biāo)準(zhǔn)提供服務(wù)Agent的程序只需要統(tǒng)一使用call_tool這個(gè)MCP Client的功能來執(zhí)行調(diào)用即可一下子節(jié)省了大量的工具適配的工作。所以MCP不是來代替Function Call的而是幫工程側(cè)調(diào)用外部工具提效的。Function Call是使用工具的基石能力MCP打開了AI Agent連接世界的大門兩者強(qiáng)強(qiáng)聯(lián)合才是提效的真相。自主規(guī)劃與反思上面說過只會(huì)無差別的使用工具是不經(jīng)過事先思考的行為這種LLM應(yīng)用不能被稱之為AI Agent。 自主規(guī)劃和反思甚至自我批評(píng)是AI Agent模擬人類工作方式的體現(xiàn)也是AI Agent的核心要素。規(guī)劃思維鏈CoT思維鏈Chain of Thought簡稱CoTWei等人2022年提出已成為提升大模型處理復(fù)雜任務(wù)性能的事實(shí)上的標(biāo)準(zhǔn)提示詞技術(shù)。人們通過引導(dǎo)模型逐步思考將任務(wù)拆解為多個(gè)更小、更簡單的子步驟從而提供模型的輸出性能。CoT不僅將龐大任務(wù)轉(zhuǎn)化為可管理的分步流程在DeepSeek R1這類推理模型中還為理解模型的推理過程提供了透明化的解讀路徑。除了思維鏈類似的思路還有思維樹Tree of Thoughts ToT和思維圖Graph of ThoughtsGoT。它們都對(duì)CoT進(jìn)行了擴(kuò)展在特定的應(yīng)用場景均有顯著的提升。但是實(shí)際應(yīng)用中CoT是絕對(duì)的主流。反思ReAct反思能力能讓Agent具備迭代出可用答案的可能性。Agent通常不止一次調(diào)用LLM和工具每一次采取行動(dòng)調(diào)用工具后都需要經(jīng)過反思來確定是否做好了不夠好接下來該怎么做。ReActReasoing Acting 由Yao在2023年提出思考框架它指導(dǎo)AI Agent通過思考、行動(dòng)、觀察的循環(huán)來實(shí)成任務(wù)。Agent接到任務(wù)后的工作流程大致如下1、 思考(thought)要解決該問題下一步需要采取什么行動(dòng)。2、 行動(dòng)(action)大模型輸出行動(dòng)指令讓Agent調(diào)用外部工具。3、 觀察(observation)把工具執(zhí)行的結(jié)果給大模型進(jìn)行觀察。4.1、回答(answer)如果工具執(zhí)行的結(jié)果已能得到答案組織語言回答。4.2、如果目前得到的信息仍無法作答進(jìn)入下一次循環(huán)繼續(xù)思考使用工具??雌饋硎遣皇呛芟裨蹅?nèi)祟惖腜DCAPlan Do Check Act的翻版ReAct模式是當(dāng)下AI Agent領(lǐng)域事實(shí)上的工作模式包括基于OpenAI Function Call實(shí)現(xiàn)的Agent在內(nèi)的背后也是同樣的工作模式。只不過使用內(nèi)置的Function Call的方式不需要額外提供提示詞來指導(dǎo)模型行動(dòng)罷了。為什么Agent不WorkAI Agent在大眾看到之前已經(jīng)發(fā)展了兩年多直到最近Manus的爆火才被出現(xiàn)在大家面前根本原因是Agent的可靠性不足上限較低。所以一直還擺不上臺(tái)面僅在有限的場景迭代和落地。實(shí)現(xiàn)一個(gè)Agent不難有開發(fā)經(jīng)驗(yàn)的同學(xué)通過學(xué)習(xí)在一兩天內(nèi)可以開發(fā)出一個(gè)可以運(yùn)行的Agent但要做一個(gè)可用的Agent則還需要大量的工作。判斷一個(gè)Agent是否可用主要取決于具體場景的錯(cuò)誤容忍度和受眾的介入程度。以AI編程為例開發(fā)者對(duì)Agent生成代碼的預(yù)期是“規(guī)模不大的需求代碼生成還不錯(cuò)會(huì)有問題但可以通過反復(fù)溝通去修正最終達(dá)到相對(duì)可接受的結(jié)果”。所以Vibe coding這個(gè)場景火了大量不懂代碼的開發(fā)者誕生了。Deep Research所關(guān)注的研報(bào)場景同理。所以當(dāng)下大家能看到的生產(chǎn)級(jí)別的Agent基本上都有這兩個(gè)特征復(fù)雜度與規(guī)模較低、容錯(cuò)水平高。影響Agent在大規(guī)模復(fù)雜問題上的性能因素是幻覺和記憶管理的挑戰(zhàn)。一定是幻覺大模型是一個(gè)概率模型它生成的內(nèi)容一定的概率是錯(cuò)誤的即我們常說的幻覺。Agent執(zhí)行一次任務(wù)通常需要組合多次大模型的調(diào)用來完成工作在總體的結(jié)果成功率上比單次的大模型調(diào)用會(huì)更加低。例如假設(shè)平均單次調(diào)成大模型生成內(nèi)容的正確率在90%那4次組合調(diào)用后正確率直接下降到60-70% 。記憶管理的難當(dāng)前基于大語言模型的Agent普遍面臨記憶困境這種困境源于大模型自身的無狀態(tài)特性與人類認(rèn)知過程中持續(xù)演進(jìn)的記憶機(jī)制之間的本質(zhì)差異。傳統(tǒng)采用簡單對(duì)話歷史堆砌的偽記憶實(shí)現(xiàn)方式在應(yīng)對(duì)需要長期記憶保持、復(fù)雜知識(shí)關(guān)聯(lián)和動(dòng)態(tài)經(jīng)驗(yàn)積累的場景時(shí)暴露出一系列結(jié)構(gòu)性矛盾。上下文窗口的限制當(dāng)前主流大模型的上下文處理能力受限于固定長度的窗口機(jī)制如GPT-4的32k tokens。這種物理限制導(dǎo)致對(duì)話輪次或任務(wù)復(fù)雜度超過窗口容量時(shí)必然發(fā)生歷史信息截?cái)嘣斐申P(guān)鍵記憶丟失其次隨著上下文長度增加模型處理效率呈指數(shù)級(jí)下降。這種矛盾在需要長期任務(wù)追蹤的場景如連續(xù)多日項(xiàng)目管理中尤為突出。大模型廠商不斷推出支持更大size上下文的模型截止發(fā)稿為止最大的上下文是Meta的Llama scout 1000萬token。超長上下文的注意力有效性衰減盡管上下的尺寸越來越大甚至能塞下全集的哈里波特了但是超長上下文注意力的準(zhǔn)確性又成了另一個(gè)問題。Transformer架構(gòu)的自注意力機(jī)制雖然賦予了模型強(qiáng)大的上下文關(guān)聯(lián)能力但其計(jì)算復(fù)雜度O(n2)的特性導(dǎo)致隨著上下文長度擴(kuò)展有效注意力的分布呈現(xiàn)顯著稀釋效應(yīng)。根據(jù)ICLR 2023的研究成果在16k tokens的上下文長度下模型對(duì)前20%輸入內(nèi)容的注意力權(quán)重占比超過65%而對(duì)后20%內(nèi)容的注意力權(quán)重不足8%。這種近因偏好現(xiàn)象使得早期關(guān)鍵信息容易被后續(xù)內(nèi)容覆蓋導(dǎo)致記憶保持的時(shí)序穩(wěn)定性問題。更嚴(yán)重的是當(dāng)處理超長文檔如百頁技術(shù)手冊時(shí)模型可能陷入注意力渙散狀態(tài)出現(xiàn)關(guān)鍵信息漏讀或誤讀。Google的BigBird和DeepSeek的NSA(Native Sparse Attention)都在致力于解決這個(gè)問題。相關(guān)記憶的準(zhǔn)召問題既然暴力的強(qiáng)塞所有的聊天記錄不行那就換一種思路吧只取跟當(dāng)前問題有關(guān)聯(lián)的聊天記錄總可以了吧我們把聊天記錄存在向量數(shù)據(jù)庫中通過向量檢查召回關(guān)聯(lián)的內(nèi)容實(shí)現(xiàn)按需注入歷史。然而向量數(shù)據(jù)庫的召回也是一個(gè)龐大復(fù)雜的工程RAG中的R召回?cái)?shù)據(jù)的準(zhǔn)確與否直接決定了大模型回答的質(zhì)量。為了提升準(zhǔn)召率RAG一路發(fā)展到基于知識(shí)圖譜的RAG又到了今天的Agentic RAG仍然沒有到頭。有辦法方法總比問題多嘛既然知道agent面臨著怎樣的挑戰(zhàn)就給出針對(duì)性的解決方案吧。為了提升agent的性能業(yè)界提出了各種解決方案總結(jié)起來有3大類?!?引入workflow使用固化的工作流程來提升確定性但同時(shí)犧牲掉靈活性?!?在ReAct框架的基礎(chǔ)上做工程側(cè)的極致優(yōu)化● 引入多agent效仿人類團(tuán)隊(duì)協(xié)作突破單agent的極限發(fā)揮群集智慧。workflow的第二春AI Agent不穩(wěn)定那我們來固化工作流程讓AI在必要的時(shí)候工作就好這個(gè)解題思路引出了AI workflow的技術(shù)形態(tài)。從技術(shù)演進(jìn)視角來看Workflow本質(zhì)上是將低代碼開發(fā)框架與LLM相結(jié)合的產(chǎn)物舊瓶裝新酒。其在大模型時(shí)代的流行主要源于兩個(gè)關(guān)鍵因素首先當(dāng)前開發(fā)范式已從傳統(tǒng)編碼轉(zhuǎn)向提示詞工程開發(fā)者需要高頻迭代提示詞而非底層代碼其次可視化流程編排顯著降低了調(diào)試門檻使非技術(shù)背景人員也能通過直觀界面完成AI能力集成?,F(xiàn)有Workflow更多是業(yè)務(wù)邏輯的標(biāo)準(zhǔn)化封裝AI僅作為模塊化組件服務(wù)于特定環(huán)節(jié)。這種架構(gòu)雖提升了開發(fā)效率但也存在本質(zhì)局限——既無法實(shí)現(xiàn)智能體Agent的自主推理能力也難以支撐復(fù)雜場景的端到端智能化。簡單來說workflow本身不是AI Agent但基于workflow實(shí)現(xiàn)的功能可又作為Agent的工具作為Agent的有機(jī)組成部份。Beyond ReAct****Agent之前說過ReAct Agent是當(dāng)下主流Agent的思考與行動(dòng)框架但ReAct本身也有著很多的缺點(diǎn)走一步看一步缺乏全盤規(guī)劃。每次的思考與決策需要依賴上一次工具的輸出結(jié)果。串行調(diào)度工具每次工具調(diào)用都跟隨著一次LLM的調(diào)用沒能靈活高效的對(duì)工具的調(diào)度進(jìn)行優(yōu)化。所有工具的執(zhí)行結(jié)果都會(huì)追加到大模型的上下文中供觀察使用經(jīng)過多次的工具調(diào)用來回后很容易就觸發(fā)上下文限制任務(wù)以失敗告終。針對(duì)這些缺點(diǎn)業(yè)界的優(yōu)化方式也是五花八門以下舉一些代表性的例子plan and execute該思路主要受到Plan-and-Solve論文和Baby-AGI項(xiàng)目的啟發(fā)其核心工作流程包含三個(gè)階段● 規(guī)劃階段 首先生成一個(gè)全盤的多步驟的詳細(xì)行動(dòng)計(jì)劃● 執(zhí)行階段 按順序執(zhí)行每個(gè)計(jì)劃步驟返回結(jié)果● 重規(guī)劃階段根據(jù)執(zhí)行結(jié)果動(dòng)態(tài)調(diào)整計(jì)劃或返回這種模式引入了全盤規(guī)劃且子任務(wù)的執(zhí)行分拆到Single-Task Agent上執(zhí)行避免了Token在同一個(gè)LLM會(huì)話上下文中堆積降低爆Token的可能性。manus的Agent顯然是借鑒了這種Agent先生成任務(wù)的清單再對(duì)著清單逐個(gè)執(zhí)行但似乎并沒有看到manus有重新規(guī)劃這個(gè)步驟。ReWooReWOO Reasoning WithOut Observation 是一種創(chuàng)新的增強(qiáng)語言模型ALM框架旨在通過 模塊化設(shè)計(jì) 顯著提升多步推理任務(wù)的效率與性能。傳統(tǒng)ALM如ReAct依賴交替的“推理-工具調(diào)用-觀察”流程導(dǎo)致大量上下文重復(fù)輸入和計(jì)算資源浪費(fèi)。ReWOO突破性地將任務(wù)分解為三個(gè)獨(dú)立模塊● Planner規(guī)劃器 基于大型語言模型LLM的推理能力預(yù)先生成任務(wù)藍(lán)圖規(guī)劃多步推理路徑如調(diào)用工具的順序與邏輯無需等待工具實(shí)時(shí)反饋?!?Worker執(zhí)行器 根據(jù)藍(lán)圖并行調(diào)用外部工具如搜索引擎、計(jì)算器、數(shù)據(jù)庫高效收集證據(jù)?!?Solver求解器 綜合規(guī)劃與證據(jù)生成最終答案具備糾錯(cuò)與總結(jié)能力。ReWOO最顯著的特點(diǎn)是擁有一個(gè)獨(dú)立的Solver求解器模塊專門負(fù)責(zé)綜合規(guī)劃結(jié)果和工具執(zhí)行證據(jù)生成最終答案。在worker的執(zhí)行過程中 ReWOO不去觀察Observation工具返回的結(jié)果可以減少token的使用及調(diào)用LLM的次數(shù)。ReWOO與Plan and Execute相比有兩個(gè)差異● worker的任務(wù)執(zhí)行更多是工具執(zhí)行不需要額外的LLM來驅(qū)動(dòng)?!?沒有重新規(guī)劃的過程。LLm CompilerLLMCompiler專為優(yōu)化大語言模型LLM的多工具協(xié)作效率而設(shè)計(jì)的框架。針對(duì)傳統(tǒng)方法如ReAct因順序執(zhí)行函數(shù)調(diào)用導(dǎo)致的延遲高、成本大、準(zhǔn)確率受限等問題LLMCompiler 創(chuàng)新性地引入編譯器式任務(wù)編排通過并行化與動(dòng)態(tài)規(guī)劃顯著提升LLM在復(fù)雜任務(wù)中的表現(xiàn)。其核心架構(gòu)● 智能規(guī)劃器Planner將用戶查詢解析為帶依賴關(guān)系的任務(wù)DAG識(shí)別可并行執(zhí)行的函數(shù)調(diào)用如并行的網(wǎng)絡(luò)搜索與數(shù)學(xué)計(jì)算?!?動(dòng)態(tài)調(diào)度器Task Fetching Unit實(shí)時(shí)替換占位變量、分發(fā)獨(dú)立任務(wù)最大化并行資源利用率?!?異步執(zhí)行器Executor通過工具API并發(fā)執(zhí)行任務(wù)支持自定義工具如搜索引擎、計(jì)算器、API代理。LLMCompiler同樣是提前做DAG規(guī)劃它通過任務(wù)依賴關(guān)系來對(duì)任務(wù)進(jìn)行并行調(diào)度還可以根據(jù)結(jié)果進(jìn)行重新規(guī)則。多Agent人類社會(huì)有一句話“獨(dú)行快眾行遠(yuǎn)”指的是如果要走得更遠(yuǎn)需要團(tuán)隊(duì)合作。在Agent的世界單個(gè)Agent在簡單任務(wù)方面的表達(dá)已經(jīng)不錯(cuò)但復(fù)雜的以及上規(guī)模的任務(wù)中的表現(xiàn)卻乏善可陳。于是我們不由得去向人類的協(xié)同方式學(xué)習(xí)讓Agent組成團(tuán)隊(duì)復(fù)刻人類的協(xié)同方式看是否能夠提升性能。多Agent的形態(tài)根據(jù)多Agent的應(yīng)用場景我把多Agent的產(chǎn)品形態(tài)分為社會(huì)協(xié)同模擬型與任務(wù)導(dǎo)向型 。社會(huì)協(xié)同模擬型類如“斯坦福小鎮(zhèn)”這一種agent社會(huì)化實(shí)驗(yàn)性的形態(tài)稱為社會(huì)協(xié)同模型型這類產(chǎn)品不設(shè)定具體的任務(wù)讓Agent來實(shí)現(xiàn)而是提供了一個(gè)開放性的運(yùn)行環(huán)境讓Agent自發(fā)地去協(xié)同和產(chǎn)生可能的“化學(xué)反應(yīng)”用于對(duì)Agent社會(huì)化協(xié)同的學(xué)習(xí)與研究。任務(wù)導(dǎo)向型另一種多agent的形態(tài)是目的性很明確的有清晰的目標(biāo)和標(biāo)準(zhǔn)的操作流程SOP)典型的代表如軟件開發(fā)過程、較大篇幅的內(nèi)容如論文、小說等的創(chuàng)作。MetaGPT是此類型多Agent的代表框架它通過拆解軟件開發(fā)的標(biāo)準(zhǔn)流程為每個(gè)過程設(shè)定不同的角色來完成對(duì)應(yīng)的任務(wù)最終實(shí)現(xiàn)一個(gè)軟件的開完任務(wù)。開發(fā)框架MetaGPT基于多智能體協(xié)作的軟件開發(fā)框架通過模擬軟件公司角色分工產(chǎn)品經(jīng)理/工程師等將標(biāo)準(zhǔn)操作程序SOP編碼為智能體協(xié)作流程支持從需求分析到代碼生成的全生命周期自動(dòng)化開發(fā)尤其擅長結(jié)構(gòu)化輸出文檔與代碼。AutoGen微軟推出的多智能體對(duì)話框架支持定制化代理角色與自然語言交互通過模塊化設(shè)計(jì)簡化復(fù)雜任務(wù)編排可無縫集成LLM和工具鏈其核心優(yōu)勢在于實(shí)現(xiàn)人機(jī)混合協(xié)作與自動(dòng)化工作流特別適合需動(dòng)態(tài)決策的場景。CrewAI開源協(xié)作型智能體框架強(qiáng)調(diào)角色扮演與團(tuán)隊(duì)化任務(wù)管理支持自定義代理角色、任務(wù)委派及流程控制順序/層級(jí)模式提供工具集成與知識(shí)沉淀機(jī)制適合構(gòu)建需要明確分工的多代理協(xié)作系統(tǒng)如市場分析/項(xiàng)目管理。SwarmOpenAI實(shí)驗(yàn)性輕量級(jí)框架聚焦智能體間的動(dòng)態(tài)任務(wù)交接Handoffs通過函數(shù)調(diào)用實(shí)現(xiàn)執(zhí)行權(quán)轉(zhuǎn)移保持高度可控性與透明性與Chat Completions API深度整合適合需細(xì)粒度控制的小規(guī)模多代理交互場景。當(dāng)然langchain和langgraph這類框架同樣是可以用于搭建多agent的沒把它們列在上面僅僅是因?yàn)檫@兩個(gè)框架它的普適性更廣不是專為多agent而專門提供的。協(xié)同架構(gòu)langgraph把多Agent的協(xié)同架構(gòu)做了一下匯總除了自定義架構(gòu)大致有以下幾種類型Network網(wǎng)狀網(wǎng)狀架構(gòu)允許每個(gè)Agent間互相通訊該架構(gòu)的自由度高但可控性差適用于社會(huì)協(xié)同模擬型的Agent形態(tài)。supervisor監(jiān)督者該架構(gòu)有一個(gè)管理者Agent其他所有Agent之間不能直接溝通只能與管理者Agent進(jìn)行溝通。這種架構(gòu)適用于對(duì)任務(wù)導(dǎo)向型的多Agent形態(tài)可控性較高但管理者Agent的智能程度會(huì)成為整個(gè)多Agent網(wǎng)絡(luò)的瓶頸。a. supervisor的結(jié)構(gòu)看起來還跟單Agent的結(jié)構(gòu)很相似實(shí)際上把非管理者Agent看成一個(gè)個(gè)工具的話它就等同于一個(gè)單Agent即圖中的supervisor(as tools)的結(jié)構(gòu)。b. 所以多Agent并不神秘你在以前做單Agent的時(shí)候極有可能就已經(jīng)實(shí)現(xiàn)過as tools這種supervisor架構(gòu)的多Agent應(yīng)用了。上面plan and execute中描述的形態(tài)也可以視為一種多Agent。Hierarchial層級(jí)監(jiān)督者層級(jí)監(jiān)督者是由多個(gè)監(jiān)督者網(wǎng)絡(luò)進(jìn)行堆疊而成的如果把監(jiān)督者網(wǎng)絡(luò)看成一個(gè)小組由一個(gè)組長帶領(lǐng)多個(gè)組員那層級(jí)監(jiān)督者網(wǎng)絡(luò)則更大的的組織例如是一個(gè)中心甚至是部門業(yè)務(wù)線等。Agentic Workflowagentic workflow最早由吳恩達(dá)提出。簡而言之它的目標(biāo)是解決復(fù)雜任務(wù)通過分解任務(wù)、多角色Agent協(xié)同、迭代改進(jìn)的手段來實(shí)現(xiàn)。它有以下四大機(jī)制● 工具調(diào)用(Tool Use)● 多 Agent 協(xié)作Multi-agent● 規(guī)劃能力Planning● 反思機(jī)制Reflection光看上面的描述定義是相當(dāng)?shù)哪:奈覀兡蒙衔闹谐霈F(xiàn)過的LLM應(yīng)用和Agent來對(duì)比一下以便進(jìn)一步理解agentic workflow。與“plan and execute“ agent的區(qū)別上面講的Plan and Execute形態(tài)的Agent看起來就具備”分解任務(wù)”、 “子任務(wù)執(zhí)行Agent”、“迭代改進(jìn)”等等環(huán)節(jié)其中子任務(wù)執(zhí)行Agent是一個(gè)通用的執(zhí)行者負(fù)責(zé)遍歷任務(wù)并執(zhí)行。而Agentic workflow對(duì)任務(wù)執(zhí)行的要求是由不同角色的Agent來執(zhí)行不同性質(zhì)的任務(wù)哪個(gè)角色應(yīng)該執(zhí)行什么任務(wù)。所以如果把plan and execute模式升級(jí)一下定義多個(gè)特定職能的Agent作為子任務(wù)的執(zhí)行者有針對(duì)性的選擇任務(wù)來執(zhí)行可以得到近似agentic workflow的效果。與workflow LLM的區(qū)別它和“workflow的第二春”中說的workflow LLM又有什么區(qū)別呢從幾個(gè)維度來對(duì)比1). 動(dòng)態(tài)規(guī)劃能力Agentic Workflow通過 AI Agent 的推理能力動(dòng)態(tài)分解復(fù)雜任務(wù)任務(wù)分解模式并根據(jù)環(huán)境反饋調(diào)整執(zhí)行路徑。Workflow LLMLLM 僅作為靜態(tài)模塊嵌入預(yù)定義流程。2). 自我迭代優(yōu)化Agentic Workflow引入反思模式Reflection通過執(zhí)行結(jié)果評(píng)估和策略校準(zhǔn)形成閉環(huán)。Workflow LLM缺乏反饋循環(huán)輸出質(zhì)量依賴單次提示效果無法自我優(yōu)化。3). 執(zhí)行主體性質(zhì)Agentic Workflow以 AI Agent 為核心具備長期記憶如向量數(shù)據(jù)庫存儲(chǔ)用戶畫像和工具調(diào)用權(quán)限如 API、搜索引擎形成類人認(rèn)知架構(gòu)。Workflow LLMLLM 作為流程中的“工具人”僅處理特定環(huán)節(jié)如文本生成無自主決策權(quán)。4). 任務(wù)協(xié)作模式Agentic Workflow支持多 Agent 協(xié)同如數(shù)據(jù)分析 Agent 與優(yōu)惠優(yōu)化 Agent 聯(lián)動(dòng)通過信息傳遞形成集體智能。Workflow LLM流程由人工預(yù)先編排各模塊獨(dú)立運(yùn)行缺乏動(dòng)態(tài)協(xié)作。5). 小結(jié)Agentic Workflow是由AI Agent集體動(dòng)態(tài)生成并可隨機(jī)變動(dòng)的協(xié)作流程而workflow LLM中的workflow是一種由開發(fā)者定義的靜態(tài)工作流。示例分析下圖所描述的是一個(gè)通過CrewAI實(shí)現(xiàn)的多agent智能化的客戶優(yōu)惠推薦系統(tǒng)。藍(lán)色部份是定義了一種工作流程及每個(gè)節(jié)點(diǎn)的任務(wù)提取購買記錄基于用戶ID和時(shí)間范圍查詢數(shù)據(jù)。匹配最優(yōu)優(yōu)惠通過SQL連接JOIN購買記錄與優(yōu)惠表按折扣排序。生成通知文案整合優(yōu)惠信息添加表情符號(hào)生成吸引人的消息。綠色部份是定義了三種不同職能的Agent購買歷史分析Agent編寫SQL查詢客戶購買記錄。優(yōu)惠管理Agent結(jié)合購買歷史與優(yōu)惠表篩選最優(yōu)折扣。創(chuàng)意文案Agent生成個(gè)性化優(yōu)惠通知。工作流程CrewAI框架協(xié)調(diào)Agent們執(zhí)行任務(wù)輸出最終優(yōu)惠通知。CrewAI在任務(wù)的調(diào)度模式上有兩種一種順序執(zhí)行(sequential)一種是層級(jí)模式(hierarchical)后者由一個(gè)管理者LLM來動(dòng)態(tài)調(diào)度執(zhí)行。竊以為hierarchical模式才是真正意義上的agentic workflow因?yàn)楣ぷ髁魇莿?dòng)態(tài)的可通過反思機(jī)制進(jìn)行實(shí)時(shí)調(diào)整的是由管理者LLM來自主決定的。而順序執(zhí)行的模式和workflow LLM的模型沒有本質(zhì)的區(qū)別。Why Do Multi-Agent LLM Systems Fail?多Agent看起來很美但在實(shí)際的落地過程卻也有一地雞毛的時(shí)候加州大學(xué)伯克利分校等機(jī)構(gòu)經(jīng)過研究發(fā)表的《Why Do Multi-agent LLM Systems Fail》的論文指出了多Agent架構(gòu)失敗的原因系統(tǒng)設(shè)計(jì)與規(guī)范問題占37.2%核心問題架構(gòu)設(shè)計(jì)缺陷、角色定義模糊、對(duì)話流程管理不當(dāng)?!?違反任務(wù)規(guī)范智能體未遵循任務(wù)約束● 角色越權(quán)智能體超出職責(zé)范圍如CPO擅自定義產(chǎn)品愿景?!?步驟重復(fù)冗余步驟導(dǎo)致效率低下?!?對(duì)話歷史丟失上下文截?cái)嘁l(fā)邏輯斷裂?!?終止條件不明確無法判斷任務(wù)何時(shí)完成。智能體間協(xié)作錯(cuò)位占31.4%核心問題溝通機(jī)制低效、信息共享不足、協(xié)作流程失控?!?對(duì)話重置意外重啟對(duì)話導(dǎo)致進(jìn)展丟失。● 信息隱瞞關(guān)鍵數(shù)據(jù)未共享如手機(jī)代理未告知API格式要求?!?任務(wù)偏離討論偏離核心目標(biāo)如32%的任務(wù)因跑題失敗?!?推理-行動(dòng)不匹配邏輯推理與執(zhí)行行為矛盾。任務(wù)驗(yàn)證與終止問題占31.4%核心問題驗(yàn)證機(jī)制缺失或低效、過早終止任務(wù)?!?過早終止未完成必要步驟即結(jié)束如棋類游戲未驗(yàn)證規(guī)則。● 驗(yàn)證不完整僅檢查表面問題如代碼編譯通過但功能錯(cuò)誤。● 錯(cuò)誤驗(yàn)證驗(yàn)證邏輯存在缺陷如接受非法棋步輸入。從智能體間協(xié)作錯(cuò)位中可以看到多agent不僅復(fù)刻了人類協(xié)同的形態(tài)還把人與人溝通的壞毛病也學(xué)習(xí)了會(huì)隱瞞跑題和知行不一。中場戰(zhàn)事推理“類Agent“的崛起上面工程側(cè)為了Agent輸出更好的性能想盡了辦法極致壓榨。模型側(cè)也沒閑著也一直在探尋著新的Scaling Law。OpenAI推出了推理模型O1它的工作方式是在輸出內(nèi)容前先進(jìn)行一次內(nèi)部思考(推理)然后再基于思考的結(jié)論來組織回答。這種分段式的生成像極了agent的工作方式所以我對(duì)O1的第一反應(yīng)是openAI搞了個(gè)推理的agent大模型Scaling Law到頭了改搞工程agent了后來看到技術(shù)實(shí)現(xiàn)才得知O1是強(qiáng)化學(xué)習(xí)的產(chǎn)物O1仍然是一個(gè)模型但它像agent一樣工作的模式以致我在后來把它們稱為類agent模型。猶抱琵琶半遮臉的O1O1剛出來的時(shí)候推理的過程是完全不可見的一個(gè)Loading轉(zhuǎn)了幾分鐘看不到里面發(fā)生了什么。OpenAI是這樣解釋原因的技術(shù)權(quán)衡思維鏈的忠實(shí)性和可讀性是監(jiān)控模型推理過程的前提但若在思維鏈上加入政策合規(guī)性或用戶偏好的訓(xùn)練會(huì)破壞其有效性。因此OpenAI選擇不向用戶展示原始思維鏈以避免潛在的干擾。競爭優(yōu)勢隱藏推理細(xì)節(jié)可保護(hù)核心技術(shù)不被競爭對(duì)手模仿尤其是在模型邏輯推理能力顯著超越同行的背景下。用戶體驗(yàn)優(yōu)化原始思維鏈可能包含冗長且復(fù)雜的中間步驟直接展示會(huì)影響交互效率。OpenAI轉(zhuǎn)而提供模型生成的思維鏈摘要以更簡潔的方式呈現(xiàn)推理結(jié)果。掀桌子的DeepSeek R1DeepSeek是配得上偉大這樣的贊譽(yù)的。DeepSeek R1以更高的性能、低一個(gè)數(shù)量級(jí)的成本、開源的方式打臉了O1掀翻了桌子。R1發(fā)布即公開了推理過程思維鏈的全部內(nèi)容。DeepSeek成了真正的“OpenAI”。DeepSeek公開了R1的訓(xùn)練技術(shù)細(xì)節(jié)● R1-Zero版本完全摒棄監(jiān)督微調(diào)通過多目標(biāo)強(qiáng)化學(xué)習(xí)創(chuàng)新的GRPO算法整合準(zhǔn)確性、推理速度與資源消耗指標(biāo)。其中GRPO算法可以降低對(duì)標(biāo)注數(shù)據(jù)的依賴大大降低了訓(xùn)練成本?!?但由于R1-Zero存在思維鏈的可讀性問題在R1的正式版的訓(xùn)練時(shí)分拆成了兩次的SFTRL的步驟○ 加入了一些冷啟動(dòng)數(shù)據(jù)思維鏈內(nèi)容對(duì)V3進(jìn)行有監(jiān)督微調(diào)再強(qiáng)化學(xué)習(xí)得到較好的思維鏈可讀效果○ 基于上一個(gè)Checkpoint模型生成60萬條思維鏈內(nèi)容再加上20萬條生成的的示例數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)最后通過強(qiáng)化學(xué)習(xí)進(jìn)行對(duì)齊得到R1。過程如下圖所示強(qiáng)化學(xué)習(xí)是后訓(xùn)練的Scaling Law如果拋開思維鏈的可讀性不談R1-Zero已經(jīng)是一個(gè)高性能的推理模型在Zero的訓(xùn)練細(xì)節(jié)上我們看到只需要強(qiáng)化學(xué)習(xí)就夠了。R1-Zero向我們傳遞了一個(gè)最重要的信息有針對(duì)性的強(qiáng)化學(xué)習(xí)訓(xùn)練的效果可能優(yōu)于單純增加大模型參數(shù)量做預(yù)訓(xùn)練的效果這也是OpenAI O1背后的秘密。OpenAI看起來已經(jīng)放棄了更大規(guī)模參數(shù)預(yù)訓(xùn)練模型的路子而全面轉(zhuǎn)向了后訓(xùn)練強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)是新的Scaling Law。強(qiáng)化學(xué)習(xí)它不算是一種新技術(shù)了它原理是通過生成結(jié)果對(duì)模型進(jìn)行的獎(jiǎng)勵(lì)和懲罰反饋?zhàn)屇P驮跓o數(shù)次的生成和反饋中調(diào)整和優(yōu)化并找到最有效的工作方式而不需要教模型怎么做。O1首先驗(yàn)證了新的訓(xùn)練路徑R1把全部的細(xì)節(jié)公諸于眾一時(shí)間強(qiáng)化學(xué)習(xí)訓(xùn)練成了大模型廠商們的Next。Claude sonnet 3.7跟上了節(jié)奏推出推理版并針對(duì)復(fù)雜的代碼問題進(jìn)行了強(qiáng)化學(xué)習(xí)在生成代碼方面性能較sonnet 3.5有顯著提升openAI 推出的DeepResearch就是基于O3端到端訓(xùn)練的Agent模型。產(chǎn)品的R1“后遺癥“DeepSeek R1在2025年的春節(jié)期間爆火出圈成了國民級(jí)的AI應(yīng)用。R1的交互簡單樸素先是輸出一大段思考過程再生成最終的答案輸出推理的過程讓用戶避免了漫長的等待在正式答案出來之前閱讀一下推理過程也是一件有意思的事。R1的產(chǎn)品交互也瞬間成為了教科書級(jí)別的范例。它的兩階段輸出的形態(tài)正快速統(tǒng)一Agent們的輸出行為。R1前Agent輸出招式Agent不像LLM能快速地開始輸出答案Agent通常有一系列的中間工作步驟到最后一步才會(huì)輸出給用戶的答案而這中間會(huì)有頗長的一段等待時(shí)間為了緩解用戶在等待過程的焦慮和優(yōu)化等待體現(xiàn)Agent們都很努力在嘗試把中間過程也通過各種方式輸出給用戶例如ChatGPT是這樣的dify是這樣的我們的FoT Agent是這樣的然而這些努力并沒有什么作用Agent的用戶們對(duì)這些輸出的中間過程并不買單抱怨看不懂出結(jié)果又慢。R1后的統(tǒng)一“深度思考”R1出來后Agent產(chǎn)品們除了在模型層面光速接入DeepSeek之外在產(chǎn)品交互也是象素級(jí)的致敬著R1。例如我們的媒資助手Agent是一個(gè)基于DeepSeek V3的ReAct Agent它把ReAct每一步思考Thought的過程組裝起來偽裝成深度思考的過程看起來毫無違和感還有微信讀書的AI問書、微信輸入法的問AI底層的架構(gòu)是基于小size的QWen模型做了SFT的Agent Deepseek R1做最終解讀而在交互層也是把Agent的工作過程和R1的思考融合呈現(xiàn)到深度思考的內(nèi)容里了不再有花哨的loading和中間步驟的結(jié)構(gòu)化呈現(xiàn)過程只剩下樸實(shí)無華的“深度思考”樣式的過程文本也貌似讓原來挑剔無比的用戶滿意了感謝偉大的DeepSeek端的是一個(gè)大道至簡大巧不工啊哈哈。下半場模型即產(chǎn)品與Agent社會(huì)化協(xié)同我把OpenAI的Deep Research問世看作AI Agent下半場開始的標(biāo)記性事件。Agent正式進(jìn)入模型內(nèi)化的新階段。沿著中場戰(zhàn)事的推理“類Agent”模型同樣的進(jìn)化路子Deep Research基于O3通過端到端的強(qiáng)化學(xué)習(xí)得到了一個(gè)真.Agent模型。模型即產(chǎn)品Deep Research這個(gè)真.Agent有兩個(gè)特點(diǎn)端到端訓(xùn)練就是它的訓(xùn)練是全鏈路的對(duì)于做研報(bào)這個(gè)場景從拿到問題、使用網(wǎng)絡(luò)搜索工具、多輪驗(yàn)證重做到最終輸出完整的研報(bào)的整個(gè)鏈路都在訓(xùn)練范圍內(nèi)。它不再像過去只讓模型針對(duì)問題只做一次的文本輸出。Agent模型對(duì)Deep Research的工作形式是一個(gè)Agent但技術(shù)上它是以一個(gè)模型出現(xiàn)的。在此之前我們基于常規(guī)的LLM也可以做Deep Research這類型的工作那就是寫代碼開發(fā)一個(gè)Agent大家可以看到現(xiàn)在有很多開源版的Deep Research這需要在工程側(cè)來發(fā)力。但現(xiàn)在OpenAI的Deep Research告訴大家原來工程上要做的事情現(xiàn)在不需要了我們只需要通過強(qiáng)化學(xué)習(xí)就可以讓模型本身掌握原來要用工程來控制的工作方式同時(shí)還能達(dá)到更高的質(zhì)量。即工程復(fù)雜度沒了效果還更好了。對(duì)比一下O1和Deep Research:● O1推理模通過強(qiáng)化訓(xùn)練“推理”能力推理能力得到了質(zhì)的飛躍● Deep Research通過強(qiáng)化訓(xùn)練“做研報(bào)”的過程包括使用搜索工具和質(zhì)量得到了一個(gè)做高質(zhì)量研報(bào)的Agent。嗯AI Agent下半場的玩法變了你想要什么樣的Agent通過強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)Agent模型而不一定要通過編寫工程代碼來實(shí)現(xiàn)它而這個(gè)Agent模型就是一個(gè)產(chǎn)品。這就是最近流行起來的一個(gè)說法模型即產(chǎn)品。說的是未來針對(duì)場景化的產(chǎn)品需求可以基于大模型通過強(qiáng)化學(xué)習(xí)對(duì)場景進(jìn)行訓(xùn)練最終交付一個(gè)Agent模型作為產(chǎn)品不再區(qū)分什么模型層應(yīng)用層而是模應(yīng)一體了。就在前兩周OpenAI的O3也正式發(fā)布O3表現(xiàn)出來的則是一個(gè)比Deep Research更通用的Agent模型。這進(jìn)一步指明了Agent模型化、模應(yīng)一體化的道路。工程化Agent的生存空間如果AI Agent的下半場是面向場景的端到端Agent模型的戰(zhàn)場那原來通過工程化手段做的Agent是否還有生存空間呢答案是確定的在接下來的一段時(shí)間內(nèi)至少兩年三種形態(tài)的Agent會(huì)持續(xù)共存純工程Agent即由提示詞工程加代碼實(shí)現(xiàn)Agent在產(chǎn)品的MVP階段用于快速驗(yàn)證產(chǎn)品或產(chǎn)品流量不大對(duì)Token成本不敏感的場景適合用這種方式落地。它的實(shí)現(xiàn)門檻低包括技術(shù)實(shí)現(xiàn)和成本都一樣甚至通過當(dāng)下流行的可視化Agent搭建平臺(tái)不用寫代碼就可以快速搭建起來。SFT Agent指針對(duì)Agent的行為包括但不限規(guī)劃和反思能力等進(jìn)行了有監(jiān)督微調(diào)——目的是讓指令跟隨相對(duì)更穩(wěn)定、節(jié)省提示詞成本。實(shí)際上節(jié)省提示詞成本是做SFT Agent的最大的動(dòng)機(jī)相比起提示詞token成本的下降微調(diào)帶來的指令跟隨穩(wěn)定性的提升可能沒那么顯著這也是吳恩達(dá)一直說絕大多數(shù)Agent應(yīng)用都能通過提示詞來解決的原因。所以SFT Agent較為適用于大流量但工具需要支持動(dòng)態(tài)添加的場景。端到端Agent模型即針對(duì)垂直場景通過端到端強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練的模型。它適用于大流量且需求明確垂直的場景。Agent才剛剛進(jìn)入大眾的視野在技術(shù)和生態(tài)側(cè)隨著MCP和A2A等協(xié)議的成熟及智能體生態(tài)的發(fā)展Agent的進(jìn)化會(huì)進(jìn)一步加速有更多的可能性在等待著我們。Agent的社會(huì)化協(xié)同以及A2A為代表的Agent間協(xié)同協(xié)議拉開了Agent社會(huì)化協(xié)同的大幕。之前我們提的多agent和agentic workflo中的agent們的通訊就如果我們在一個(gè)小團(tuán)隊(duì)里面緊密協(xié)同那樣。而Google提出的A2A協(xié)議把Agent之間的協(xié)同范圍一下子提升到了全球的范圍它為每個(gè)Agent派發(fā)了身份證AgentCard在經(jīng)過認(rèn)識(shí)、握手后鑒權(quán)Agent們可以進(jìn)行溝通和協(xié)作。展開想象一下● 每個(gè)人都配套一個(gè)人個(gè)的Agent用于代表你跟Agent的世界來交互這個(gè)場景就很好玩了跟朋友們約出去玩讓咱們的Agent們先商量一下給我們一個(gè)方案● 買機(jī)票我也不需要直接用某程的平臺(tái)只需要交代我的專屬Agent它自動(dòng)發(fā)現(xiàn)和跟服務(wù)商的Agent機(jī)構(gòu)Agent來溝通并支付就OK了?!?你看一個(gè)賽博數(shù)字世界就這么展開了。我愿把這種場面稱之為Agent的社會(huì)化協(xié)同它將最大程度上復(fù)刻人類社會(huì)的形同范式Agent間需要有驗(yàn)證機(jī)制能互相加好友具備支付能力能主動(dòng)發(fā)起任務(wù)等等。技術(shù)上這將有模型技術(shù)之外的海量的agent社會(huì)基礎(chǔ)平臺(tái)等著被搭建。包括Agent通訊的安全、信用、支付體系等等。致親愛的乘客做AI的領(lǐng)導(dǎo)者AI正在對(duì)全行業(yè)進(jìn)行無差別的顛覆所有人都面臨著工作方式的升級(jí)。不是說有全新職業(yè)的出現(xiàn)而是大部份職業(yè)都會(huì)被要求原地升級(jí) AI。我們每個(gè)人都會(huì)從個(gè)人勞動(dòng)者轉(zhuǎn)變成AI領(lǐng)導(dǎo)者我們要提升自己的AI領(lǐng)導(dǎo)力。過去我們通過個(gè)人的專業(yè)能力來交付工作成果個(gè)人要親自去執(zhí)行具體的任務(wù)?,F(xiàn)在到不遠(yuǎn)的未來是我們帶著AI一起工作并完成目標(biāo)我們作為AI的領(lǐng)導(dǎo)者需要對(duì)AI團(tuán)隊(duì)進(jìn)行目標(biāo)設(shè)定對(duì)AI協(xié)作過程進(jìn)行管理和干預(yù)對(duì)AI最終產(chǎn)出進(jìn)行驗(yàn)收。雖然執(zhí)行性的工具會(huì)逐漸交給AI但這并不意味著對(duì)個(gè)人的專業(yè)能力不作要求了。相反它對(duì)我們的專業(yè)能力要求更高了因?yàn)槲覀冃枰詢?nèi)行人的角度來驗(yàn)收AI給我們產(chǎn)出的東西減少的只是我們做具體任務(wù)的時(shí)間。因?yàn)锳I未來可能每個(gè)行業(yè)都可能呈現(xiàn)出兩頭重中間輕的形成。以軟件開發(fā)這個(gè)崗位來做一下推演。Vibe Coding這個(gè)詞相信大家已有所耳聞現(xiàn)在越來越多完全沒有編程經(jīng)驗(yàn)的人暫稱為小白通過Cursor這類AI編程工具搖身變成了開發(fā)者這類開發(fā)者自己動(dòng)手解決長尾的、相對(duì)簡單的個(gè)性化的需求中低端的開發(fā)者的工作將會(huì)由小白們AI來接管。但是大規(guī)模嚴(yán)肅的生產(chǎn)型應(yīng)用小白 AI也是無法掌控的這個(gè)場景需要更專業(yè)的工程師甚至是架構(gòu)師AI來支撐AI一定是必備的了。可見小白和架構(gòu)師就是兩頭初中級(jí)的工程師如果想要繼續(xù)留在這個(gè)行業(yè)是需要進(jìn)一步提升自己的專業(yè)能力和AI領(lǐng)導(dǎo)力的。所以全面擁抱AI吧以最快的速度。如何學(xué)習(xí)大模型 AI 由于新崗位的生產(chǎn)效率要優(yōu)于被取代崗位的生產(chǎn)效率所以實(shí)際上整個(gè)社會(huì)的生產(chǎn)效率是提升的。但是具體到個(gè)人只能說是“最先掌握AI的人將會(huì)比較晚掌握AI的人有競爭優(yōu)勢”。這句話放在計(jì)算機(jī)、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的開局時(shí)期都是一樣的道理。我在一線科技企業(yè)深耕十二載見證過太多因技術(shù)卡位而躍遷的案例。那些率先擁抱 AI 的同事早已在效率與薪資上形成代際優(yōu)勢我意識(shí)到有很多經(jīng)驗(yàn)和知識(shí)值得分享給大家也可以通過我們的能力和經(jīng)驗(yàn)解答大家在大模型的學(xué)習(xí)中的很多困惑。我們整理出這套AI 大模型突圍資料包? 從零到一的 AI 學(xué)習(xí)路徑圖? 大模型調(diào)優(yōu)實(shí)戰(zhàn)手冊附醫(yī)療/金融等大廠真實(shí)案例? 百度/阿里專家閉門錄播課? 大模型當(dāng)下最新行業(yè)報(bào)告? 真實(shí)大廠面試真題? 2025 最新崗位需求圖譜所有資料 ?? 朋友們?nèi)绻行枰禔I大模型入門進(jìn)階學(xué)習(xí)資源包》下方掃碼獲取~① 全套AI大模型應(yīng)用開發(fā)視頻教程包含提示工程、RAG、LangChain、Agent、模型微調(diào)與部署、DeepSeek等技術(shù)點(diǎn)② 大模型系統(tǒng)化學(xué)習(xí)路線作為學(xué)習(xí)AI大模型技術(shù)的新手方向至關(guān)重要。 正確的學(xué)習(xí)路線可以為你節(jié)省時(shí)間少走彎路方向不對(duì)努力白費(fèi)。這里我給大家準(zhǔn)備了一份最科學(xué)最系統(tǒng)的學(xué)習(xí)成長路線圖和學(xué)習(xí)規(guī)劃帶你從零基礎(chǔ)入門到精通③ 大模型學(xué)習(xí)書籍文檔學(xué)習(xí)AI大模型離不開書籍文檔我精選了一系列大模型技術(shù)的書籍和學(xué)習(xí)文檔電子版它們由領(lǐng)域內(nèi)的頂尖專家撰寫內(nèi)容全面、深入、詳盡為你學(xué)習(xí)大模型提供堅(jiān)實(shí)的理論基礎(chǔ)。④ AI大模型最新行業(yè)報(bào)告2025最新行業(yè)報(bào)告針對(duì)不同行業(yè)的現(xiàn)狀、趨勢、問題、機(jī)會(huì)等進(jìn)行系統(tǒng)地調(diào)研和評(píng)估以了解哪些行業(yè)更適合引入大模型的技術(shù)和應(yīng)用以及在哪些方面可以發(fā)揮大模型的優(yōu)勢。⑤ 大模型項(xiàng)目實(shí)戰(zhàn)配套源碼學(xué)以致用在項(xiàng)目實(shí)戰(zhàn)中檢驗(yàn)和鞏固你所學(xué)到的知識(shí)同時(shí)為你找工作就業(yè)和職業(yè)發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。⑥ 大模型大廠面試真題面試不僅是技術(shù)的較量更需要充分的準(zhǔn)備。在你已經(jīng)掌握了大模型技術(shù)之后就需要開始準(zhǔn)備面試我精心整理了一份大模型面試題庫涵蓋當(dāng)前面試中可能遇到的各種技術(shù)問題讓你在面試中游刃有余。以上資料如何領(lǐng)取為什么大家都在學(xué)大模型最近科技巨頭英特爾宣布裁員2萬人傳統(tǒng)崗位不斷縮減但AI相關(guān)技術(shù)崗瘋狂擴(kuò)招有3-5年經(jīng)驗(yàn)大廠薪資就能給到50K*20薪不出1年“有AI項(xiàng)目經(jīng)驗(yàn)”將成為投遞簡歷的門檻。風(fēng)口之下與其像“溫水煮青蛙”一樣坐等被行業(yè)淘汰不如先人一步掌握AI大模型原理應(yīng)用技術(shù)項(xiàng)目實(shí)操經(jīng)驗(yàn)“順風(fēng)”翻盤這些資料真的有用嗎這份資料由我和魯為民博士(北京清華大學(xué)學(xué)士和美國加州理工學(xué)院博士)共同整理現(xiàn)任上海殷泊信息科技CEO其創(chuàng)立的MoPaaS云平臺(tái)獲Forrester全球’強(qiáng)勁表現(xiàn)者’認(rèn)證服務(wù)航天科工、國家電網(wǎng)等1000企業(yè)以第一作者在IEEE Transactions發(fā)表論文50篇獲NASA JPL火星探測系統(tǒng)強(qiáng)化學(xué)習(xí)專利等35項(xiàng)中美專利。本套AI大模型課程由清華大學(xué)-加州理工雙料博士、吳文俊人工智能獎(jiǎng)得主魯為民教授領(lǐng)銜研發(fā)。資料內(nèi)容涵蓋了從入門到進(jìn)階的各類視頻教程和實(shí)戰(zhàn)項(xiàng)目無論你是小白還是有些技術(shù)基礎(chǔ)的技術(shù)人員這份資料都絕對(duì)能幫助你提升薪資待遇轉(zhuǎn)行大模型崗位。以上全套大模型資料如何領(lǐng)取
版權(quán)聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)聯(lián)系我們進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

網(wǎng)站優(yōu)化 合同做網(wǎng)站可以用python么

網(wǎng)站優(yōu)化 合同,做網(wǎng)站可以用python么,也可以用,建設(shè)電影網(wǎng)站的目的文章目錄一、程序改錯(cuò)題(20分)項(xiàng)目結(jié)構(gòu)改錯(cuò)題01改錯(cuò)題02改錯(cuò)題03改錯(cuò)題04改錯(cuò)題05改錯(cuò)題06一、程序改錯(cuò)題(20分)

2026/01/21 15:54:01

免費(fèi)網(wǎng)站建設(shè)視頻教程專業(yè)的做網(wǎng)站

免費(fèi)網(wǎng)站建設(shè)視頻教程,專業(yè)的做網(wǎng)站,廊坊網(wǎng)站建設(shè)招聘,品牌建設(shè)與品牌價(jià)值VDMA驅(qū)動(dòng)開發(fā)在檢測系統(tǒng)中的實(shí)踐#xff1a;從原理到實(shí)戰(zhàn)的深度解析當(dāng)工業(yè)相機(jī)“飆”到1080p60fps#xff0c;CPU

2026/01/21 19:30:01

金泉網(wǎng)做網(wǎng)站5個(gè)網(wǎng)站建設(shè)

金泉網(wǎng)做網(wǎng)站,5個(gè)網(wǎng)站建設(shè),阿里云空間部署網(wǎng)站嗎,怎么評(píng)價(jià)一個(gè)網(wǎng)站做的好否電商直播也能AI化#xff1f;Sonic生成帶貨數(shù)字人實(shí)測分享 在抖音直播間里#xff0c;一個(gè)“主播”正熟練地介紹新款口

2026/01/21 17:15:01

seo第三方點(diǎn)擊軟件泰州網(wǎng)站整站優(yōu)化

seo第三方點(diǎn)擊軟件,泰州網(wǎng)站整站優(yōu)化,南京做網(wǎng)站建設(shè)有哪些,九千營銷工作室介紹博主介紹#xff1a;??碼農(nóng)一枚 #xff0c;專注于大學(xué)生項(xiàng)目實(shí)戰(zhàn)開發(fā)、講解和畢業(yè)#x1f6a2;文撰寫修改等。全棧

2026/01/21 19:45:01