97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

陜西省住房和城鄉(xiāng)建設(shè)廳網(wǎng)站首頁蘇州網(wǎng)站建設(shè)丶好先生科技

鶴壁市浩天電氣有限公司 2026/01/24 17:37:37
陜西省住房和城鄉(xiāng)建設(shè)廳網(wǎng)站首頁,蘇州網(wǎng)站建設(shè)丶好先生科技,wordpress網(wǎng)站是什么意思,下載好模板該怎么做網(wǎng)站本文檔將手把手教你如何使用 LangSmith 對 LLM#xff08;如 Gemini, DeepSeek, GPT#xff09;進行自動化評估和對比。 1. 注冊與準(zhǔn)備 1.1 注冊賬號 訪問 LangSmith 官網(wǎng)。此處需要魔法使用 GitHub 或 Google 賬號登錄。注意#xff1a;LangSmith 分為 US (美國) 和 EU (…本文檔將手把手教你如何使用LangSmith對 LLM如 Gemini, DeepSeek, GPT進行自動化評估和對比。1. 注冊與準(zhǔn)備1.1 注冊賬號訪問 LangSmith 官網(wǎng)。此處需要魔法使用 GitHub 或 Google 賬號登錄。注意LangSmith 分為US (美國)和EU (歐洲)兩個數(shù)據(jù)中心。注冊時請留意你所在的區(qū)域或者由系統(tǒng)自動分配。1.2 獲取 API Key登錄后點擊左下角的Settings (設(shè)置)圖標(biāo)。選擇API Keys選項卡。點擊Create API Key。給 Key 起個名字如 “Test Key”然后復(fù)制保存只顯示一次。在上圖這里選 Run an Evaluation點擊這里Generate API key 就會獲得一個key1.3 確認(rèn) Endpoint (關(guān)鍵步驟)如果你的賬號被分配到了EU (歐洲)節(jié)點URL 是eu.smith.langchain.com你必須顯式配置 Endpoint否則會報403 Forbidden。US 節(jié)點默認(rèn)https://api.smith.langchain.comEU 節(jié)點https://eu.api.smith.langchain.com設(shè)置環(huán)境變量ANGCHAIN_ENDPOINThttps://eu.api.smith.langchain.comLANGCHAIN_API_KEYlsvxxxxxxxxxxxxxxxxxxxx2. 環(huán)境配置2.1 安裝依賴你需要安裝langsmith和langchain相關(guān)庫。pipinstalllangsmith langchain langchain-openai2.2 配置環(huán)境變量 (.env)在項目根目錄創(chuàng)建.env文件填入以下內(nèi)容# 開啟 Tracing (可選但推薦) LANGCHAIN_TRACING_V2true # 你的 API Key LANGCHAIN_API_KEYls__your_api_key_here # 如果你是 EU 賬號必須加這一行US 賬號可忽略 LANGCHAIN_ENDPOINThttps://eu.api.smith.langchain.com # 你的模型 Key (用于調(diào)用模型) GEMINI_API_KEYAIza... DEEPSEEK_API_KEYsk-...3. 實戰(zhàn)代碼模型對比評估我們將編寫一個腳本對比Gemini和DeepSeek在回答同一組問題時的表現(xiàn)。完整代碼 (compare_model.py)importosfromlangsmithimportClient,evaluatefromsrc.llm.gemini_chat_modelimportget_gemini_llmfromsrc.llm.deepseek_chat_modelimportget_deepseek_llm# 1. 初始化客戶端 clientClient()# 2. 準(zhǔn)備數(shù)據(jù)集 (Dataset) # 數(shù)據(jù)集名稱dataset_nameAI_Interview_Questions# 檢查數(shù)據(jù)集是否存在不存在則創(chuàng)建ifnotclient.has_dataset(dataset_namedataset_name):print(f創(chuàng)建新數(shù)據(jù)集:{dataset_name})datasetclient.create_dataset(dataset_namedataset_name,description用于測試模型的基礎(chǔ)問答能力)# 寫入測試用例 (Inputs)# 可以在這里添加標(biāo)準(zhǔn)答案 (Outputs) 用于自動打分這里僅做生成測試client.create_examples(inputs[{prompt:什么是 RAG (Retrieval-Augmented Generation)},{prompt:用 Python 寫一個快排算法。},{prompt:解釋量子糾纏像我只有5歲一樣。},],dataset_iddataset.id,)else:print(f使用現(xiàn)有數(shù)據(jù)集:{dataset_name})# 3. 準(zhǔn)備模型 (Target Functions) # 初始化 LangChain 模型對象geminiget_gemini_llm()deepseekget_deepseek_llm()# 定義包裝函數(shù)# LangSmith 會把數(shù)據(jù)集里的 inputs (如 {prompt: ...}) 傳給這個函數(shù)defpredict_gemini(inputs:dict):# 調(diào)用模型responsegemini.invoke(inputs[prompt])# 返回結(jié)果key 可以是 output 或 answerreturn{output:response.content}defpredict_deepseek(inputs:dict):responsedeepseek.invoke(inputs[prompt])return{output:response.content}# 4. 運行評估 (Run Evaluation) print(開始評估 Gemini...)evaluate(predict_gemini,datadataset_name,experiment_prefixgemini-v1,# 實驗名稱前綴descriptionGemini Pro 基礎(chǔ)測試)print(開始評估 DeepSeek...)evaluate(predict_deepseek,datadataset_name,experiment_prefixdeepseek-v1,descriptionDeepSeek Chat 基礎(chǔ)測試)4. 代碼深度解析Step 1:client.create_dataset作用在云端創(chuàng)建一個持久化的數(shù)據(jù)集。特性數(shù)據(jù)集只需創(chuàng)建一次。之后你可以反復(fù)使用它來測試不同的模型或者測試同一個模型的不同版本Prompt 迭代。當(dāng)dataset 創(chuàng)建后 可以從langsmith也頁面見到該datasetStep 2:client.create_examplesInputs模型的輸入Prompt。Outputs (可選)標(biāo)準(zhǔn)答案Ground Truth。如果提供了 Output你可以使用“正確性評估器”來自動判斷模型回答得對不對。Step 3:predict_wrapper(包裝函數(shù))evaluate函數(shù)需要一個可調(diào)用的對象函數(shù)。這個函數(shù)接收inputs字典必須返回一個字典通常包含output。你可以在這里進行 Prompt 組裝、解析 JSON 等預(yù)處理/后處理邏輯。Step 4:evaluate(核心)這是 LangSmith 的魔法所在。它會拉取數(shù)據(jù)集中的每一條例子。并發(fā)調(diào)用你的predict函數(shù)。將 Input, Output, Latency (耗時), Token Usage 等信息全部上傳到云端。生成一個唯一的Experiment (實驗)鏈接。5. 查看結(jié)果運行腳本后控制臺會輸出一個 URL。點擊進入 LangSmith 網(wǎng)頁。你可以看到一個對比視圖每一行是一個測試用例Prompt。每一列是一個實驗Gemini vs DeepSeek。你可以直觀地看到哪個模型回答得更準(zhǔn)確哪個模型速度更快Latency哪個模型更啰嗦通過這種方式原本憑感覺的“模型好壞”變成了可視化、可量化的數(shù)據(jù)。
版權(quán)聲明: 本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請聯(lián)系我們進行投訴反饋,一經(jīng)查實,立即刪除!

福州網(wǎng)站開發(fā)cmswordpress支持的數(shù)據(jù)量

福州網(wǎng)站開發(fā)cms,wordpress支持的數(shù)據(jù)量,微網(wǎng)站和app的區(qū)別,無錫網(wǎng)站維護公司終極指南#xff1a;圖數(shù)據(jù)庫空間索引如何讓你的應(yīng)用更智能 【免費下載鏈接】cayley An open-so

2026/01/23 00:17:01

網(wǎng)站認(rèn)證要錢淘寶網(wǎng)站咋做

網(wǎng)站認(rèn)證要錢,淘寶網(wǎng)站咋做,網(wǎng)站建設(shè) 排行,做電影網(wǎng)站如何推廣方案論文AIGC率過高是當(dāng)前很多學(xué)生和研究者在論文寫作中遇到的普遍問題。別慌#xff0c;只要掌握正確的方法#xff0c;完全可以將AI生

2026/01/23 03:03:01

網(wǎng)站的圖文鏈接怎么做的app營銷推廣方式

網(wǎng)站的圖文鏈接怎么做的,app營銷推廣方式,重要新聞頭條,游戲網(wǎng)站模板html靈活用工個稅實操復(fù)盤#xff1a;技術(shù)驅(qū)動下的合規(guī)與效率革新——以天語靈工為例行業(yè)痛點分析當(dāng)前靈活用工平臺領(lǐng)域面臨三大技術(shù)

2026/01/21 19:11:02