mvc 門戶網(wǎng)站開(kāi)發(fā)框架,企業(yè)培訓(xùn)方案制定,網(wǎng)站建設(shè)企業(yè)建站模板,合肥瑤海區(qū)封控簡(jiǎn)介文章全面介紹了檢索增強(qiáng)生成(RAG)技術(shù)#xff0c;這是構(gòu)建需要最新、領(lǐng)域?qū)僦R(shí)的大模型應(yīng)用的標(biāo)準(zhǔn)架構(gòu)。文章從向量數(shù)據(jù)庫(kù)、分塊策略到性能優(yōu)化與生產(chǎn)部署#xff0c;提供了全鏈路實(shí)踐指南#xff0c;包括混合搜索、交叉編碼器重排序、查詢改寫等優(yōu)化技巧#xff…簡(jiǎn)介文章全面介紹了檢索增強(qiáng)生成(RAG)技術(shù)這是構(gòu)建需要最新、領(lǐng)域?qū)僦R(shí)的大模型應(yīng)用的標(biāo)準(zhǔn)架構(gòu)。文章從向量數(shù)據(jù)庫(kù)、分塊策略到性能優(yōu)化與生產(chǎn)部署提供了全鏈路實(shí)踐指南包括混合搜索、交叉編碼器重排序、查詢改寫等優(yōu)化技巧并通過(guò)真實(shí)案例展示了RAG系統(tǒng)在法律文檔分析中的應(yīng)用效果幫助讀者構(gòu)建可落地的生產(chǎn)級(jí)RAG系統(tǒng)。面向真實(shí)場(chǎng)景的檢索增強(qiáng)生成系統(tǒng)全面實(shí)現(xiàn)手冊(cè)摘要檢索增強(qiáng)生成Retrieval-Augmented GenerationRAG已成為構(gòu)建需要最新、領(lǐng)域?qū)僦R(shí)的大模型應(yīng)用的事實(shí)標(biāo)準(zhǔn)架構(gòu)。本文完整梳理從向量數(shù)據(jù)庫(kù)、分塊策略到性能優(yōu)化與生產(chǎn)部署的全鏈路實(shí)踐并輔以研究洞見(jiàn)與真實(shí)案例。GPT-4、Claude 等大型語(yǔ)言模型Large Language ModelsLLMs徹底改變了 AI 應(yīng)用的構(gòu)建方式但它們存在關(guān)鍵局限知識(shí)凍結(jié)在訓(xùn)練時(shí)間點(diǎn)。當(dāng)用戶詢問(wèn)最新事件、專有公司數(shù)據(jù)或特定領(lǐng)域知識(shí)時(shí)基礎(chǔ) LLM 往往產(chǎn)生幻覺(jué)或給出過(guò)時(shí)信息。檢索增強(qiáng)生成RAG通過(guò)將 LLM 的生成能力與外部知識(shí)檢索相結(jié)合解決了這一問(wèn)題。Lewis 等人在 NeurIPS 2020 的開(kāi)創(chuàng)性論文中證明RAG 架構(gòu)可將事實(shí)準(zhǔn)確率顯著提升同時(shí)將幻覺(jué)率降低多達(dá) 70% [1]。本文基于作者在大規(guī)模部署 RAG 架構(gòu)過(guò)程中的實(shí)戰(zhàn)經(jīng)驗(yàn)分享經(jīng)過(guò)實(shí)戰(zhàn)檢驗(yàn)的策略幫助讀者構(gòu)建可落地的生產(chǎn)級(jí) RAG 系統(tǒng)。問(wèn)題陳述為何選擇 RAG傳統(tǒng)方法在保持 LLM 更新方面面臨三大挑戰(zhàn)1. 重新訓(xùn)練成本高昂微調(diào)一個(gè) 70B 參數(shù)模型需數(shù)千美元及大量計(jì)算資源。對(duì)于快速變化的信息這在經(jīng)濟(jì)上不可行。2. 上下文窗口有限即使上下文窗口擴(kuò)展至 128K tokens將整份知識(shí)庫(kù)塞進(jìn)提示詞仍效率低下且在生產(chǎn)環(huán)境中延遲從 2–3 秒激增至 20–30 秒。3. 幻覺(jué)風(fēng)險(xiǎn)缺乏外部來(lái)源支撐LLM 會(huì)自信地生成看似合理但錯(cuò)誤的信息。斯坦福研究顯示在知識(shí)密集型任務(wù)中基礎(chǔ)模型幻覺(jué)率高達(dá) 27% [2]。RAG 通過(guò)在推理時(shí)動(dòng)態(tài)檢索相關(guān)信息并注入 LLM 上下文有效應(yīng)對(duì)上述挑戰(zhàn)。核心概念RAG 如何運(yùn)作RAG 架構(gòu)概覽RAG 流水線由三大組件構(gòu)成用戶查詢 → 檢索系統(tǒng) → 上下文增強(qiáng) → LLM 生成步驟 1文檔攝取與索引? 文檔被切分為若干塊chunk? 每塊通過(guò)text-embedding-3-large或sentence-transformers等模型轉(zhuǎn)為嵌入向量? 嵌入向量存入向量數(shù)據(jù)庫(kù)FAISS、Pinecone、Weaviate 或 Qdrant步驟 2查詢時(shí)檢索? 用戶查詢轉(zhuǎn)為嵌入向量? 向量相似度搜索返回前 k 個(gè)最相關(guān)塊? 結(jié)果經(jīng)排序與過(guò)濾步驟 3增強(qiáng)生成? 檢索到的上下文注入 LLM 提示詞? LLM 基于檢索信息生成回答? 回答附帶引用回源文檔向量嵌入基石嵌入將文本映射到高維向量空間語(yǔ)義相似度對(duì)應(yīng)幾何距離?，F(xiàn)代嵌入模型表現(xiàn)優(yōu)異模型維度MTEB 得分每 1M tokens 成本text-embedding-3-large307264.6$0.13voyage-2102468.3$0.12sentence-transformers/all-MiniLM-L6-v238456.3免費(fèi)自托管對(duì)于生產(chǎn)系統(tǒng)筆者推薦text-embedding-3-large兼顧性能與成本 [3]。分塊策略成敗關(guān)鍵分塊是 RAG 流水線中最關(guān)鍵的決策之一。糟糕的分塊會(huì)導(dǎo)致? 上下文邊界丟失? 信息截?cái)? 檢索結(jié)果不相關(guān)策略 1固定大小分塊最簡(jiǎn)單的方法按固定 token/字符數(shù)切分并設(shè)置重疊from langchain.text_splitter import RecursiveCharacterTextSplitter plaintext splitter RecursiveCharacterTextSplitter( chunk_size512, chunk_overlap50, separators[ , , . , , ])chunks splitter.split_documents(documents)優(yōu)點(diǎn)簡(jiǎn)單、塊大小可預(yù)測(cè)缺點(diǎn)可能截?cái)嗑渥踊蚋拍畈呗?2語(yǔ)義分塊更高級(jí)的方法通過(guò)嵌入識(shí)別語(yǔ)義邊界from langchain_experimental.text_splitter import SemanticChunkerfrom langchain_openai import OpenAIEmbeddings plaintext splitter SemanticChunker( OpenAIEmbeddings(), breakpoint_threshold_typepercentile, breakpoint_threshold_amount85)該方法將語(yǔ)義相似的句子聚類保持語(yǔ)義連貫。實(shí)驗(yàn)表明與固定大小分塊相比檢索相關(guān)性提升 23% [4]。策略 3層次化分塊對(duì)于結(jié)構(gòu)化文檔技術(shù)文檔、法律合同層次化分塊保留文檔結(jié)構(gòu)?父塊章節(jié)級(jí)1500–2000 tokens?子塊段落級(jí)300–500 tokens?元數(shù)據(jù)保留標(biāo)題、頁(yè)碼、文檔標(biāo)題當(dāng)子塊被檢索時(shí)同時(shí)攜帶其父塊以獲取完整上下文。針對(duì)所有自學(xué)遇到困難的同學(xué)們我?guī)痛蠹蚁到y(tǒng)梳理大模型學(xué)習(xí)脈絡(luò)將這份LLM大模型資料分享出來(lái)包括LLM大模型書(shū)籍、640套大模型行業(yè)報(bào)告、LLM大模型學(xué)習(xí)視頻、LLM大模型學(xué)習(xí)路線、開(kāi)源大模型學(xué)習(xí)教程等, 有需要的小伙伴可以掃描下方二維碼領(lǐng)取↓↓↓向量數(shù)據(jù)庫(kù)選型合適的向量數(shù)據(jù)庫(kù)影響性能、成本與可擴(kuò)展性FAISSFacebook AI Similarity Search適用場(chǎng)景原型驗(yàn)證及中小型數(shù)據(jù)集優(yōu)點(diǎn)快速、免費(fèi)、本地開(kāi)發(fā)友好缺點(diǎn)無(wú)內(nèi)建持久化、擴(kuò)展性有限from langchain_community.vectorstores import FAISSfrom langchain_openai import OpenAIEmbeddings plaintext embeddings OpenAIEmbeddings(modeltext-embedding-3-large)vectorstore FAISS.from_documents(chunks, embeddings)# 持久化保存vectorstore.save_local(faiss_index)Pinecone適用場(chǎng)景高并發(fā)生產(chǎn)系統(tǒng)優(yōu)點(diǎn)托管服務(wù)、性能優(yōu)異、支持元數(shù)據(jù)過(guò)濾缺點(diǎn)成本隨用量線性增長(zhǎng)Weaviate適用場(chǎng)景混合搜索向量關(guān)鍵詞優(yōu)點(diǎn)開(kāi)源、GraphQL API、多租戶缺點(diǎn)部署較復(fù)雜多數(shù)生產(chǎn)系統(tǒng)建議先用 FAISS 開(kāi)發(fā)再按擴(kuò)展需求遷移至 Pinecone 或 Weaviate。性能優(yōu)化技巧混合搜索兼收并蓄結(jié)合向量相似度與 BM25 關(guān)鍵詞搜索from langchain.retrievers import EnsembleRetrieverfrom langchain_community.retrievers import BM25Retriever plaintext # 向量檢索器vector_retriever vectorstore.as_retriever(search_kwargs{k: 5})# 關(guān)鍵詞檢索器bm25_retriever BM25Retriever.from_documents(chunks)bm25_retriever.k 5# 加權(quán)組合ensemble_retriever EnsembleRetriever( retrievers[vector_retriever, bm25_retriever], weights[0.7, 0.3])混合搜索在技術(shù)文檔查詢的內(nèi)部基準(zhǔn)中檢索準(zhǔn)確率提升 18%。交叉編碼器重排序首輪檢索廣撒網(wǎng)前 20 塊再由重排序模型精選前 5 塊from sentence_transformers import CrossEncoder plaintext reranker CrossEncoder(cross-encoder/ms-marco-MiniLM-L-6-v2)def rerank_documents(query, documents, top_k5): pairs [[query, doc.page_content] for doc in documents] scores reranker.predict(pairs) # 按得分排序并返回 top_k ranked_docs sorted(zip(documents, scores), keylambda x: x[1], reverseTrue) return [doc for doc, score in ranked_docs[:top_k]]重排序在不犧牲召回率的前提下將無(wú)關(guān)上下文減少 35%延遲控制在 100ms 以內(nèi) [5]。查詢改寫改寫用戶查詢以提升檢索效果HyDEHypothetical Document Embeddings先生成假設(shè)答案再嵌入檢索hyde_prompt fGiven the question: {query}Write a detailed answer that might appear in documentation: plaintext hypothetical_answer llm.generate(hyde_prompt)results vectorstore.similarity_search(hypothetical_answer)多查詢生成多個(gè)查詢變體variations_prompt fGenerate 3 variations of this question:{query}Variations:query_variations llm.generate(variations_prompt).split( )all_results [vectorstore.similarity_search(q) for q in query_variations]完整 RAG 實(shí)現(xiàn)以下示例基于 LangChain 構(gòu)建生產(chǎn)級(jí) RAGfrom langchain_openai import ChatOpenAI, OpenAIEmbeddingsfrom langchain_community.vectorstores import FAISSfrom langchain.chains import RetrievalQAfrom langchain.prompts import PromptTemplate plaintext # 初始化組件embeddings OpenAIEmbeddings(modeltext-embedding-3-large)vectorstore FAISS.load_local(faiss_index, embeddings)llm ChatOpenAI(modelgpt-4-turbo-preview, temperature0)# 帶引用指令的自定義提示詞prompt_template Use the following context to answer the question. If you dont know the answer, say so - dont make up information.Cite the source documents using [Source X] notation.Context:{context}Question: {question}Answer:PROMPT PromptTemplate( templateprompt_template, input_variables[context, question])# 創(chuàng)建檢索鏈qa_chain RetrievalQA.from_chain_type( llmllm, chain_typestuff, retrievervectorstore.as_retriever( search_kwargs{k: 5} ), chain_type_kwargs{prompt: PROMPT}, return_source_documentsTrue)# 查詢r(jià)esult qa_chain({query: What are the best practices for RAG?})print(result[result])print( Sources:, [doc.metadata for doc in result[source_documents]])真實(shí)案例法律文檔分析挑戰(zhàn)某律所需分析 10,000 份法律文檔以進(jìn)行案例研究人工審閱每案需數(shù)周。解決方案我們構(gòu)建了包含以下特性的 RAG 系統(tǒng)? 保留法律結(jié)構(gòu)的層次化分塊? 基于法律語(yǔ)料微調(diào)的自定義嵌入? 混合搜索元數(shù)據(jù)過(guò)濾日期、管轄權(quán)、案件類型? 要求引用的 GPT-4 生成架構(gòu)法律 PDF → OCR → 層次化分塊 → Legal-BERT 嵌入 → Weaviate → 混合檢索重排序 → GPT-4 → 帶引用回答結(jié)果? 每案研究時(shí)間從 40 小時(shí)降至 2 小時(shí)降幅 95%? 事實(shí)抽取準(zhǔn)確率 94%經(jīng)資深律師驗(yàn)證? 成本每份文檔對(duì)比律師時(shí)間成本200? 3 周內(nèi)實(shí)現(xiàn) ROI關(guān)鍵成功因素領(lǐng)域?qū)偾度雔egal-BERT使相關(guān)性提升 31%元數(shù)據(jù)過(guò)濾將無(wú)關(guān)結(jié)果減少 60%強(qiáng)制引用保持律師監(jiān)督與信任性能基準(zhǔn)基于我們的生產(chǎn)部署指標(biāo)目標(biāo)本系統(tǒng)檢索延遲200ms145ms (p95)端到端延遲3s2.3s (p95)檢索準(zhǔn)確率85%89.4%幻覺(jué)率5%2.8%單查詢成本$0.02$0.014每 1000 次查詢成本拆分? 嵌入$1.30? 向量搜索$0.80? LLM 生成$12.00?總計(jì)$14.10最佳實(shí)踐監(jiān)控檢索質(zhì)量實(shí)現(xiàn)日志記錄以追蹤? 檢索得分是否找到相關(guān)文檔? 用戶反饋回答點(diǎn)贊/點(diǎn)踩? 查詢模式用戶是否在重述問(wèn)題設(shè)置護(hù)欄def validate_context_relevance(query, contexts, threshold0.7): 生成前確保檢索上下文相關(guān) for ctx in contexts: score semantic_similarity(query, ctx) if score threshold: return False, Low confidence - insufficient context return True, Context validated版本化嵌入更新嵌入模型或分塊策略時(shí)為索引加版本embeddings/ v1_text-ada-002/ v2_text-embedding-3-large/便于 A/B 測(cè)試及必要時(shí)回滾。積極緩存緩存嵌入、檢索文檔乃至完整回答import hashlibfrom functools import lru_cachelru_cache(maxsize1000)def get_cached_embedding(text): return embeddings.embed_query(text)通過(guò)緩存嵌入 API 成本降低 65%。常見(jiàn)陷阱與規(guī)避陷阱 1塊過(guò)大問(wèn)題上下文超出 LLM 窗口檢索精度下降解決保持塊大小 300–800 tokens使用層次化檢索獲取完整上下文陷阱 2忽略元數(shù)據(jù)問(wèn)題檢索到過(guò)時(shí)或不相關(guān)文檔解決按日期、文檔類型、來(lái)源可信度過(guò)濾陷阱 3無(wú)答案驗(yàn)證問(wèn)題即使有檢索上下文LLM 仍可能幻覺(jué)解決實(shí)現(xiàn)置信度評(píng)分及“我不知道”回答陷阱 4忽視延遲問(wèn)題查詢 5 秒用戶即放棄解決優(yōu)化檢索更快向量庫(kù)、流式響應(yīng)、緩存陷阱 5靜態(tài)分塊策略問(wèn)題一刀切不適用于所有文檔類型解決按文檔結(jié)構(gòu)自適應(yīng)分塊代碼、Markdown、PDF 需不同策略結(jié)論關(guān)鍵要點(diǎn)構(gòu)建生產(chǎn)級(jí) RAG 系統(tǒng)需關(guān)注整個(gè)流水線的細(xì)節(jié)為文檔類型選擇合適分塊策略—— 語(yǔ)義分塊比固定大小高 20–30%實(shí)現(xiàn)混合搜索兼顧語(yǔ)義與關(guān)鍵詞匹配增加重排序提升精度而不犧牲召回基于真實(shí)用戶查詢與反饋監(jiān)控并迭代通過(guò)緩存、異步處理、高效向量庫(kù)優(yōu)化延遲RAG 已在法律研究、客戶支持、技術(shù)文檔等行業(yè)證明其價(jià)值。架構(gòu)成熟、工具完善、ROI 可衡量。從 FAISS LangChain 起步全面度量再針對(duì)具體用例優(yōu)化。LLM 應(yīng)用的未來(lái)扎根于檢索而 RAG 只是開(kāi)始。如何學(xué)習(xí)AI大模型大模型時(shí)代火爆出圈的LLM大模型讓程序員們開(kāi)始重新評(píng)估自己的本領(lǐng)。 “AI會(huì)取代那些行業(yè)”“誰(shuí)的飯碗又將不保了”等問(wèn)題熱議不斷。不如成為「掌握AI工具的技術(shù)人」畢竟AI時(shí)代誰(shuí)先嘗試誰(shuí)就能占得先機(jī)想正式轉(zhuǎn)到一些新興的 AI 行業(yè)不僅需要系統(tǒng)的學(xué)習(xí)AI大模型。同時(shí)也要跟已有的技能結(jié)合輔助編程提效或上手實(shí)操應(yīng)用增加自己的職場(chǎng)競(jìng)爭(zhēng)力。但是LLM相關(guān)的內(nèi)容很多現(xiàn)在網(wǎng)上的老課程老教材關(guān)于LLM又太少。所以現(xiàn)在小白入門就只能靠自學(xué)學(xué)習(xí)成本和門檻很高那么針對(duì)所有自學(xué)遇到困難的同學(xué)們我?guī)痛蠹蚁到y(tǒng)梳理大模型學(xué)習(xí)脈絡(luò)將這份LLM大模型資料分享出來(lái)包括LLM大模型書(shū)籍、640套大模型行業(yè)報(bào)告、LLM大模型學(xué)習(xí)視頻、LLM大模型學(xué)習(xí)路線、開(kāi)源大模型學(xué)習(xí)教程等, 有需要的小伙伴可以掃描下方二維碼領(lǐng)取↓↓↓學(xué)習(xí)路線第一階段從大模型系統(tǒng)設(shè)計(jì)入手講解大模型的主要方法第二階段在通過(guò)大模型提示詞工程從Prompts角度入手更好發(fā)揮模型的作用第三階段大模型平臺(tái)應(yīng)用開(kāi)發(fā)借助阿里云PAI平臺(tái)構(gòu)建電商領(lǐng)域虛擬試衣系統(tǒng)第四階段大模型知識(shí)庫(kù)應(yīng)用開(kāi)發(fā)以LangChain框架為例構(gòu)建物流行業(yè)咨詢智能問(wèn)答系統(tǒng)第五階段大模型微調(diào)開(kāi)發(fā)借助以大健康、新零售、新媒體領(lǐng)域構(gòu)建適合當(dāng)前領(lǐng)域大模型第六階段以SD多模態(tài)大模型為主搭建了文生圖小程序案例第七階段以大模型平臺(tái)應(yīng)用與開(kāi)發(fā)為主通過(guò)星火大模型文心大模型等成熟大模型構(gòu)建大模型行業(yè)應(yīng)用。學(xué)會(huì)后的收獲? 基于大模型全棧工程實(shí)現(xiàn)前端、后端、產(chǎn)品經(jīng)理、設(shè)計(jì)、數(shù)據(jù)分析等通過(guò)這門課可獲得不同能力? 能夠利用大模型解決相關(guān)實(shí)際項(xiàng)目需求大數(shù)據(jù)時(shí)代越來(lái)越多的企業(yè)和機(jī)構(gòu)需要處理海量數(shù)據(jù)利用大模型技術(shù)可以更好地處理這些數(shù)據(jù)提高數(shù)據(jù)分析和決策的準(zhǔn)確性。因此掌握大模型應(yīng)用開(kāi)發(fā)技能可以讓程序員更好地應(yīng)對(duì)實(shí)際項(xiàng)目需求? 基于大模型和企業(yè)數(shù)據(jù)AI應(yīng)用開(kāi)發(fā)實(shí)現(xiàn)大模型理論、掌握GPU算力、硬件、LangChain開(kāi)發(fā)框架和項(xiàng)目實(shí)戰(zhàn)技能學(xué)會(huì)Fine-tuning垂直訓(xùn)練大模型數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)蒸餾、大模型部署一站式掌握? 能夠完成時(shí)下熱門大模型垂直領(lǐng)域模型訓(xùn)練能力提高程序員的編碼能力大模型應(yīng)用開(kāi)發(fā)需要掌握機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)框架等技術(shù)這些技術(shù)的掌握可以提高程序員的編碼能力和分析能力讓程序員更加熟練地編寫高質(zhì)量的代碼。1.AI大模型學(xué)習(xí)路線圖2.100套AI大模型商業(yè)化落地方案3.100集大模型視頻教程4.200本大模型PDF書(shū)籍5.LLM面試題合集6.AI產(chǎn)品經(jīng)理資源合集獲取方式有需要的小伙伴可以保存圖片到wx掃描二v碼免費(fèi)領(lǐng)取【保證100%免費(fèi)】

97色伦色在线综合视频,无玛专区,18videosex性欧美黑色,日韩黄色电影免费在线观看,国产精品伦理一区二区三区,在线视频欧美日韩,亚洲欧美在线中文字幕不卡

mvc 門戶網(wǎng)站開(kāi)發(fā)框架企業(yè)培訓(xùn)方案制定

安徽建站公司淘寶店鋪怎么裝修

電子商務(wù)網(wǎng)站建設(shè)需要注意什么建立互聯(lián)網(wǎng)網(wǎng)站需要錢嘛

戀愛(ài)網(wǎng)站建設(shè)廈門市市場(chǎng)開(kāi)發(fā)建設(shè)服務(wù)中心網(wǎng)站

網(wǎng)站建設(shè)申報(bào)書(shū)青島做網(wǎng)站推廣

移動(dòng)網(wǎng)站建站視頻教程wordpress建完目錄404

網(wǎng)站開(kāi)發(fā) 論文全國(guó)企業(yè)信用信息公示系統(tǒng)山西