RAG 還是微調?企業主管 2026 年的 AI 架構決策框架
2026-04-30你正在決定,組織將以什麼方式在生產環境中運行 AI。眼前有三種架構模式可選:在前沿模型上做提示工程、檢索增強生成(RAG)、以及在自己的資料上微調模型。選錯,就用港幣 100 至 300 萬元換來解決錯誤問題的系統。選對,同樣的預算可以帶來持久的生產力提升。
這是 2026 年香港的營運副總裁、資訊科技總監、數碼轉型主管,每一個季度都要與 CIO 或 AI 供應商面對的對話。從外表看,技術選項幾乎一樣。但內裡會產生截然不同的成本結構、截然不同的風險樣貌、以及截然不同的長期彈性。
本文提供的是決策框架。它定義 RAG 與微調的真正含義、解釋各自勝出的場景、並協助你在簽供應商合約之前,為自己的具體用例選擇正確的架構。
什麼是 RAG?什麼是微調?用企業聽得懂的語言來說。
RAG(檢索增強生成)是一種架構:大型語言模型在收到每個查詢時,先從你自己的知識庫中檢索相關文件,然後基於這些文件生成答案。微調則是把預訓練模型拿來,繼續用你的特定資料訓練它,讓模型本身學會你需要的模式、風格、行為。
用最直白的比喻:RAG 像一位手持圖書證的專家。每次你提問,系統都到圖書館找到相關文件,再根據找到的內容寫答案。微調像一位你親自培訓多年的學徒。學徒已經內化你的風格與決策模式,憑記憶回答問題,不再翻書。
第三種模式經常與前兩者混淆,那就是提示工程。它只調整系統提示與每次查詢的措辭,沒有外部檢索、也沒有重新訓練模型。提示工程是最便宜的方式,也是大多數企業應該開始的地方,但當事實基礎或行為一致性很重要時,它就會碰到明顯上限。
RAG 在企業系統中如何實際運作?
RAG 系統有四個主要組成部分:包含企業內容的文件庫、把文字轉換為向量的嵌入模型、為每個查詢找出相關內容的向量資料庫、以及運用檢索內容作為上下文撰寫答案的語言模型。同一套架構可以處理你的客戶服務知識庫、合約庫、內部政策,前提是每組文件都正確編列索引。
實際運作流程如下:員工輸入問題;嵌入模型把問題轉換為數值表達;向量資料庫返回最相關的政策文件、合約、過往工單;語言模型同時收到問題與檢索內容,然後生成答案。系統可以告訴使用者,這個答案具體是根據哪些文件得出的。對法律、金融、受監管行業而言,這項特性的價值極大。
對企業而言,優勢非常具體。知識保持最新,更新政策文件後,下一次查詢就會反映變動。系統可審計,每個答案都能追溯到具體來源。存取控制延續現有的文件權限,員工只會檢索到自己原本就有權看到的內容。根據 Red Hat 2026 年企業 AI 指引,這也是受監管行業的主流架構,因為審計軌跡是內建的,不是事後加上去的。
微調如何運作?2026 年發生了什麼變化?
微調是把預訓練模型拿來,再以針對你組織的範例繼續訓練,讓模型永久吸收你的風格、術語、決策模式、約束條件。2026 年,LoRA、QLoRA 等參數高效方法已將微調成本相比 2024 年降低約一個數量級。
2026 年的現實,與 2023 年的論述截然不同。三年前,微調一個前沿模型動輒需要六位數美元的 GPU 帳單與數週的工程投入。如今,參數高效的微調通常需要港幣 3 至 20 萬元的算力、以日為單位(而非以週)完成、產出的也只是一個較小的「適配器檔案」,而不是整個新模型。70 億至 140 億參數區間的小型語言模型,經過特定領域的微調後,已能在該任務上達到 2024 年需要 GPT-4 才能做到的水平。
當「行為」(而非「知識」)才是瓶頸時,微調才是正確選擇。如果問題是模型需要寫出你的專屬風格、遵循你的特定決策樹、用一致的語氣拒絕某類請求,這些屬於訓練資料問題,最好用微調來解決。如果問題只是模型不知道你的產品名稱、政策、上個月價格,那是知識問題,最好用 RAG 來解決。
企業何時該選 RAG 而非微調?
當知識頻繁變動、當審計軌跡重要、當不同使用者有不同存取權限、或當你的訓練資料量太少或太敏感不適合送進微調流程時,RAG 應該是預設架構。根據 Contextual AI 2026 年企業指南,RAG 是大多數企業 AI 用例的正確選擇,因為大多數企業問題是知識問題,而非行為問題。
五個 RAG 勝出的具體情境:
客戶服務知識庫。產品目錄、退貨政策、運送規則每週變動。RAG 不需重新訓練,就能讓每個答案保持最新。
內部政策助理。人力資源政策、報銷規則、合規程序隨法規變動。能顯示「這個答案是依據哪一版政策」的審計軌跡,在合規上極具價值。
合約審查與法律研究。每個查詢都需要引用特定條款或案例。RAG 原生提供來源引用,微調則沒有這項能力。
銷售賦能工具。銷售話術、案例研究、競爭定位持續演化。RAG 讓市場部更新一份文件,第二天每場銷售對話就能反映出來。
技術文件搜尋。工程知識庫動輒數百萬字。RAG 只檢索與每個問題相關的部分,把延遲與成本控制在合理範圍。
什麼時候微調才是更好的選擇?
當你需要一致的行為、特定的輸出格式、狹窄領域的語言、或超越提示工程與 RAG 所能達到的可量度效能提升時,就該選擇微調。最清晰的訊號是:你能說出想要的行為,但無法只靠指令穩定產出這個行為。
五個微調勝出的具體情境:
高度結構化輸出。如果每一份回應都必須遵循嚴謹結構,例如監管披露文件或保險理賠摘要,微調比提示工程能產出更穩定的格式。
專業術語。醫療、法律、工程領域使用的語言,前沿模型處理得並不完美。經微調的模型可以大規模匹配領域專家的詞彙。
品牌語氣與寫作風格。如果面向客戶的內容必須完全像你的組織的聲音,微調把語氣編碼進模型本身,比靠提示指令更穩定。
對延遲敏感的應用。較小的微調模型可以在本地或邊緣部署,回應時間以毫秒計,這是大型 RAG 系統難以達到的。
對成本敏感的高量任務。當微調後的小模型能勝任某項任務,每次調用的成本可比「前沿模型 + RAG」低 5 至 10 倍。對每月處理數百萬次查詢的組織,這個經濟差距非常重要。
為什麼 2026 年大多數企業架構都是 RAG 與微調的混合?
2026 年認真做企業 AI 的參考架構是混合式:經微調的模型負責一致行為與寫作風格,RAG 負責提供當前知識與引用。微調模型是推理引擎,RAG 是動態知識層。
實務上的混合模式:香港一家地區銀行對小型語言模型進行微調,覆蓋內部客戶溝通模式、監管披露用語、對受限話題的拒絕行為。同一個模型在推理時,再以 RAG 對接銀行的政策庫、產品目錄、利率表。微調確保每個回應在語氣、合規披露、超範圍查詢的拒絕上都正確。RAG 則確保每個產品事實、利率、政策條款都是最新且可引用。
這個模式現在已成金融服務、專業服務、受監管行業的標準。工程主管把它形容為「RAG 處理事實,微調處理行為」。這樣的措辭在董事會對話中尤其有用,因為它把抽象權衡轉化為非技術人員也能理解的語言。
對香港中型企業而言,真實成本如何比較?
對於 50 至 500 人的香港企業,純 RAG 部署的建置成本通常落在港幣 30 至 120 萬元區間,視文件量與整合深度而定。微調計劃會在此基礎上再增加港幣 20 至 60 萬元,加上每季的重新訓練成本。
2026 年實際部署的成本組成:
RAG 建置成本(一次性):文件導入與索引流程、向量資料庫授權、嵌入模型選型、檢索評估、應用整合、安全審查。對 100 萬至 1000 萬字的知識庫,與一家有能力的本地夥伴合作,通常需港幣 30 至 70 萬元。
RAG 營運成本(每月):向量資料庫託管、嵌入 API 調用、語言模型 API 調用、監控基建。對每月處理 3 萬至 10 萬次查詢的組織,預期每月港幣 1.5 至 8 萬元。
微調建置成本(一次性):訓練資料整理、訓練基建、評估工具、模型部署。對基於強開源模型的參數高效微調計劃,通常需港幣 20 至 50 萬元。
微調營運成本(每季):隨著資料、產品、語言演化進行重新訓練。每次重新訓練週期預期港幣 3 至 12 萬元。
成本與效益的對照比絕對成本更重要。根據麥肯錫 2025 年 State of AI 報告,將 AI 投資與結構化生產力追蹤搭配的組織,在目標工作流上於 12 個月內呈現出 15% 至 40% 的可量度改善。混合架構建置時間較長,但透過更高品質的輸出與規模化後的更低單次成本,能帶來複利式回報。
香港企業在架構選擇上最常犯的錯誤是什麼?
最常見的錯誤是該用 RAG 卻選了微調,通常是因為供應商偏好金額較大的合約。第二常見的錯誤是該用提示工程卻選了 RAG,把能力與預算白白浪費。
五個應該避免的錯誤:
跳過提示工程基線。在投入 RAG 或微調之前,先做兩到四週的結構化提示工程實驗。很多看似需要 RAG 的用例,靠一份強提示模板就能解決。
建 RAG 卻不做檢索評估。檢索錯文件的 RAG 系統,會用優美的格式自信地寫出完全錯誤的答案。檢索評估,通常使用一組獨立保留的「問題與文件」配對,是不可妥協的環節。
用低品質資料微調。微調會放大訓練集中的一切。直接用既有工單、電郵、文件做微調而不加整理的組織,常常做出一個自信複製員工過往錯誤的模型。
忽略資料駐留與隱私。RAG 與微調都涉及敏感企業資料。受《個人資料條例》規管的香港組織,必須查清向量儲存在哪裡、訓練在哪裡發生、訓練後模型內留下什麼。
低估維護負擔。RAG 文件索引會漂移。微調模型會變舊。兩者都需要持續投資,而供應商在銷售階段往往低調處理這部分。
給企業領導層的策略決策框架
三個問題能切穿大部分架構對話。先用提示工程開始,問:對這個用例,效果是否「足夠好」?答案是「是」,就上線並在六個月後重新檢視。答案是「否」,再問:差距是知識問題還是行為問題?知識問題用 RAG。行為問題用微調。大多數認真的企業系統最終會結合兩者,但這個結合應該由證據引導,而非由供應商偏好引導。
2026 年更深層的策略轉變是:AI 架構不再是一次性決定。今年正確的客戶服務助理架構,未必是明年正確的選擇,因為模型能力、成本、監管期望全都在動。能在 6 至 12 個月週期內持續評估、部署、再評估的企業領導者,會勝過那些根據今天快照就鎖死長期供應商合約的人。
UD 用 28 年時間,陪伴香港企業走過一個又一個這種規模的科技決定。我們看過足夠多的供應商週期,知道在複雜架構對話中最溫暖的安心感,來自一位早已熟悉這些權衡的夥伴。懂 AI 的冷,更懂你的難,UD 同行 28 年,讓科技成為有溫度的陪伴。
準備好為自己的 AI 架構決策建立信心?
掌握框架之後,下一步是把它對應到你的具體用例、資料、限制條件。我們的 AI Ready Check 評估會把你最重要的三個 AI 用例對應到正確的架構,附上成本區間與決策邏輯,讓你能直接帶進下一次預算對話。我們手把手帶你完成每一步,由首次用例工作坊到董事會層級的架構建議。