什麼是 AI 幻覺？企業風險管理框架

2026-04-30

什麼是 AI 幻覺？企業風險管理框架

2026 年大多數企業 AI 策略都卡在同一個錯誤命題上：要麼信任 AI，接受它有時會自信滿滿地編造事實；要麼不信任它，乾脆放棄整個生產力提升。這個框架是錯的。在 AI 部署上拉開距離的企業，早已跨過這條線。它們把幻覺視為一種可衡量、可管理的企業風險，與欺詐、網絡、營運風險屬於同一類別，而不是視為一個需要被消滅的模型缺陷。

如果你坐在一家香港企業推行生成式 AI 的高層席位，問題已經不再是「我們的 AI 會不會幻覺」。它一定會。問題是你的組織有沒有一套風險框架，能在幻覺到達客戶、監管機構或法庭文件之前把它截下來。Deloitte 2025 年《State of AI in the Enterprise》研究發現，47% 的企業 AI 用戶曾根據幻覺內容作出至少一個重要商業決策。這個數字就是你的起點。

本文會給你一套企業規模管理 AI 幻覺風險的框架，建基於美國國家標準與技術研究院 NIST AI 風險管理框架的生成式 AI 補充版（NIST-AI-600-1）、歐盟 AI 法案 2026 年執法指引，以及香港和區內金融服務及專業服務業實際部署所累積的營運經驗。

什麼是 AI 幻覺？為什麼它是企業風險問題？

AI 幻覺是一個技術術語，指生成式 AI 系統輸出的內容流暢、語氣自信，但事實錯誤。模型沒有故障，它正正做了它被設計去做的事，就是生成聽起來合理的文字。問題在於「聽起來合理」與「準確」並不是同一回事。對於需要簽合約、做核保決策、提交監管報告的企業來說，這個落差就是風險。

幻覺是企業風險問題，而不是研究問題，因為幻覺進入生產決策的代價是可以量化的。根據 2025 年史丹福 HAI 的研究，商用 AI 法律研究工具中平均每六次查詢就出現一次法律幻覺。

OpenAI 的法律團隊在 2024 年就因為美國法院發現律師提交了由 ChatGPT 生成的虛構案例引文而被處分。在金融服務業，一份投資者通訊中出現的幻覺重大披露，足以在香港披露制度下觸發證監會的執法行動。

為什麼 AI 模型即使在企業層面仍然會幻覺？

AI 模型會幻覺，是因為它們的設計目的是根據輸入產生統計上最可能的文字，而不是去核對某個真相來源。即使是最先進的 2026 年模型，例如 GPT-5.5、Claude Opus 4.6、Gemini 2.5 Pro，當被問及訓練資料中沒有的冷門事實、近期事件，或它覆蓋薄弱的領域時，仍然會幻覺。模型規模可以降低頻率，但不能消除這種行為。

三個結構性原因在每個企業部署中都會製造幻覺風險。第一是訓練資料局限：模型從未看過你公司的具體合約、客戶賬目或內部政策，所以被問到時就憑空編造。

第二是提示模糊：用戶的問題本身有多種解讀，模型挑了一個就跑下去，沒有再核對。第三是缺乏檢索基礎：模型被要求「靠記憶」回答，而不是從一份已經驗證的文件庫檢索，於是答案是被重構出來，而不是被檢索出來。

Vectara 的 2025 年幻覺排行榜追蹤主流模型在摘要任務上的幻覺率，最佳模型約 1.3%，較舊系統超過 8%。在一個每月處理 50,000 條查詢的企業環境，即使最低的幻覺率，每月仍會產生 650 個幻覺輸出。數量會改變風險的計算方式。

企業 AI 幻覺的商業成本是什麼？

企業 AI 幻覺的商業成本，是被發現時的補救成本，加上未被發現時的潛在監管與聲譽成本。直接成本包括事故調查、客戶通知、法律審查。間接成本包括用戶失去信任後的採用率衰減，以及執行層發起人退出。在受監管行業，一宗未被攔截的事故，足以超過整個 AI 計劃的總預算。

三類成本對管理層具有實際意義。

第一是直接補救：調查工時、客戶通知、輸出替換、任何商譽補償。根據區內銀行的營運風險基準，金融服務業一宗中等嚴重事故的處理成本介乎 5 萬至 20 萬港元。

第二是監管暴露。香港個人資料私隱專員公署在 2024 年發出 AI 處理個人資料指引，金管局 2024 年生成式 AI 原則要求認可機構展示人為監督與準確性控制。一宗在受監管決策中出現的重大 AI 失誤，足以觸發執法、罰款及強制補救程序。

第三是信任衰減。當用戶在自己的工作流程中經歷兩三次幻覺，他們會對 AI 失去信心，回到舊有流程。部署便悄然失敗，但變革管理與授權成本還留在賬上。這正是企業 AI 投資回報的隱形殺手。

企業 AI 幻覺風險框架是怎樣的？

企業幻覺風險框架包含五層：輸入控制、檢索基礎、輸出驗證、人為監督、事故記錄。每一層都降低幻覺輸出抵達重要決策的概率或影響。NIST AI 風險管理框架在 2024 年 7 月發布的生成式 AI 補充版，提供超過 200 項具體控制行動，作為這套方法的依據。

第一層是輸入控制。系統限制用戶可以提出什麼問題，無論是透過提示模板，還是透過查詢意圖分類器把高風險問題自動轉介人手處理。理財顧問不能單純詢問「這位客戶是否適合產品 X」，系統會強制拉取真實的合適度資料。

第二層是檢索基礎，通常以 Retrieval-Augmented Generation（RAG）形式實作。模型被強制只能從已策展的文件庫回答，並附上引用。如果來源不包含答案，模型必須說「找不到」，而不是編造。這是生產環境中最有效的單一幻覺控制機制。

第三層是輸出驗證。答案抵達用戶之前，自動化檢查會以蘊涵模型、事實提取比對或 LLM-as-judge 框架，與來源文件作核對。例如 2025 年 5 月發表的 FaithJudge 工具就是其中一個參考實作。

第四層是人為監督。對高風險輸出，由具備資格的人員審核並簽署，然後才行動。系統記錄審核者、時間以及任何修改。

第五層是事故記錄。每一個被偵測的幻覺都被記錄、按嚴重程度分類，並回饋到模型評估、提示調整或檢索改善。這個閉環把幻覺從一個重複出現的意外，變成一個被管理的風險。

應該如何衡量並向董事會報告 AI 幻覺風險？

你以三個每月匯報的數字衡量 AI 幻覺風險：幻覺率佔總輸出的百分比、按嚴重程度加權的事故數、行動前偵測率。這三個數字合在一起，能告訴董事會 AI 是否在變得更可靠、控制是否有效、走勢是否符合組織的風險胃納。

第一個數字是原始幻覺率。透過抽樣衡量，例如每週 200 個輸出由領域專家審核，並回報事實錯誤的百分比。Vectara 與 Patronus AI 2025 年的行業基準提供比較參考。一個有檢索基礎的企業系統，事實性問題的幻覺率應該低於 2%。

第二個是嚴重度加權事故數。並非所有幻覺同等重要。錯誤的餐廳推薦與錯誤的合約條款不能等量齊觀。框架按 1 至 4 分配嚴重程度，並追蹤每個級別隨時間的變化。

第三個是行動前偵測率。在所有發生的幻覺中，有多少百分比是在驗證或人為監督層被截下，沒有抵達客戶或監管機構。這是董事會最關鍵的數字，因為它衡量控制是否真正運作。

AI 幻覺風險對香港企業有什麼具體含義？

香港企業面對四種司法管轄區特定的風險向量，這些向量決定幻覺控制應該如何設計：流經 AI 的個人資料的個人資料條例合規、認可機構的金管局生成式 AI 指引、持牌金融活動的證監會準確性要求、以及英文、廣東話、普通話三語並行的營運現實，幻覺在不同語言中可能以不同模式發生。

個人資料條例的關係很直接：關於可識別個人的幻覺輸出，可能構成不準確的個人資料，觸發資料準確原則的義務。私隱專員公署 2024 年的 AI 使用指引明確指出，資料使用者仍須承擔責任。

金管局的關係要求認可機構展示，用於客戶層面或風險決策的生成式 AI，已具備有文件記錄的準確性控制、人為監督、事故管理。證監會的關係再加一條：持牌法團必須確保與客戶的通訊準確而不誤導，這直接覆蓋幻覺投資評論。

三語現實則是營運層面的問題。模型在不同語言下的幻覺率往往不同，驗證層必須在三種語言中均經測試。一個只驗證英文輸出的控制框架，會讓廣東話與普通話路徑暴露，而在香港企業中，那正是大部分客戶互動的所在地。

策略結論

2026 年真正能從 AI 中獲取價值的企業，並非擁有最大模型或最大規模部署的企業，而是把幻覺視為一個被管理的風險，配上具名控制、每月指標、執行層問責，與處理信貸風險、欺詐風險、網絡風險用同一個方法。做得好，幻覺就會由一個董事會層面的恐懼，變成一個董事會層面的數字，每季都在變好。

懂AI，更懂你。UD 相伴，AI 不冷。

如果你的 AI 部署還未建立明確的幻覺風險框架，下一步應該是進行一次結構化的準備度評估，把現有控制與 NIST 生成式 AI 補充版及金管局期望逐項對照。我們的團隊會手把手帶你完成每一步，由控制差距審計、框架設計，到監測與匯報架設，28 年香港企業服務經驗，全程陪你走完。

立即開始 AI 風險準備度檢測

購物車

什麼是 AI 幻覺？企業風險管理框架

什麼是 AI 幻覺？為什麼它是企業風險問題？

為什麼 AI 模型即使在企業層面仍然會幻覺？

企業 AI 幻覺的商業成本是什麼？

企業 AI 幻覺風險框架是怎樣的？

應該如何衡量並向董事會報告 AI 幻覺風險？

AI 幻覺風險對香港企業有什麼具體含義？

策略結論