自洽提示法:默默勝過思維鏈的進階提示技術
2026-05-05什麼是自洽提示法?為何它能勝過思維鏈?
自洽提示法(Self-Consistency Prompting)是一種技術:用相同的提示在非零溫度下執行多次,收集所有答案,然後選出出現次數最多的那個。你不再相信單一推理鏈,而是讓模型自己投票。Google Research 在 2022 年的原始論文顯示,這個技術在 GSM8K 數學基準上比單純思維鏈提升了 17.9 個百分點,而這個優勢在更新的模型上依然成立。
多數實踐者聽過思維鏈(CoT)。卻很少人聽過自洽提示法,儘管它就在同一個工具箱裡,距離思維鏈只有一步,並且在任何涉及推理的任務上穩定勝出。這個落差很奇怪。CoT 拿到了行銷曝光。自洽法卻在做真正的工作。
上週我用同一組商業推理任務測試兩者。單次 CoT 答對 10 題中的 6 題。用 5 個樣本的自洽法答對 9 題。這不是小幅提升。這是從「能用的工具」變成「不能信的工具」的差距。下面這個技術解釋它如何運作,以及如何不寫程式碼就能用上。
自洽提示法在底層是怎樣運作的?
自洽法透過取樣多條推理路徑、再對最終答案多數投票來運作。你把同一個提示送進模型多次,溫度設為大於零,模型每次會產出不同的推理鏈,最常出現的答案勝出。背後的原則是:正確的推理路徑會收斂到同一個答案,而錯誤的路徑會隨機分散。
數學上很簡單,直覺上卻微妙。單一推理鏈的準確率大約等於模型在該任務上的底層能力。執行五條推理鏈再投票,會過濾掉任何單條鏈可能犯下的隨機錯誤。錯誤不會剛好都是同一個錯誤答案,但正確答案會反覆出現。
原始論文嚴謹地做了基準測試。在 GSM8K 數學題上,單純思維鏈準確率約 56%。自洽法用 40 個樣本路徑推到 74%。在 AQuA 算術任務上,提升幅度是 12.2 個百分點。在 StrategyQA 之類的常識推理基準上,6.4 個百分點。每一個有人測過、需要推理的基準都呈現相同模式。
更有趣的是,多數提升在早期就出現。五個樣本就能拿到大約 70% 的提升。十個樣本拿到 90%。邊際效益遞減意味著你在生產環境中其實不需要 40 個樣本。對多數實踐者工作而言,五個就是甜蜜點。
什麼時候該用自洽法、什麼時候用思維鏈?
當任務有單一可驗證的正確答案、且答錯成本很高時,用自洽法。當你只想要一個有結構的回應、速度更重要時,用單純思維鏈。自洽法會把單次 CoT 呼叫的成本與延遲增加 4 至 9 倍,所以這個提升只有在準確性確實比速度重要時才划算。
自洽法明顯勝出的具體情境包括:計算包含多個項目的報價,總額必須正確;從凌亂文件中抽取結構化資料,一個欄位錯就會破壞下游流程;把客服工單分類到正確類別,分錯就要付成本;回答模型曾經錯過、你已不再信任單次回答的事實性問題。
單純 CoT 已足夠的情境:起草電郵這類有許多可接受答案的任務;想要變化的腦力激盪;摘要文件時目標是覆蓋範圍而非單一正確答案;任何沒有「正確」輸出可收斂的創意或開放式工作。
誠實的測試是問自己:如果我把這個提示跑五次,我希望看到五個相似的答案,還是五個不同的?自洽法假設你想要相似。如果你想要不同,你尋求的是多樣性,不是投票。
怎樣不寫程式碼就執行自洽法?
你可以在任何聊天介面手動執行自洽法,10 分鐘內就能完成。關鍵是讓提示在每次執行時保持完全相同,並且每次都從新對話開始。在 ChatGPT 或 Claude 中開五個分頁或新對話,把同一個提示貼進每一個,然後比較答案。出現最多次的答案勝出。這是無代碼路徑,任何實踐者都能用。
任何推理任務都能用這個提示模板:
--- 你是一個謹慎的分析師。請逐步推理解決這個問題。展示你的推理過程,然後在最後一行用「最終答案:」標示你的答案。
--- 問題:[在這裡填入你的具體問題或任務]
--- 限制條件:[列出答案必須遵守的任何規則]
--- 輸出格式:分步驟編號的推理,然後一行「最終答案:[你的答案]」。
在五個獨立對話中各跑一次這個提示。看所有五個「最終答案:」那一行。出現至少三次的答案就是贏家。如果沒有任何答案拿下多數,這本身就是資訊:模型不確定,你應該自己檢查問題或修改提示。
具體例子,計算多級定價問題的折扣:
--- 問題:客戶買 12 件商品,每件 850 港元。買 10 件以上享 9 折,加上首次客戶定額減免 200 港元。最終總價是多少港元?
--- 跑五次,最常出現的會是 9,180 港元(這是正確答案)。偶爾會有一條鏈把折扣順序搞錯,給出 9,000 或 9,250 港元。投票會抓出錯誤。
怎樣不靠工程協助也能自動化自洽法?
可以的。你能在 Zapier、Make、n8n 與 Claude Projects 等工具中自動化自洽法,完全不用寫程式碼。訣竅是用每個工具的「迴圈」或「迭代器」功能,把同一個提示送出多次,再用一個簡單的文字比對步驟找出最常見的答案。一次設定大約 30 分鐘,之後工作流會永久執行。
在 n8n 中,整個流程長這樣。觸發器節點,然後一個 Set 節點存放提示模板,然後一個 Loop 節點設為 5 次迭代,迴圈內放一個 OpenAI 或 Claude 節點執行提示,然後一個 Code 節點(或用簡單表達式的 Function 步驟)收集答案並計算眾數。把勝出的答案輸出到你需要的地方:Slack 頻道、試算表行、電郵草稿。
在 Claude Projects 裡,你可以設定一個專案,系統提示寫「當被要求時,內部執行此分析五次,然後回報多數答案」。這在 API 層面嚴格來說不是自洽法,但它給你一個偽版本,對許多實際情境都有效。配合 Claude 的延伸思考模式,能拿到更大的提升。
對於 Zapier 或 Make 使用者,模式相同。用「iterate」或「repeater」模組並行觸發 5 次 OpenAI 呼叫,然後用 Formatter 步驟計算次數。在現代模型上,整個流程跑完大約 4 至 8 秒,足夠快可以放進真實工作流。
使用自洽法時最常見的錯誤是什麼?
第一個常見錯誤是用溫度 0。自洽法需要推理路徑的多樣性。在溫度 0 下,模型每次都產出相同的鏈,投票就失去意義。取樣時把溫度設在 0.7 至 1.0 之間。原始論文用 0.7。這是安全的預設值。
第二個錯誤是比較整段推理鏈而不是只比最終答案。兩條都正確的鏈可能用完全不同的方式描述推理。投票時只有最終答案重要。強迫模型把最終答案標示在獨立一行,讓抽取變成機械化動作而非模糊判讀。
第三個錯誤是樣本太少。跑兩次不算自洽法,那只是檢查工作。三個樣本可能平手。五個是穩定多數投票的實際下限。如果 5 票跑完沒有多數,這本身就是訊號:模型確實不確定。
第四個錯誤是把自洽法用在沒有單一正確答案的任務上。如果你叫模型寫五次詩然後挑最常見的,你只是選了最普通的那首。自洽法是給收斂任務用的,不是發散任務。先搞清楚你在做哪一種。
怎樣衡量自洽法是否值回成本?
最簡單的衡量方式是在已知答案的任務組上追蹤準確率。挑 20 個你已知正確答案的問題。對全部 20 題執行單純 CoT。對全部 20 題執行 5 樣本自洽法。數一下各自答對幾題。如果自洽法多答對 3 題以上,這個技術就值得用。多數實踐者工作流顯示每 20 題會多答對 2 至 5 題。
成本面更容易算。每次自洽法執行的 token 與時間大約是單次 CoT 呼叫的 5 倍。如果你一天做 100 個推理任務、每個用 5 個樣本,就是 500 次呼叫而不是 100 次。對高風險工作划算,對低風險工作就太奢侈。
多數實踐者最終會選擇性使用自洽法:用在 10 至 20% 真正在意準確性的任務上,而不是每個任務。這是正確做法。紀律在於提前認出哪些任務屬於高風險桶,只把那些路由到自洽法。其餘可以維持單純 CoT 或不用 CoT。
結論:投票是 AI 中最便宜的可靠性技巧
自洽法不需要新工具、新模型或新 API。它需要的是把提示跑超過一次、然後選出現最多次的答案的那種紀律。就這樣。它的機械式簡單,正是它被忽視的原因。人們期待 AI 技術看起來精密。這個感覺像是問五個人同一個問題、然後跟著共識走。它就是剛好有效。
持久的收穫是:AI 的可靠性很少關乎模型本身。可靠性關乎你圍繞模型建立的工作流。自洽法跟所有最好的實踐者技巧一樣,是工作流層面的動作。任何人明天都能用。多數人不會。
懂AI的冷,更懂你的難 — UD 同行28年,讓科技成為有溫度的陪伴。2026 年真正能把 AI 工作做穩的團隊,不是擁有最聰明模型的那群,而是擁有最乾淨工作流的那群。
準備好建立可靠的 AI 工作流?
自洽法只是一個技術。把它建進每天都會穩定執行的工作流,又是另一回事。UD 的 AI Battle Staff 平台讓你用真實情境壓力測試提示與 AI 員工配置,UD 團隊手把手帶你完成每一步,設計出能持續產出穩定結果的工作流。