什麼是 AI Token？每張 AI 帳單背後的隱形單位

2026-04-23

什麼是 AI Token？一個老闆都聽得懂的定義

關於 AI 收費，有一個流傳已久的說法——大部分都是錯的。很多老闆以為是「按每條問題收費」，但其實不是。AI 按「token」收費。

Token 是 AI 模型讀取、處理、向你收費的最小文字單位。一個英文 token 大約是 4 個英文字母，即約 0.75 個英文單字。中文方面，一個中文字通常是 1 至 2 個 token。你每一條提問、AI 每一段回覆，都會先被切成一堆 token，模型才會動手處理。

當你看到「GPT-4 每 100 萬個 input token 收費 10 美元」，換算回來大約是每 75 萬英文字 10 美元——大概是 10 本長篇小說的字數。

Token 就是每一張 AI 帳單、每一個「上下文長度」限制、每一次「個模型太慢」抱怨背後的計量單位。

Tokenization 究竟是怎樣運作？

Tokenization（分詞）是把文字切成小單位（token）的過程，這些單位才是 AI 模型真正能用數學處理的對象。模型其實看不見「字母」或「字」，它看到的是一串 token 編號。

英文「unbelievable」可能會被切成三個 token：un、believ、able。中文「香港」可能是一個 token，也可能是兩個，視乎不同模型的切分方式。模型詞彙表裡每個獨特的 token 都對應一個數字，AI 真正處理的就是這些數字。

粗略估算 token 數量：

--- 英文：1 個字 ≈ 1.3 個 token。100 字大約 130 個 token。

--- 繁體中文：1 個中文字 ≈ 1.5–2 個 token。100 個字大約 150–200 個 token。

--- 程式碼：非常浮動，標點和運算符經常各自佔一個 token。

這點很重要，因為中文在同一個模型下「每個字消耗的 token」比英文多。同一個意思用中文表達，token 消耗往往是英文的大約 2 倍——成本也大約是 2 倍。

輸入 token 和輸出 token 有什麼分別？

每一次 AI 對話，其實有兩個 token 計數器同時在跑。輸入 token是你發送給模型的一切——你的問題、系統提示、附上的文件；輸出 token則是模型寫回來的一切。兩者定價不同，而且輸出 token 幾乎永遠比較貴。

以 GPT-4 Turbo 2026 年定價為例，輸入 token 每 100 萬約 10 美元，但輸出 token 每 100 萬約 30 美元。3 倍差距不是四捨五入誤差，而是思考 AI 成本時必須納入的核心事實。

對業務的啟示：

--- 短提問配長回覆，成本主要落在輸出 token——昂貴的那種。

--- 長文件配短摘要，成本主要落在輸入 token——便宜的那種。

--- 簡單一句「請簡短回答」或「字數限 100 字以內」，在大量工作下可以直接節省 40 至 60% 開支，而質素幾乎不變。

如果你大規模用 AI 但從未審視過輸入與輸出的比例，你幾乎肯定正在付多了錢。

什麼是上下文長度（Context Window）？它如何消耗 token？

上下文長度（Context Window）是模型單次對話中「一眼能看到」的最大 token 數——包括輸入加輸出。當有人說「Claude 上下文長度 20 萬 token」，意思是你最多可以在一個提示裡塞入約 15 萬個英文字（等於一部長篇小說）。

每當你發送一條新訊息，模型會重新讀取當前對話的整個歷史。長對話中，舊訊息每一輪都會被重新計算 token。

2026 年常見上下文長度：

--- GPT-4o：128,000 token（約 96,000 英文字）

--- Claude 4：標準 200,000 token，企業版最高 1,000,000 token

--- Gemini 2.5 Pro：1,000,000 token（約 75 萬英文字）

上下文越長不一定越好。處理一百萬 token 既慢又貴。對大部分中小企應用而言，8,000 至 32,000 token 已經非常足夠。

Token 實際上如何出現在香港中小企的帳單？

一間小企用 AI 做客服、寫內容、整理文件，每月 AI token 開支通常介乎港幣 200 至 3,000 元之間，視乎用量、選用模型，以及提示長度管理得好不好。

三個真實成本例子（以 2026 年 GPT-4o 定價計算）：

--- 物業代理每月撰寫 50 份樓盤描述。每份平均輸入 600 中文字，輸出 400 字。每月成本約 30 港元。

--- 一間精品店每月處理 500 條 AI 輔助客戶查詢。每條對話平均輸入 300 token、輸出 200 token。每月約 150 至 250 港元。

--- 一間會計公司每月用 AI 抽取 2,000 張發票資料。輸入重（每張 1,500 token），輸出短（150 token）。每月約 800 至 1,200 港元。

「AI 太貴」的說法，大部分來自「用最大最貴的模型做最小最簡單的任務」——其實換一個小模型，成本可能只是二十分之一。

能否減少 AI token 成本而不犧牲質素？

大部分香港中小企可以在不影響輸出質素的情況下，削減 40 至 70% 的 AI token 開支。節省的來源不是少用 AI，而是提示衛生、模型選擇和輸出管理。

五個經得起驗證的省錢做法：

--- 選對模型大小。常規任務用 GPT-4o mini 或 Claude Haiku，困難推理才用 GPT-4 或 Claude Sonnet。通常可節省 80 至 90%。

--- 限制輸出長度。在系統提示加上「100 字內作答」。通常可節省 30 至 50% 輸出 token。

--- 快取重複的輸入。如果你的系統提示有 2,000 token，每日重複發送 1,000 次，用 OpenAI 或 Anthropic 提供的 prompt cache 功能，這部分成本可削減大約 90%。

--- 先壓縮長文件再餵給 AI。80 頁 PDF 先整理成 2 頁摘要再提問，輸入 token 成本可節省 95%。

--- 改用批次 API。OpenAI 和 Anthropic 的非即時批次工作有 50% 折扣，適合夜間分析或大量內容生成。

大部分中小企沒有用到這五個槓桿，純粹是因為沒有人告訴他們這些槓桿存在。

選擇 AI 工具時，為什麼 token 這麼重要？

兩個「標價差不多」的 AI 工具，實際成本可能差天共地。一個模型即使定價每 100 萬 token 5 美元，但處理同一任務消耗 3 倍 token，其實比定價 10 美元但更省 token 的模型貴得多。

Token 效率取決於 tokenizer（分詞器）設計。根據 Hugging Face 2024 年一份基準報告，部分針對中文優化的開源 tokenizer，在繁體中文上比通用英文 tokenizer 少用 30 至 40% token——在大規模使用下，這個差距非常可觀。

選擇 AI 工具前應該問的問題：

--- 官方公布的輸入、輸出 token 價錢是多少？

--- 它的 tokenizer 如何處理中文？

--- 有沒有 prompt caching？折扣幾多？

--- 有沒有批次 API 供非即時任務使用？

正確的問題從來不是「每月幾多錢」，而是「在我實際業務流程中，每 1,000 次客戶互動要花多少」。

香港中小企老闆的結論

Token 是決定你實際花多少錢用 AI 的隱形單位。一旦理解 token，AI 定價就不再是黑箱，而是像任何其他營運成本一樣——可量度、可管理、可優化。

你不需要變成 tokenization 專家，你只需要清楚：你的業務流程中 token 從哪裡來、每個 token 值多少、哪些槓桿可以減成本而不犧牲質素。

懂AI，更懂你。UD相伴，AI不冷。

在 AI 成本失控之前，先看清楚它

AI 收費表面上很複雜，但只要有人把你實際工作流程中的 token 去向一一講清楚，它就會變得簡單。
UD 與香港中小企同行 28 年，手把手教你每一步：審視你目前的 AI 使用情況、選對模型、削走浪費的 token，同時保住輸出質素。
由免費 AI 體檢開始——沒有承諾，沒有術語。

免費做 AI 體檢

了解 AI Staff Solution

購物車