5 分鐘用 ElevenLabs 做出 AI 語音助理:實戰入門指南
2026-05-075 分鐘做出一個能用的 AI 語音助理:ElevenLabs 入門指南
有一類工具一年前還沒有成熟的「無代碼」入口:你可以在電話線、WhatsApp 或網站聊天視窗上部署一個語音 AI,整個過程不需要寫一行程式。ElevenLabs Agents 目前是最乾淨的入口,做出第一個能用的語音助理大約只需 5 分鐘。大多數實踐者尚未動手試,這正是值得認真看看它的原因。
本文會帶你了解 ElevenLabs 語音助理究竟是甚麼、它能做與不能做的事,以及一個 5 分鐘就能讓你看到實際 demo 的設定流程。文末附上一份針對香港前台場景優化的系統提示模板,因為「驚艷的 demo」與「無用的助理」之間的差距,幾乎完全來自提示詞。
ElevenLabs 語音助理是甚麼?
ElevenLabs Agents 是一個無代碼平台,把四件事打包在一起:超擬真的文字轉語音(TTS)、調校過的語音識別(STT)、決定何時聆聽何時開口的對話節奏模型,以及與 GPT-4o 或 Claude 等 LLM 的連接能力。你定義角色、撰寫提示、選擇性上傳知識檔,平台就會把助理部署到電話號碼、WhatsApp 商業號碼或網站聊天視窗。
產品支援 70 種以上語言,並具備工具呼叫(tool calling)能力,這代表助理在通話過程中可以執行真實動作:預約會面、查詢訂單、寄出跟進電郵、轉接真人。ElevenLabs 官方表示首個助理的建構時間大約 5 分鐘,這與實務上的體感一致。
對香港實踐者而言,真正落地的應用情境是:個人專業人士的接聽服務、非辦公時間的客戶分流、診所或美容院的預約處理、輕量級外撥資格篩查。這些情境裡,一個「七成準確」的語音助理勝過完全沒有助理。
如何建立你的第一個 ElevenLabs 語音助理?
每個應用情境的 5 分鐘流程其實一樣。登入後點擊 Agents,選一個起始模板或從空白開始,定義角色與個性,貼上系統提示,選擇性上傳 PDF 或貼上網址作為知識庫,最後挑一個聲音。語音識別、語音合成、對話節奏由平台自動處理。
步驟順序如下:
--- 步驟 1:到 elevenlabs.io 登入,打開 Agents 區。
--- 步驟 2:點擊 New agent。如果用途吻合「客戶支援」或「接待員」模板就用,不然從空白開始。
--- 步驟 3:填寫助理名稱與一句話描述。這是中介資料,使用者看不到。
--- 步驟 4:貼上系統提示。這是唯一決定助理是否好用的部分,模板見下文。
--- 步驟 5:上傳知識庫。PDF 菜單、FAQ、營業時間、價目表,所有穩定不變的事實。第一版控制在五份檔案以內。
--- 步驟 6:從聲音庫挑一把聲音。粵語為主的香港受眾,建議測試兩到三把多語言聲音,每把聽 30 秒樣本再決定。
--- 步驟 7:點擊 Test。用瀏覽器內建麥克風試講,邊講邊改提示,直到助理穩定守住劇本。
到這裡可以暫停,做一個內部 demo。要把它接上電話號碼或 WhatsApp,ElevenLabs 在同一個介面整合了 SIP 與 WhatsApp Business,這正是它比自建快的地方。
系統提示應該寫些甚麼?
系統提示決定助理九成的行為。提示寫得弱,助理會跑題、亂報價格、與來電者搶話。提示寫得強,助理的身份、範圍、對話規則、升級路徑都會被牢牢鎖住。下面這個結構適用於大多數接待、客服、分流場景。
把以下內容貼為助理的系統提示:
你是 Maya,[商號名稱] 的前台語音助理。[商號名稱] 是位於 [地段,例如香港銅鑼灣] 的 [行業,例如牙科診所]。你以 [英文/粵語/普通話] 回應,來電者切換語言時你跟著切。你語氣溫暖、平靜、簡潔,絕不機械化。
你的工作
--- 問候來電者,詢問可以怎樣幫忙。
--- 只根據已上傳的知識庫,回答關於營業時間、地點、價格、服務的問題。
--- 透過預約工具,建立或改期約會。
--- 來電者要求回覆時,記下訊息並寄出跟進電郵。
規則
--- 不得自行虛構價格、營業時間或服務。知識庫沒有的內容,請說「這個資訊我這邊沒有,幫你轉給同事」並觸發真人轉接工具。
--- 不得提供醫療、法律、財務建議,請轉接適當的真人。
--- 每次回覆控制在三句以內,除非來電者明確要求詳細解釋。語音不是文字,長答覆會像在訓話。
--- 來電者情緒激動時,先放下劇本。用一句話承認對方的不悅,再問一個具體釐清問題。
後備方案
--- 兩次仍無法理解來電者,請說「讓我請真人同事接手」,立即轉接。
--- 來電者要求找經理,立即轉接,不要嘗試自己處理。
--- 通話結束前,給出明確的下一步:已確認的預約、約定的回電時間、或一封電郵摘要。
把方括號內的細節換成你商號的實際資訊。先做 60 秒測試,30 秒內你就能聽出語氣與規則是否到位。
運行一個語音助理要多少錢?
ElevenLabs Agents 的計費按通話分鐘數計算,由三層成本構成:語音識別、語音合成、LLM 呼叫。截至 2026 年初,採用中等聲音與 GPT-4o-mini 作為底層 LLM 的典型配置,實務成本大約落在每分鐘 USD 0.08 至 0.20 之間。頂級聲音與旗艦級 LLM 會把費用推高。
以一間診所每天接 15 通電話、平均每通三分鐘為例,每天大約 USD 4–9,每月 USD 120–270。這明顯低於聘用兼職前台的成本,但也不是免費,所以關鍵是通話量。如果你每天通話總時長低於 30 分鐘,數學上要成立的關鍵,是把目前漏接的「下班時段」也算進去。
大多數團隊忘記計算的隱藏成本是反覆優化的時間。任何語音助理的第一版都只有六成水準,從六成走到九成大約要做 3 到 5 輪測試通話與提示修改。第一次建構預留兩小時,第一個月每週再預留一小時。
語音助理在哪些情境最容易出狀況?
語音助理在範圍狹窄、規則明確的任務裡可靠,在範圍蔓延時不可靠。最常見的失敗模式,是要一個助理在一通通話裡同時處理太多事。預約、查詢、投訴、外撥推介塞在同一個助理裡,全部都會做不好。一個助理只做一份工作。
第二個失敗模式是處理複雜姓名與數字。即使是最好的語音識別,遇到粵語拼音化的英文名字、快速說出的香港門牌號碼、三位一組的電話號碼,都會出錯。系統提示裡務必加入確認步驟:「我重複一次給你聽。」
第三個失敗模式是沉默處理。舊式語音助理不是搶話就是冷場數秒。ElevenLabs 的對話節奏模型處理得比大多數產品好,但你還是要找一個說話會中途停頓的人來測試,看助理如何回應。系統提示裡關於停頓長度與釐清問題的規則能補上這一段。
最後一條也是最關鍵的注意事項:語音助理會留下客戶對話紀錄。請確保你的私隱聲明與通話錄音告知條款明確涵蓋「自動語音助理」這一項。在香港,《個人資料(私隱)條例》同樣適用,「是 AI 接的電話」並不是免責理由。
第一個應該做的語音助理是哪一種?
對實踐者最容易上手的第一個助理,是非辦公時間的資訊熱線。範圍:來電者問營業時間、地點、服務、價格;助理依知識庫回答,再提供留言或安排回電。沒有預約、沒有付款、沒有複雜邏輯。這是一個週六下午能從構想做到上線的助理。
第二個容易上手的是單一服務預約助理。加上 Calendly 或 Cal.com 之類的日曆工具,讓助理能查可預約時段並建立預約。先只支援一種服務(例如「30 分鐘諮詢」),跑順之後再一次新增一項服務。
第三層才是外撥資格篩查。助理打電話給名單,問三到四條預先設計好的問題,再把結果寫回 CRM。這只適合對暖名單,不適合冷名單;冷名單的外撥語音 AI 在香港在道德與法律上都很複雜。
跳過複雜的多步助理,先把簡單版本上線,看看真實來電者的反應。語音的容錯空間遠不及文字,因為來電者無法往上滑、再讀一次。
5 分鐘測試法:判斷助理是否可以上線
把任何語音助理接上真實電話號碼前,先跑一遍以下五分鐘測試。這是團隊內部使用的腳本,能找出八成你最終會在真實顧客身上才發現的問題。
--- 測試 1(清楚提問):「請問你們星期六幾點開?」助理應該乾淨地從知識庫回答。如果它虛構,代表知識庫不完整或提示沒有把它鎖在知識庫範圍內。
--- 測試 2(範圍外提問):「可以教我怎樣投資強積金嗎?」助理應該禮貌拒絕並提出留言。如果它真的開始回答,護欄太鬆。
--- 測試 3(打斷):在助理講話途中插話。它應該停下、聆聽、回應新內容。如果它繼續講,對話節奏設定有誤。
--- 測試 4(含糊姓名):很快地報出你的名字。助理應該請你拼出來或重複念給你聽。如果它直接接下去,提示裡的確認規則沒有寫好。
--- 測試 5(升級):要求找經理。助理應該立即轉接或記下留言。如果它嘗試自己處理投訴,升級規則沒有寫好。
五項全過的助理,可以對內部使用者軟啟動。一項以上沒過的助理,還沒準備好接付費客戶,硬上線是團隊一週後悄悄把語音助理關掉的最常見原因。
懂AI的冷,更懂你的難 — UD 同行28年,讓科技成為有溫度的陪伴。 對的語音助理不會取代真人,它只負責真人接不到的那些電話。
???? 想為你的業務部署語音助理嗎?
掌握了這個技術,下一步是為你的業務挑選合適的聲音、知識庫與整合方式。UD 團隊手把手帶你完成每一步,從提示設計到電話號碼上線部署,讓你的 AI 助理替團隊接住那些原本接不到的電話。