一直覺得小龍蝦只會打字有點可惜。研究了一下發現它可以用任何你授權使用的聲音來說話,效果出來的時候確實驚到我了。(跟導航是一個原理 更自由一些懂的都懂 嘿嘿嘿)
這篇教你從零把這個功能裝好。
前置條件:OpenClaw 2026.3.x,Python 3.x,ffmpeg 已安裝。

你需要準備什麼
一臺電腦,Mac、Windows、Linux 都可以。
最重要的是 Noiz API Key,這是整個教程的核心,它是一個 AI 語音克隆平臺中文支持很好。獲取步驟:
打開瀏覽器訪問 developers.noiz.ai/api-keys,註冊賬號進入 Dashboard 點擊 Create API Key,複製保存好只顯示一次。

第一步:安裝語音技能
先裝 Python 依賴:
pip install noisereduce soundfile requests
檢查 ffmpeg 是否已安裝:
ffmpeg -version
沒有的話,Mac 用戶跑 brew install ffmpeg,Ubuntu 用戶跑 apt install ffmpeg。
然後配置 Noiz API Key:
echo 'export NOIZ_API_KEY="你的APIKey"' >> ~/.bashrc
source ~/.bashrc
第二步:準備聲音樣本
聲音樣本的質量直接決定克隆效果這一步最關鍵。
用你自己的聲音(或者你喜歡的聲音)錄一段 20-30 秒的音頻,要求:純人聲 沒有背景音樂、聲音清晰、音量適中。錄完轉成 WAV 格式命名爲 my_voice.wav。

如果錄音有雜音,用這段代碼降噪:
import numpy as np
import soundfile as sf
import noisereduce as nr
data, rate = sf.read('my_voice.wav')
if len(data.shape) > 1:
data = np.mean(data, axis=1)
noise_sample = data[:int(rate * 0.3)]
reduced = nr.reduce_noise(y=data, sr=rate, y_noise=noise_sample, prop_decrease=0.8)
sf.write('my_voice_clean.wav', reduced, rate)
print("降噪完成")
```
代碼格式問題建議餵給 AI 幫你修改。

第三步:測試聲音克隆
python3 ~/.openclaw/workspace/skills/tts/scripts/tts.py \
-t "你好,歡迎來到我的直播間" \
--ref-audio my_voice_clean.wav \
-o test_output.wav \
--backend noiz
```
播放聽效果:
```
# Mac
afplay test_output.wav
# Linux
aplay test_output.wav

第四步:接入小龍蝦
在 config.yaml 里加入語音輸出配置:
tools:
media:
audio:
enabled: true
tts:
enabled: true
backend: noiz
apiKey: YOUR_NOIZ_API_KEY
refAudio: /path/to/my_voice_clean.wav
```
配好之後發給小龍蝦:
```
用語音播報:今天 BTC 價格是 83000 美元,24小時漲幅 2.3%
```
它會生成一段用你聲音說的音頻,直接發回 Telegram。
---
常見問題
API Key 配置失敗提示 Invalid API Key:檢查環境變量有沒有設置成功,跑 `echo $NOIZ_API_KEY`,沒有輸出說明沒設置好。
音頻格式不對提示 Unsupported audio format:Noiz 需要 16000 Hz 採樣率、16 bit 位深、單聲道的 WAV 文件,用這條命令轉換:
```
ffmpeg -i input.mp3 -acodec pcm_s16le -ar 16000 -ac 1 output.wav
克隆效果不像:樣本太短或者有雜音,重新錄一段 30 秒以上的乾淨音頻再試。

進階:直播時實時播報
配合 Heartbeat,每隔 30 分鐘自動生成一段用你聲音播報的市場簡報,直接發到 Telegram,直播時直接播給觀衆聽
heartbeat:
schedules:
- cron: "*/30 "
prompt: |
搜索最新 BTC ETH 價格和重要動態,
用語音播報格式生成一段 50 字以內的簡報,
用我的聲音合成音頻發給我。
