Deepgram | Fivey Can Read OpenClaw

先讲这一页到底在解决什么

Deepgram 接入：填一个 API Key，语音消息自动转文字

把 Deepgram 的 API Key 配进环境变量，再在 tools.media.audio 里把 provider 设为 deepgram，语音消息就能自动转成文字注入对话。注意这是非流式转录，整段音频上传完才出结果，不是实时转写。

原文共 6 节，先看 Start Here 路径：/providers/deepgram 查看官方原文

第一步

🔑 先把听写员的工牌交进去

没有 DEEPGRAM_API_KEY，OpenClaw 就算收到音频，也不知道该把录音带交给谁。

DEEPGRAM_API_KEY=dg_...

像给听写员发工牌。工牌在，后面上传音频时它才肯接活。

后台进程也要看得到

如果 Gateway 在后台值班，这把钥匙也得放到后台摸得到的地方，比如 ~/.openclaw/.env。

🎈 一句话

先发工牌，再谈转写质量。

第二步

🧰 那段 `tools.media.audio` 配置，其实是在打开“音频处理台”

看起来像一大坨 JSON，翻成人话只是三件事：开机、选听写员、选听写模型。

✅

`enabled: true`

像把音频处理台的电源拨到开。

👂

`provider: deepgram`

像告诉前台：“今天负责听写的是 Deepgram。”

📝

`model: nova-3`

像给听写员指定一支常用笔，官方默认就用这支。

📮

`{{Transcript}}` + `[Audio]`

意思是转写出来的字，会被塞进后面的回复管道，不会凭空消失。

第三步

🎛 那几个选项，都是在教听写员“要不要更聪明地整理稿子”

这些开关不是玄学，它们就是整理文字的不同小帮手。

language

像提前告诉它“这段大概是什么语言”，这样它更容易少听错。

detect_language

像让它自己先猜这人到底在讲哪种语言。

punctuate

像让它补逗号句号，不要把整段话写成一条长长面条。

smart_format

像让它顺手把一些数字、时间、格式整理得更像人会写的样子。

最后总结

🎈 把 Deepgram 这页压成一句最好记的话

Deepgram 是 OpenClaw 的语音听写员。你给它工牌、打开音频处理台、选好模型，它就会把收到的声音先翻成字，再交给后面的聊天流程继续处理。

如果你现在看的不是语音，而是要选聊天主模型，就回到普通 provider 页去选大脑，不要把听写员和大脑混成一件事。

Deepgram 接入：填一个 API Key，语音消息自动转文字

🔑 先把听写员的工牌交进去

🧰 那段 tools.media.audio 配置，其实是在打开“音频处理台”

enabled: true

provider: deepgram

model: nova-3

{{Transcript}} + [Audio]