Providers 导读

Deepgram 接入:填一个 API Key,语音消息自动转文字

把 Deepgram 的 API Key 配进环境变量,再在 tools.media.audio 里把 provider 设为 deepgram,语音消息就能自动转成文字注入对话。注意这是非流式转录,整段音频上传完才出结果,不是实时转写。

先讲这一页到底在解决什么

Deepgram 接入:填一个 API Key,语音消息自动转文字

把 Deepgram 的 API Key 配进环境变量,再在 tools.media.audio 里把 provider 设为 deepgram,语音消息就能自动转成文字注入对话。注意这是非流式转录,整段音频上传完才出结果,不是实时转写。

原文共 6 节,先看 Start Here 路径:/providers/deepgram 查看官方原文

第一步

🔑 先把听写员的工牌交进去

没有 DEEPGRAM_API_KEY,OpenClaw 就算收到音频,也不知道该把录音带交给谁。

DEEPGRAM_API_KEY=dg_...

像给听写员发工牌。工牌在,后面上传音频时它才肯接活。

后台进程也要看得到

如果 Gateway 在后台值班,这把钥匙也得放到后台摸得到的地方,比如 ~/.openclaw/.env

🎈 一句话

先发工牌,再谈转写质量。

第二步

🧰 那段 tools.media.audio 配置,其实是在打开“音频处理台”

看起来像一大坨 JSON,翻成人话只是三件事:开机、选听写员、选听写模型。

enabled: true

像把音频处理台的电源拨到开。

👂

provider: deepgram

像告诉前台:“今天负责听写的是 Deepgram。”

📝

model: nova-3

像给听写员指定一支常用笔,官方默认就用这支。

📮

{{Transcript}} + [Audio]

意思是转写出来的字,会被塞进后面的回复管道,不会凭空消失。

第三步

🎛 那几个选项,都是在教听写员“要不要更聪明地整理稿子”

这些开关不是玄学,它们就是整理文字的不同小帮手。

language

像提前告诉它“这段大概是什么语言”,这样它更容易少听错。

detect_language

像让它自己先猜这人到底在讲哪种语言。

punctuate

像让它补逗号句号,不要把整段话写成一条长长面条。

smart_format

像让它顺手把一些数字、时间、格式整理得更像人会写的样子。

最后总结

🎈 把 Deepgram 这页压成一句最好记的话

Deepgram 是 OpenClaw 的语音听写员。你给它工牌、打开音频处理台、选好模型,它就会把收到的声音先翻成字,再交给后面的聊天流程继续处理。

如果你现在看的不是语音,而是要选聊天主模型,就回到普通 provider 页去选大脑,不要把听写员和大脑混成一件事。