Nodes 导读

媒体理解:在回复前自动摘要图片、音频、视频

OpenClaw 能在回复管道运行前,自动将入站媒体(图片/音频/视频)摘要为简短文本,加速路由和命令解析。原始媒体始终会发给模型。配置核心是 `tools.media` 下的共享模型列表和按能力(image/audio/video)的覆盖参数,注意每个能力默认只处理第一个附件,失败时按顺序回退到下一个模型条目。

先讲这一页到底在解决什么

媒体理解:在回复前自动摘要图片、音频、视频

OpenClaw 能在回复管道运行前,自动将入站媒体(图片/音频/视频)摘要为简短文本,加速路由和命令解析。原始媒体始终会发给模型。配置核心是 `tools.media` 下的共享模型列表和按能力(image/audio/video)的覆盖参数,注意每个能力默认只处理第一个附件,失败时按顺序回退到下一个模型条目。

原文共 17 节,先看 Start Here 路径:/nodes/media-understanding 查看官方原文

第一站

🧃 它做的是“先榨一小杯摘要汁”,不是把原图原音扔掉

官方这里说得很清楚:预理解是附加层,不会替代原媒体本身。

🖼️

Image

先看图,产出一段简短描述块。

🎤

Audio

能做转写,并把 transcript 塞进后续流程用。

🎬

Video

也能走“先总结再交给主流程”的路子。

📎

原附件保留

就算理解失败,原附件也不会凭空消失,回复流程照样继续。

第二站

🪜 模型选择也是排队制:先看能力和大小,再一个个试

这里和音频页很像,主打 ordered fallback。

tools.media.models

像公共候选人名单,图片、音频、视频都能共享这排人。

tools.media.image/audio/video

像各工种自己的特别规则,可以覆盖 prompt、大小、超时、模型清单。

capabilities

这是给候选人贴的工种标签,告诉系统它会看图、听音还是看视频。

CLI templates

如果走 CLI,还能把媒体路径、输出目录这些临时路径塞进命令模板里,像给外援一张作业纸条。

第三站

🎈 这页最容易读偏的地方,是以为“做了预理解就不再传原文件”

不是。它只是先给模型准备一张小抄,让后面更好理解媒体内容。