Tools 导读

Browser control 对话接口:它会替你伸哪只手

Browser control 对话接口 不是名词卡片,而是一只会伸出来帮忙的手。你要看清它什么时候出手、抓进去什么、递回来什么,还有每个参数到底像哪颗按钮。原文最响的一记鼓点,其实是:For setup, 设置说明书uration, and troubleshooting, see Browser. This page is the reference f…。

先讲这一页到底在解决什么

Browser control 对话接口:它会替你伸哪只手

Browser control 对话接口 不是名词卡片,而是一只会伸出来帮忙的手。你要看清它什么时候出手、抓进去什么、递回来什么,还有每个参数到底像哪颗按钮。原文最响的一记鼓点,其实是:For setup, 设置说明书uration, and troubleshooting, see Browser. This page is the reference f…。

原文共 14 节,先看 Start Here 路径:/tools/browser-control 查看官方原文

第一站

先分清:这是“遥控浏览器”,不是“搜索网页”

如果 web_search 像派人出去打听消息,那 Browser Control 更像你已经坐在电脑前,用遥控器控制一个真的浏览器。

能做什么

可以启动或停止浏览器、打开标签页、聚焦标签页、截图、抓页面结构,还能通过 /act 做点击和输入。

在哪里用

这些接口主要给本地集成使用,地址跑在 Gateway 附近,不是给公网随便调用的万能入口。

?profile=<name>

像告诉遥控器:“这次控制哪个浏览器小房间?”不同 profile 可以有不同登录状态和配置。

一句话

这一页是浏览器工具的遥控器说明书,适合写脚本、调试页面、检查自动化动作。

第二站

CLI 命令像一排按钮:先看,再点,再等

官方列了很多 openclaw browser 命令,不用硬背。把它们分成几类就清楚了。

1

看状态

statustabssnapshot 像先看看浏览器在哪里、页面上有什么。

2

做动作

openclicktypenavigate 像按遥控器按钮,让页面真的动起来。

3

等结果

wait 可以等 URL、文字、加载状态。像告诉 OpenClaw:“别急,等门真的打开再说。”

4

查问题

consoleerrorsrequeststrace 用来找页面为什么点不动、看不见、加载失败。

第三站

Snapshot 和 ref 是“给页面上的东西贴编号”

浏览器页面很复杂,不能总说“点那个蓝色按钮”。OpenClaw 会先拍一张文字快照,给能操作的东西贴上编号或角色引用。

数字 ref

像页面上每个可点的地方贴了小号码。你可以说 click 12,比描述颜色和位置更稳。

interactive snapshot

像拿到一张更适合动手的清单,特别适合先看编号,再点击或输入。

失败时怎么办

如果提示不可见、被盖住、匹配太多,可以先重新 snapshot,再 highlight ref,看 OpenClaw 到底瞄准了哪里。

安全提醒

浏览器 profile 里可能有登录状态。能执行页面脚本的功能要小心,没必要时可以关掉 browser.evaluateEnabled

最后总结

把 Browser Control API 压成一句话

它是给本地浏览器用的遥控器和检查工具:先拿 snapshot 看清页面,再用 ref 做动作,失败时用截图、日志、trace 一步步查。