浏览器工具

浏览器工具支持由 AI 驱动的浏览器交互。通过自然语言命令启动浏览器会话、点击元素、输入文本、滚动页面并捕获截图。

你将学到

会话生命周期：启动 → 交互 → 关闭
浏览器操作：点击、输入、滚动
使用场景：UI 测试、截图、导航

会话生命周期

每个浏览器自动化工作流都遵循严格的顺序：

启动 - 在目标 URL 处开启浏览器会话
交互 - 执行操作（点击、输入、滚动）
关闭 - 结束会话以释放资源

浏览器状态会在同一会话的各操作之间保持。你必须先关闭浏览器，才能使用其他 Verdent 工具。

每次操作都会返回一张显示当前浏览器状态的截图。在操作之间查看截图以确认成功，再继续下一步。

浏览器操作

启动新的浏览器会话

必填项：目标 URL
以 1920x1080 分辨率打开浏览器
始终是任何工作流的第一个操作

Launch browser at https://example.com

在指定坐标处点击

必填项：x,y 坐标
坐标相对于视口
以元素中心为目标以提高可靠性

Click coordinates 450,300

通过键盘输入文本

必填项：要输入的文本
输入到当前聚焦的元素中
通常在点击输入框之后进行

Type "user@example.com"

滚动页面

scroll_down - 向下滚动一个页面高度
scroll_up - 向上滚动一个页面高度
显示屏幕外的内容

Scroll down to load more content

结束浏览器会话

始终是任何工作流的最后一个操作
在使用其他工具之前必须执行
释放浏览器资源

Close browser

坐标相对于 1920x1080 视口。中心大约在 (960, 540)。使用截图来估算元素位置。

常见使用场景

测试表单提交和导航流程

在登录页面启动，点击输入框，输入凭据，提交表单，并通过截图验证结果。

Launch browser at https://app.example.com/login
Click coordinates 450,280
Type "testuser@example.com"
Click coordinates 450,340
Type "password123"
Click coordinates 500,420
Close browser

为文档捕获页面

每次操作后会自动捕获截图。导航到目标页面和区块，以构建可视化文档。

Launch browser at https://docs.example.com
Scroll down to API section
Close browser

导航到目标内容

使用浏览器自动化到达需要交互（点击菜单、加载懒加载内容）才能访问的内容，然后再进行提取。

Launch browser at https://store.example.com
Scroll down three times
Click "Next Page" at 960,800
Close browser

限制

工具互斥 - 在活动会话期间只能使用 browser_action
基于坐标 - 需要 x,y 坐标，而非 CSS 选择器
固定分辨率 - 浏览器视口锁定为 1920x1080
仅支持 Chrome - Puppeteer 支持 Chrome/Chromium 浏览器
无持久化 - 会话无法在 Verdent 重启后保留
不支持 WSL - 浏览器工具无法在 WSL 环境中工作
无保存状态 - 每个会话都从头开始，没有 cookie 或身份验证
单一会话 - 同一时间只能有一个活动的浏览器会话

在使用文件操作、搜索工具或 bash 命令之前，请务必关闭浏览器会话。浏览器在活动会话期间会锁定其他工具。

另请参阅

代码差异

审查并批准代码更改

View source