核心功能
浏览器工具
使用浏览器会话自动化网页交互、测试 UI 并捕获截图
浏览器工具支持由 AI 驱动的浏览器交互。通过自然语言命令启动浏览器会话、点击元素、输入文本、滚动页面并捕获截图。
你将学到
- 会话生命周期:启动 → 交互 → 关闭
- 浏览器操作:点击、输入、滚动
- 使用场景:UI 测试、截图、导航
会话生命周期
每个浏览器自动化工作流都遵循严格的顺序:
- 启动 - 在目标 URL 处开启浏览器会话
- 交互 - 执行操作(点击、输入、滚动)
- 关闭 - 结束会话以释放资源
浏览器状态会在同一会话的各操作之间保持。你必须先关闭浏览器,才能使用其他 Verdent 工具。
每次操作都会返回一张显示当前浏览器状态的截图。在操作之间查看截图以确认成功,再继续下一步。
浏览器操作
启动新的浏览器会话
- 必填项:目标 URL
- 以 1920x1080 分辨率打开浏览器
- 始终是任何工作流的第一个操作
Launch browser at https://example.com在指定坐标处点击
- 必填项:x,y 坐标
- 坐标相对于视口
- 以元素中心为目标以提高可靠性
Click coordinates 450,300通过键盘输入文本
- 必填项:要输入的文本
- 输入到当前聚焦的元素中
- 通常在点击输入框之后进行
Type "user@example.com"滚动页面
scroll_down- 向下滚动一个页面高度scroll_up- 向上滚动一个页面高度- 显示屏幕外的内容
Scroll down to load more content结束浏览器会话
- 始终是任何工作流的最后一个操作
- 在使用其他工具之前必须执行
- 释放浏览器资源
Close browser坐标相对于 1920x1080 视口。中心大约在 (960, 540)。使用截图来估算元素位置。
常见使用场景
测试表单提交和导航流程
在登录页面启动,点击输入框,输入凭据,提交表单,并通过截图验证结果。
Launch browser at https://app.example.com/login
Click coordinates 450,280
Type "testuser@example.com"
Click coordinates 450,340
Type "password123"
Click coordinates 500,420
Close browser为文档捕获页面
每次操作后会自动捕获截图。导航到目标页面和区块,以构建可视化文档。
Launch browser at https://docs.example.com
Scroll down to API section
Close browser导航到目标内容
使用浏览器自动化到达需要交互(点击菜单、加载懒加载内容)才能访问的内容,然后再进行提取。
Launch browser at https://store.example.com
Scroll down three times
Click "Next Page" at 960,800
Close browser限制
- 工具互斥 - 在活动会话期间只能使用 browser_action
- 基于坐标 - 需要 x,y 坐标,而非 CSS 选择器
- 固定分辨率 - 浏览器视口锁定为 1920x1080
- 仅支持 Chrome - Puppeteer 支持 Chrome/Chromium 浏览器
- 无持久化 - 会话无法在 Verdent 重启后保留
- 不支持 WSL - 浏览器工具无法在 WSL 环境中工作
- 无保存状态 - 每个会话都从头开始,没有 cookie 或身份验证
- 单一会话 - 同一时间只能有一个活动的浏览器会话
在使用文件操作、搜索工具或 bash 命令之前,请务必关闭浏览器会话。浏览器在活动会话期间会锁定其他工具。