Verdent Docs
核心功能

浏览器工具

使用浏览器会话自动化网页交互、测试 UI 并捕获截图

浏览器工具支持由 AI 驱动的浏览器交互。通过自然语言命令启动浏览器会话、点击元素、输入文本、滚动页面并捕获截图。

你将学到

  • 会话生命周期:启动 → 交互 → 关闭
  • 浏览器操作:点击、输入、滚动
  • 使用场景:UI 测试、截图、导航

会话生命周期

每个浏览器自动化工作流都遵循严格的顺序:

  1. 启动 - 在目标 URL 处开启浏览器会话
  2. 交互 - 执行操作(点击、输入、滚动)
  3. 关闭 - 结束会话以释放资源

浏览器状态会在同一会话的各操作之间保持。你必须先关闭浏览器,才能使用其他 Verdent 工具。

每次操作都会返回一张显示当前浏览器状态的截图。在操作之间查看截图以确认成功,再继续下一步。


浏览器操作

启动新的浏览器会话

  • 必填项:目标 URL
  • 以 1920x1080 分辨率打开浏览器
  • 始终是任何工作流的第一个操作
Launch browser at https://example.com

在指定坐标处点击

  • 必填项:x,y 坐标
  • 坐标相对于视口
  • 以元素中心为目标以提高可靠性
Click coordinates 450,300

通过键盘输入文本

  • 必填项:要输入的文本
  • 输入到当前聚焦的元素中
  • 通常在点击输入框之后进行
Type "user@example.com"

滚动页面

  • scroll_down - 向下滚动一个页面高度
  • scroll_up - 向上滚动一个页面高度
  • 显示屏幕外的内容
Scroll down to load more content

结束浏览器会话

  • 始终是任何工作流的最后一个操作
  • 在使用其他工具之前必须执行
  • 释放浏览器资源
Close browser

坐标相对于 1920x1080 视口。中心大约在 (960, 540)。使用截图来估算元素位置。


常见使用场景

测试表单提交和导航流程

在登录页面启动,点击输入框,输入凭据,提交表单,并通过截图验证结果。

Launch browser at https://app.example.com/login
Click coordinates 450,280
Type "testuser@example.com"
Click coordinates 450,340
Type "password123"
Click coordinates 500,420
Close browser

为文档捕获页面

每次操作后会自动捕获截图。导航到目标页面和区块,以构建可视化文档。

Launch browser at https://docs.example.com
Scroll down to API section
Close browser

导航到目标内容

使用浏览器自动化到达需要交互(点击菜单、加载懒加载内容)才能访问的内容,然后再进行提取。

Launch browser at https://store.example.com
Scroll down three times
Click "Next Page" at 960,800
Close browser

限制

  • 工具互斥 - 在活动会话期间只能使用 browser_action
  • 基于坐标 - 需要 x,y 坐标,而非 CSS 选择器
  • 固定分辨率 - 浏览器视口锁定为 1920x1080
  • 仅支持 Chrome - Puppeteer 支持 Chrome/Chromium 浏览器
  • 无持久化 - 会话无法在 Verdent 重启后保留
  • 不支持 WSL - 浏览器工具无法在 WSL 环境中工作
  • 无保存状态 - 每个会话都从头开始,没有 cookie 或身份验证
  • 单一会话 - 同一时间只能有一个活动的浏览器会话

在使用文件操作、搜索工具或 bash 命令之前,请务必关闭浏览器会话。浏览器在活动会话期间会锁定其他工具。


另请参阅