---
title: "浏览器工具"
description: "使用浏览器会话自动化网页交互、测试 UI 并捕获截图"
---

浏览器工具支持由 AI 驱动的浏览器交互。通过自然语言命令启动浏览器会话、点击元素、输入文本、滚动页面并捕获截图。

###  你将学到

- 会话生命周期：启动 → 交互 → 关闭
- 浏览器操作：点击、输入、滚动
- 使用场景：UI 测试、截图、导航

---

## 会话生命周期

每个浏览器自动化工作流都遵循严格的顺序：

1. **启动** - 在目标 URL 处开启浏览器会话
2. **交互** - 执行操作（点击、输入、滚动）
3. **关闭** - 结束会话以释放资源

浏览器状态会在同一会话的各操作之间保持。你必须先关闭浏览器，才能使用其他 Verdent 工具。

<Tip>
  每次操作都会返回一张显示当前浏览器状态的截图。在操作之间查看截图以确认成功，再继续下一步。
</Tip>

---

## 浏览器操作

<Tabs>
  <Tab title="launch">
    **启动新的浏览器会话**

    - 必填项：目标 URL
    - 以 1920x1080 分辨率打开浏览器
    - 始终是任何工作流的第一个操作

    ```
    Launch browser at https://example.com
    ```
  </Tab>
  <Tab title="click">
    **在指定坐标处点击**

    - 必填项：x,y 坐标
    - 坐标相对于视口
    - 以元素中心为目标以提高可靠性

    ```
    Click coordinates 450,300
    ```
  </Tab>
  <Tab title="type">
    **通过键盘输入文本**

    - 必填项：要输入的文本
    - 输入到当前聚焦的元素中
    - 通常在点击输入框之后进行

    ```
    Type "user@example.com"
    ```
  </Tab>
  <Tab title="scroll">
    **滚动页面**

    - `scroll_down` - 向下滚动一个页面高度
    - `scroll_up` - 向上滚动一个页面高度
    - 显示屏幕外的内容

    ```
    Scroll down to load more content
    ```
  </Tab>
  <Tab title="close">
    **结束浏览器会话**

    - 始终是任何工作流的最后一个操作
    - 在使用其他工具之前必须执行
    - 释放浏览器资源

    ```
    Close browser
    ```
  </Tab>
</Tabs>

<Tip>
  坐标相对于 1920x1080 视口。中心大约在 (960, 540)。使用截图来估算元素位置。
</Tip>

---

## 常见使用场景

<Tabs>
  <Tab title="UI 测试">
    **测试表单提交和导航流程**

    在登录页面启动，点击输入框，输入凭据，提交表单，并通过截图验证结果。

    ```
    Launch browser at https://app.example.com/login
    Click coordinates 450,280
    Type "testuser@example.com"
    Click coordinates 450,340
    Type "password123"
    Click coordinates 500,420
    Close browser
    ```
  </Tab>
  <Tab title="截图">
    **为文档捕获页面**

    每次操作后会自动捕获截图。导航到目标页面和区块，以构建可视化文档。

    ```
    Launch browser at https://docs.example.com
    Scroll down to API section
    Close browser
    ```
  </Tab>
  <Tab title="导航">
    **导航到目标内容**

    使用浏览器自动化到达需要交互（点击菜单、加载懒加载内容）才能访问的内容，然后再进行提取。

    ```
    Launch browser at https://store.example.com
    Scroll down three times
    Click "Next Page" at 960,800
    Close browser
    ```
  </Tab>
</Tabs>

---

## 限制

- **工具互斥** - 在活动会话期间只能使用 browser_action
- **基于坐标** - 需要 x,y 坐标，而非 CSS 选择器
- **固定分辨率** - 浏览器视口锁定为 1920x1080
- **仅支持 Chrome** - Puppeteer 支持 Chrome/Chromium 浏览器
- **无持久化** - 会话无法在 Verdent 重启后保留
- **不支持 WSL** - 浏览器工具无法在 WSL 环境中工作
- **无保存状态** - 每个会话都从头开始，没有 cookie 或身份验证
- **单一会话** - 同一时间只能有一个活动的浏览器会话

<Tip>
  在使用文件操作、搜索工具或 bash 命令之前，请务必关闭浏览器会话。浏览器在活动会话期间会锁定其他工具。
</Tip>

---

## 另请参阅

<CardGroup cols={3}>
  <Card title="代码差异" icon="code-compare" href="/docs/verdent-for-vscode/core-features/code-diff">
    审查并批准代码更改
  </Card>
</CardGroup>
