瀏覽器工具

透過瀏覽器工作階段自動化網頁互動、測試 UI 並擷取螢幕截圖

瀏覽器工具讓 AI 驅動的瀏覽器互動成為可能。透過自然語言指令啟動瀏覽器工作階段、點擊元素、輸入文字、捲動頁面並擷取螢幕截圖。

你將學到什麼

工作階段生命週期：啟動 → 互動 → 關閉
瀏覽器操作：點擊、輸入、捲動
使用情境：UI 測試、螢幕截圖、導覽

工作階段生命週期

每個瀏覽器自動化工作流程都遵循嚴格的順序：

啟動 - 在目標 URL 開啟瀏覽器工作階段
互動 - 執行操作（點擊、輸入、捲動）
關閉 - 結束工作階段以釋放資源

瀏覽器狀態會在工作階段內的各項操作之間持續保留。在使用其他 Verdent 工具之前，你必須關閉瀏覽器。

每項操作都會回傳一張顯示目前瀏覽器狀態的螢幕截圖。在各項操作之間檢視螢幕截圖，確認成功後再繼續。

瀏覽器操作

啟動新的瀏覽器工作階段

必填：目標 URL
以 1920x1080 解析度開啟瀏覽器
始終是任何工作流程中的第一個操作

Launch browser at https://example.com

在特定座標點擊

必填：x,y 座標
座標以可視區域為基準
以目標元素中心點為準以確保可靠性

Click coordinates 450,300

透過鍵盤輸入文字

必填：要輸入的文字
輸入至目前聚焦的元素
通常在點擊輸入欄位之後執行

Type "user@example.com"

捲動頁面

scroll_down - 向下捲動一個頁面高度
scroll_up - 向上捲動一個頁面高度
顯示螢幕外的內容

Scroll down to load more content

結束瀏覽器工作階段

始終是任何工作流程中的最後一個操作
在使用其他工具之前必須執行
釋放瀏覽器資源

Close browser

座標以 1920x1080 可視區域為基準。中心點約為 (960, 540)。使用螢幕截圖來估算元素位置。

常見使用情境

測試表單提交與導覽流程

在登入頁面啟動，點擊輸入欄位、輸入憑證、提交表單，並透過螢幕截圖驗證結果。

Launch browser at https://app.example.com/login
Click coordinates 450,280
Type "testuser@example.com"
Click coordinates 450,340
Type "password123"
Click coordinates 500,420
Close browser

擷取頁面以供文件使用

每項操作後會自動擷取螢幕截圖。導覽至目標頁面與區段，以建立視覺化文件。

Launch browser at https://docs.example.com
Scroll down to API section
Close browser

導覽至目標內容

使用瀏覽器自動化，在擷取內容之前先到達需要互動的內容（點擊選單、載入延遲載入的內容）。

Launch browser at https://store.example.com
Scroll down three times
Click "Next Page" at 960,800
Close browser

限制

工具互斥 - 在使用中的工作階段期間，只能使用 browser_action
以座標為基礎 - 需要 x,y 座標，而非 CSS 選擇器
固定解析度 - 瀏覽器可視區域鎖定為 1920x1080
僅支援 Chrome - Puppeteer 支援 Chrome/Chromium 瀏覽器
無持久性 - 工作階段無法在 Verdent 重新啟動後保留
無已儲存狀態 - 每個工作階段都從全新狀態開始，沒有 cookie 或驗證
單一工作階段 - 一次只能有一個瀏覽器工作階段處於使用中

在使用檔案操作、搜尋工具或 bash 指令之前，請務必關閉瀏覽器工作階段。在使用中的工作階段期間，瀏覽器會鎖定其他工具。

另請參閱

Code Diff

審查並核准程式碼變更

View as Markdown