Verdent Docs
Core Features

瀏覽器工具

透過瀏覽器工作階段自動化網頁互動、測試 UI 並擷取螢幕截圖

瀏覽器工具讓 AI 驅動的瀏覽器互動成為可能。透過自然語言指令啟動瀏覽器工作階段、點擊元素、輸入文字、捲動頁面並擷取螢幕截圖。

你將學到什麼

  • 工作階段生命週期:啟動 → 互動 → 關閉
  • 瀏覽器操作:點擊、輸入、捲動
  • 使用情境:UI 測試、螢幕截圖、導覽

工作階段生命週期

每個瀏覽器自動化工作流程都遵循嚴格的順序:

  1. 啟動 - 在目標 URL 開啟瀏覽器工作階段
  2. 互動 - 執行操作(點擊、輸入、捲動)
  3. 關閉 - 結束工作階段以釋放資源

瀏覽器狀態會在工作階段內的各項操作之間持續保留。在使用其他 Verdent 工具之前,你必須關閉瀏覽器。

每項操作都會回傳一張顯示目前瀏覽器狀態的螢幕截圖。在各項操作之間檢視螢幕截圖,確認成功後再繼續。


瀏覽器操作

啟動新的瀏覽器工作階段

  • 必填:目標 URL
  • 以 1920x1080 解析度開啟瀏覽器
  • 始終是任何工作流程中的第一個操作
Launch browser at https://example.com

在特定座標點擊

  • 必填:x,y 座標
  • 座標以可視區域為基準
  • 以目標元素中心點為準以確保可靠性
Click coordinates 450,300

透過鍵盤輸入文字

  • 必填:要輸入的文字
  • 輸入至目前聚焦的元素
  • 通常在點擊輸入欄位之後執行
Type "user@example.com"

捲動頁面

  • scroll_down - 向下捲動一個頁面高度
  • scroll_up - 向上捲動一個頁面高度
  • 顯示螢幕外的內容
Scroll down to load more content

結束瀏覽器工作階段

  • 始終是任何工作流程中的最後一個操作
  • 在使用其他工具之前必須執行
  • 釋放瀏覽器資源
Close browser

座標以 1920x1080 可視區域為基準。中心點約為 (960, 540)。使用螢幕截圖來估算元素位置。


常見使用情境

測試表單提交與導覽流程

在登入頁面啟動,點擊輸入欄位、輸入憑證、提交表單,並透過螢幕截圖驗證結果。

Launch browser at https://app.example.com/login
Click coordinates 450,280
Type "testuser@example.com"
Click coordinates 450,340
Type "password123"
Click coordinates 500,420
Close browser

擷取頁面以供文件使用

每項操作後會自動擷取螢幕截圖。導覽至目標頁面與區段,以建立視覺化文件。

Launch browser at https://docs.example.com
Scroll down to API section
Close browser

導覽至目標內容

使用瀏覽器自動化,在擷取內容之前先到達需要互動的內容(點擊選單、載入延遲載入的內容)。

Launch browser at https://store.example.com
Scroll down three times
Click "Next Page" at 960,800
Close browser

限制

  • 工具互斥 - 在使用中的工作階段期間,只能使用 browser_action
  • 以座標為基礎 - 需要 x,y 座標,而非 CSS 選擇器
  • 固定解析度 - 瀏覽器可視區域鎖定為 1920x1080
  • 僅支援 Chrome - Puppeteer 支援 Chrome/Chromium 瀏覽器
  • 無持久性 - 工作階段無法在 Verdent 重新啟動後保留
  • 無已儲存狀態 - 每個工作階段都從全新狀態開始,沒有 cookie 或驗證
  • 單一工作階段 - 一次只能有一個瀏覽器工作階段處於使用中

在使用檔案操作、搜尋工具或 bash 指令之前,請務必關閉瀏覽器工作階段。在使用中的工作階段期間,瀏覽器會鎖定其他工具。


另請參閱