Core Features
瀏覽器工具
透過瀏覽器工作階段自動化網頁互動、測試 UI 並擷取螢幕截圖
瀏覽器工具讓 AI 驅動的瀏覽器互動成為可能。透過自然語言指令啟動瀏覽器工作階段、點擊元素、輸入文字、捲動頁面並擷取螢幕截圖。
你將學到什麼
- 工作階段生命週期:啟動 → 互動 → 關閉
- 瀏覽器操作:點擊、輸入、捲動
- 使用情境:UI 測試、螢幕截圖、導覽
工作階段生命週期
每個瀏覽器自動化工作流程都遵循嚴格的順序:
- 啟動 - 在目標 URL 開啟瀏覽器工作階段
- 互動 - 執行操作(點擊、輸入、捲動)
- 關閉 - 結束工作階段以釋放資源
瀏覽器狀態會在工作階段內的各項操作之間持續保留。在使用其他 Verdent 工具之前,你必須關閉瀏覽器。
每項操作都會回傳一張顯示目前瀏覽器狀態的螢幕截圖。在各項操作之間檢視螢幕截圖,確認成功後再繼續。
瀏覽器操作
啟動新的瀏覽器工作階段
- 必填:目標 URL
- 以 1920x1080 解析度開啟瀏覽器
- 始終是任何工作流程中的第一個操作
Launch browser at https://example.com在特定座標點擊
- 必填:x,y 座標
- 座標以可視區域為基準
- 以目標元素中心點為準以確保可靠性
Click coordinates 450,300透過鍵盤輸入文字
- 必填:要輸入的文字
- 輸入至目前聚焦的元素
- 通常在點擊輸入欄位之後執行
Type "user@example.com"捲動頁面
scroll_down- 向下捲動一個頁面高度scroll_up- 向上捲動一個頁面高度- 顯示螢幕外的內容
Scroll down to load more content結束瀏覽器工作階段
- 始終是任何工作流程中的最後一個操作
- 在使用其他工具之前必須執行
- 釋放瀏覽器資源
Close browser座標以 1920x1080 可視區域為基準。中心點約為 (960, 540)。使用螢幕截圖來估算元素位置。
常見使用情境
測試表單提交與導覽流程
在登入頁面啟動,點擊輸入欄位、輸入憑證、提交表單,並透過螢幕截圖驗證結果。
Launch browser at https://app.example.com/login
Click coordinates 450,280
Type "testuser@example.com"
Click coordinates 450,340
Type "password123"
Click coordinates 500,420
Close browser擷取頁面以供文件使用
每項操作後會自動擷取螢幕截圖。導覽至目標頁面與區段,以建立視覺化文件。
Launch browser at https://docs.example.com
Scroll down to API section
Close browser限制
- 工具互斥 - 在使用中的工作階段期間,只能使用 browser_action
- 以座標為基礎 - 需要 x,y 座標,而非 CSS 選擇器
- 固定解析度 - 瀏覽器可視區域鎖定為 1920x1080
- 僅支援 Chrome - Puppeteer 支援 Chrome/Chromium 瀏覽器
- 無持久性 - 工作階段無法在 Verdent 重新啟動後保留
- 無已儲存狀態 - 每個工作階段都從全新狀態開始,沒有 cookie 或驗證
- 單一工作階段 - 一次只能有一個瀏覽器工作階段處於使用中
在使用檔案操作、搜尋工具或 bash 指令之前,請務必關閉瀏覽器工作階段。在使用中的工作階段期間,瀏覽器會鎖定其他工具。