BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具

互联网资讯来源：AI工具集 2026-06-04 18:20:09

BrowserAct Skills是什么

BrowserAct Skills 是面向 AI Agent 的浏览器自动化 CLI 工具，能解决 Agent 操控浏览器时的核心痛点,无 Cookie 环境、反爬拦截、验证码阻断、人机协作断层等。工具通过三层递进架构，包括环境层→执行层→人工层，让 Agent 能在真实浏览器环境中稳定执行任务。

BrowserAct Skills的主要功能

反检测环境：支持命令行与视觉双模式控制，绕过反爬机制，不被识别为 Bot。
三层递进结构：环境层负责指纹伪装、TLS 轮换、代理切换；执行层自动破解验证码、隐蔽提取受保护页面；人工层生成远程协助链接，用户从任意设备接管完成后，Agent 无缝续接任务。
三种浏览器模式：chrome 模式复用本地登录态，stealth 隐私模式用于无登录批量抓取，stealth 固定身份模式用于已登录账户的多浏览器并行。
多账号隔离：通过 Stealth Browser + Static Proxy，每个账号放在独立浏览器环境中运行，绑定独立登录状态和网络环境。
并发零干扰：跨浏览器并行时 Cookie、指纹、代理完全独立；同浏览器多会话时共享登录态但执行互不阻塞。
Skill-Forge 扩展：自动探索目标网站 API 与数据路径，生成可复用的 Skill 包，Agent 后续可直接复用已验证路径执行批量任务。

BrowserAct Skills的技术原理

环境层伪装：通过动态浏览器指纹 spoofing、TLS 指纹轮换与住宅代理切换，使每个会话呈现真实用户网络特征，规避反 bot 检测。
执行层穿透：内置自动验证码解析引擎与隐蔽数据提取通道，Agent 无需人工干预即可直接抓取受保护页面内容。
人工层续接：当任务遇阻时生成实时远程协作链接，用户介入完成后系统自动恢复会话上下文，实现人机无缝接力。
索引化交互：将页面元素映射为紧凑数字索引，Agent 通过编号指令操控浏览器，无需解析 DOM 或加载可访问性树。
语义化记忆：为每个浏览器会话绑定描述标签，Agent 按任务语义自动匹配最合适的浏览器环境执行操作。

如何使用BrowserAct Skills

环境准备：确保系统为 Windows、macOS 或 Linux，已安装支持 Shell 命令的 AI Agent。
一键安装：对 Agent 下达”安装 browser-act”指令并提供 GitHub Skill 源地址，Agent 将自动完成安装与验证。
环境探测：安装完成后，Agent 会在每次会话开始时自动获取环境状态、浏览器列表和可用命令。
提取页面：直接让 Agent 执行”提取某网页内容”任务，BrowserAct 会自动以零配置模式抓取受保护页面。
创建会话：告知 Agent 打开特定网站并创建命名会话，后续所有操作均在该会话内独立执行。
查看状态：Agent 会返回当前页面的索引化可交互元素列表，无需解析 DOM 即可理解页面结构。
执行操作：Agent 通过索引化指令（如点击第3个元素、在第2个输入框填入文本）精确操控浏览器。
模式选择：根据任务需求让 Agent 切换三种浏览器模式——复用本地 Chrome 登录态、隐私批量抓取、或固定身份多账号并行。
安装扩展：如需自动生成可复用 Skill，让 Agent 安装 browser-act-skill-forge 扩展，之后直接描述目标网站与数据字段即可。
人机接力：遇到验证码或扫码登录时，Agent 自动生成远程协助链接，你从任意设备完成操作后 Agent 无缝续接任务。
安全确认：涉及浏览器创建删除、Profile 导入、代理变更等敏感操作时，每次均需你显式独立批准，不自动继承先前授权。

BrowserAct Skills的核心优势

人机接力不中断：唯一内置 remote-assist 远程协作链路，遇验证码或扫码时生成实时链接，用户从任意设备接管操作完成后，Agent 无缝续接任务，不中断、不报错。
三层递进反检测：环境层+ 执行层+ 人工层，覆盖从纯自动化到必须人工介入的完整光谱，多数反爬机制在到达 Agent 前即被消解。
Agent 原生高效交互：采用索引化指令click 3 / input 2 "..."，Agent 无需解析 DOM 或加载 Accessibility Tree，Token 效率显著高于自然语言或 JSON/HTML 输出方案。
Skill 自沉淀复用：Skill-Forge 自动探索目标网站 API 与数据路径，生成可部署的 Skill 包；后续批量任务直接复用已验证路径执行，无需 Agent 每次重新理解页面结构。

BrowserAct Skills的项目地址

GitHub仓库：https://github.com/browser-act/skills

BrowserAct Skills的同类竞品对比

对比维度	BrowserAct Skills	browser-use
定位	面向 AI Agent 的浏览器自动化 CLI + Skill 基础设施，强调”执行层”补足	社区最活跃的 AI 浏览器自动化 SDK 框架（94k+ stars），强调端到端 Agent 自主决策
架构形态	CLI 工具 + Skill 包（Agent 通过 Shell 调用命令）	Python/TypeScript SDK + 自研 bu-ultra 专用模型（LLM-first）
核心交互范式	索引化指令（click 3 / input 2 "..."），Agent 无需解析 DOM，Token 效率极高	自然语言 + DOM 解析，Agent 读取可访问性树或 DOM 自主决策点击与输入
反检测能力	三层递进：环境层（指纹/TLS/代理轮换）→ 执行层（自动解验证码/stealth-extract）→ 人工层（远程协助）	内置 stealth 浏览器技术绕过基础反爬，但无系统级分层架构，遇高级验证码需自行处理
人机协作链路	✅ 内置 remote-assist：生成实时链接，用户扫码/验证后 Agent 无缝续接，任务不中断	❌ 无内置人机协作：遇验证码、扫码、2FA 等需外部中断，Agent 直接报错或停滞
浏览器模式	三种模式：chrome（复用本地登录态）、stealth 隐私（零残留批量抓取）、stealth 固定身份（多账号并行）	主要提供 stealth 模式，无本地 Chrome 登录态复用能力，每次启动多为空白环境