ProMoi Logo
核心技术

视觉 AI 引擎:感知界面,规划行动

双执行层架构 · 三级智能识别 · 成本递减

浏览器层通过 DOM/AX Tree 识别元素,云手机层通过 Android 控件树识别。三级感知策略:指纹特征库匹配(零成本)→ LLM 语义识别(低成本)→ AI 视觉识别(兜底)。让 AI 像人一样理解界面,规划下一步操作。

双执行层三级感知越用越便宜

双执行层架构

浏览器 + 云手机,覆盖所有自动化场景

浏览器执行层

DOM / AX Tree 识别

通过 Accessibility Tree 获取页面结构,精准定位每个元素的位置、类型、可交互性。适用于 Web 端社媒、电商后台等场景。

DOM 结构解析
AX Tree 压缩(Token 降低 60-80%)
指纹浏览器沙盒隔离

Web 端:X/Twitter、LinkedIn、Facebook Web

重点 / Key Focus

云手机执行层

Android 控件识别(重点)

通过 Android Accessibility Service 获取控件树,识别 text、desc、resource-id、bounds 等属性。在真机环境中执行,兼容所有移动端检测。

Android Accessibility 控件树
真机内核 + 独立硬件指纹
贝塞尔曲线 + 自然行为模式

移动端:TikTok、Instagram、WhatsApp、小红书

💡 云手机是我们的核心优势:真机环境 + 硬件级隔离沙盒 + AI 控件识别,完美兼容平台安全。

三级智能识别架构

成熟流程 $0 成本,只有未知页面才消耗 Token

Level 1

第一级:指纹特征库匹配

毫秒级$0 成本

基于页面控件的 text/desc/resource-id 生成指纹,直接匹配已学习过的页面。

命中率:60-80%(成熟流程)

适用:已学习过的页面

Level 2

第二级:LLM 语义匹配

秒级低成本

使用轻量 LLM 分析页面控件树文本,通过语义理解定位目标元素。采用压缩技术大幅降低 Token 消耗。

命中率:20-30%

适用:相似但有变化的页面

Level 3

第三级:AI 视觉识别

秒级有成本(兜底)

使用 VLM(GPT-4V/Claude Vision/Qwen-VL)分析截图,通过视觉理解界面。

命中率:99%+

适用:全新页面、复杂布局

关键优势:成熟流程执行成本趋近于零,只有遇到未知页面才消耗 Token。越用越便宜。

感知界面,规划行动

AI 不只是执行命令,而是理解意图、规划路径

感知当前界面

获取控件树/截图 → 识别可交互元素 → 理解页面状态

浏览器:AX Tree + DOM 结构
云手机:Android 控件树(text/desc/bounds)
视觉兜底:截图 + VLM 分析

规划下一步操作

理解用户意图 → 分析当前状态 → 决策最优动作

意图理解:用户想要达成什么目标?
状态分析:当前界面能做什么?
动作决策:下一步应该点击/输入/滑动什么?

示例:TikTok 养号任务

用户指令:"在 TikTok 养号 2 小时,刷视频、点赞、评论"

AI 理解:

平台识别:TikTok

任务类型:养号(Loop 模式)

时长:120 分钟

行为权重:浏览 60%,点赞 25%,评论 15%

AI 自主执行:刷视频 → 随机点赞 → 智能评论 → 休息 → 循环

自愈能力:UI 改版不再是问题

传统脚本遇到改版就崩溃,AI 自动适应变化

场景传统 RPAProMoi AI
TikTok 更新 UI❌ 脚本失效,需人工修复✅ AI 自动识别新布局
Instagram 改版按钮位置❌ 坐标失效✅ 通过控件/视觉找到按钮
LinkedIn 新增弹窗❌ 流程中断✅ 自动处理弹窗继续执行
验证码/异常页面❌ 卡死✅ 四级纠错机制自动恢复

自愈机制

当指纹匹配失败时,AI 自动触发重学习流程:

1

检测:发现页面与指纹库不匹配

2

分析:使用 LLM/VLM 理解新页面结构

3

更新:自动更新指纹库,下次直接匹配

4

继续:无缝恢复任务执行

自然行为模式:采用上下文感知AI操作

不是简单的随机延时,而是完整的自然行为模式

贝塞尔曲线滑动

三次贝塞尔曲线生成平滑轨迹,随机化控制点,每次轨迹都不同。

随机偏移点击

±3 像素随机偏移,模拟人类点击的不精确性。

变速打字

随机打字速度和错误率,采用自然行为模式输入习惯。

视觉聚焦停顿

模拟人类阅读和思考的停顿,不是机械式连续操作。

所有行为参数都可配置,支持不同平台的风控策略适配。

成本控制:越用越便宜

三级识别架构让成本随使用递减

>85%

指纹匹配率

成熟流程

60-80%

Token 节省

AX Tree 压缩

>70%

零成本操作

稳定运行后

适用场景

双执行层覆盖所有自动化需求

社媒多渠道运营

TikTok、Instagram、WhatsApp 团队工作空间多渠道运营。云手机执行层确保账号安全。

云手机执行层

跨境电商

Amazon、eBay 后台操作,商品上架、订单处理。浏览器执行层高效稳定。

浏览器执行层

LinkedIn 获客

自动搜索、筛选、发送连接请求。浏览器沙盒隔离确保账号安全。

浏览器执行层

内容运营

小红书、抖音内容发布与互动。云手机真机环境兼容检测。

云手机执行层

常见问题

让 AI 成为你的眼睛和大脑

感知界面,规划行动,自主执行。

无需信用卡 · 支持私有化部署