核心技术

视觉 AI 引擎：感知界面，规划行动

双执行层架构 · 三级智能识别 · 成本递减

浏览器层通过 DOM/AX Tree 识别元素，云手机层通过 Android 控件树识别。三级感知策略：指纹特征库匹配（零成本）→ LLM 语义识别（低成本）→ AI 视觉识别（兜底）。让 AI 像人一样理解界面，规划下一步操作。

双执行层三级感知越用越便宜

双执行层架构

浏览器 + 云手机，覆盖所有自动化场景

浏览器执行层

DOM / AX Tree 识别

通过 Accessibility Tree 获取页面结构，精准定位每个元素的位置、类型、可交互性。适用于 Web 端社媒、电商后台等场景。

DOM 结构解析

AX Tree 压缩（Token 降低 60-80%）

指纹浏览器沙盒隔离

Web 端：X/Twitter、LinkedIn、Facebook Web

重点 / Key Focus

云手机执行层

Android 控件识别（重点）

通过 Android Accessibility Service 获取控件树，识别 text、desc、resource-id、bounds 等属性。在真机环境中执行，兼容所有移动端检测。

Android Accessibility 控件树

真机内核 + 独立硬件指纹

贝塞尔曲线 + 自然行为模式

移动端：TikTok、Instagram、WhatsApp、小红书

💡 云手机是我们的核心优势：真机环境 + 硬件级隔离沙盒 + AI 控件识别，完美兼容平台安全。

三级智能识别架构

成熟流程 $0 成本，只有未知页面才消耗 Token

Level 1

第一级：指纹特征库匹配

毫秒级$0 成本

基于页面控件的 text/desc/resource-id 生成指纹，直接匹配已学习过的页面。

命中率：60-80%（成熟流程）

适用：已学习过的页面

Level 2

第二级：LLM 语义匹配

秒级低成本

使用轻量 LLM 分析页面控件树文本，通过语义理解定位目标元素。采用压缩技术大幅降低 Token 消耗。

命中率：20-30%

适用：相似但有变化的页面

Level 3

第三级：AI 视觉识别

秒级有成本（兜底）

使用 VLM（GPT-4V/Claude Vision/Qwen-VL）分析截图，通过视觉理解界面。

命中率：99%+

适用：全新页面、复杂布局

✅ 关键优势：成熟流程执行成本趋近于零，只有遇到未知页面才消耗 Token。越用越便宜。

感知界面，规划行动

AI 不只是执行命令，而是理解意图、规划路径

感知当前界面

获取控件树/截图 → 识别可交互元素 → 理解页面状态

浏览器：AX Tree + DOM 结构

云手机：Android 控件树（text/desc/bounds）

视觉兜底：截图 + VLM 分析

规划下一步操作

理解用户意图 → 分析当前状态 → 决策最优动作

意图理解：用户想要达成什么目标？

状态分析：当前界面能做什么？

动作决策：下一步应该点击/输入/滑动什么？

示例：TikTok 养号任务

用户指令："在 TikTok 养号 2 小时，刷视频、点赞、评论"

AI 理解：

• 平台识别：TikTok

• 任务类型：养号（Loop 模式）

• 时长：120 分钟

• 行为权重：浏览 60%，点赞 25%，评论 15%

→ AI 自主执行：刷视频 → 随机点赞 → 智能评论 → 休息 → 循环

自愈能力：UI 改版不再是问题

传统脚本遇到改版就崩溃，AI 自动适应变化

场景	传统 RPA	ProMoi AI
TikTok 更新 UI	❌ 脚本失效，需人工修复	✅ AI 自动识别新布局
Instagram 改版按钮位置	❌ 坐标失效	✅ 通过控件/视觉找到按钮
LinkedIn 新增弹窗	❌ 流程中断	✅ 自动处理弹窗继续执行
验证码/异常页面	❌ 卡死	✅ 四级纠错机制自动恢复

自愈机制

当指纹匹配失败时，AI 自动触发重学习流程：

检测：发现页面与指纹库不匹配

分析：使用 LLM/VLM 理解新页面结构

更新：自动更新指纹库，下次直接匹配

继续：无缝恢复任务执行

自然行为模式：采用上下文感知AI操作

不是简单的随机延时，而是完整的自然行为模式

贝塞尔曲线滑动

三次贝塞尔曲线生成平滑轨迹，随机化控制点，每次轨迹都不同。

随机偏移点击

±3 像素随机偏移，模拟人类点击的不精确性。

变速打字

随机打字速度和错误率，采用自然行为模式输入习惯。

视觉聚焦停顿

模拟人类阅读和思考的停顿，不是机械式连续操作。

所有行为参数都可配置，支持不同平台的风控策略适配。

成本控制：越用越便宜

三级识别架构让成本随使用递减

>85%

指纹匹配率

成熟流程

60-80%

Token 节省

AX Tree 压缩

>70%

零成本操作

稳定运行后

适用场景

双执行层覆盖所有自动化需求

社媒多渠道运营

TikTok、Instagram、WhatsApp 团队工作空间多渠道运营。云手机执行层确保账号安全。

云手机执行层

跨境电商

Amazon、eBay 后台操作，商品上架、订单处理。浏览器执行层高效稳定。

浏览器执行层

LinkedIn 获客

自动搜索、筛选、发送连接请求。浏览器沙盒隔离确保账号安全。

浏览器执行层

内容运营

小红书、抖音内容发布与互动。云手机真机环境兼容检测。

云手机执行层

常见问题

让 AI 成为你的眼睛和大脑

感知界面，规划行动，自主执行。

无需信用卡 · 支持私有化部署