视觉 AI 引擎:感知界面,规划行动
双执行层架构 · 三级智能识别 · 成本递减
浏览器层通过 DOM/AX Tree 识别元素,云手机层通过 Android 控件树识别。三级感知策略:指纹特征库匹配(零成本)→ LLM 语义识别(低成本)→ AI 视觉识别(兜底)。让 AI 像人一样理解界面,规划下一步操作。
双执行层架构
浏览器 + 云手机,覆盖所有自动化场景
浏览器执行层
DOM / AX Tree 识别
通过 Accessibility Tree 获取页面结构,精准定位每个元素的位置、类型、可交互性。适用于 Web 端社媒、电商后台等场景。
Web 端:X/Twitter、LinkedIn、Facebook Web
云手机执行层
Android 控件识别(重点)
通过 Android Accessibility Service 获取控件树,识别 text、desc、resource-id、bounds 等属性。在真机环境中执行,兼容所有移动端检测。
移动端:TikTok、Instagram、WhatsApp、小红书
💡 云手机是我们的核心优势:真机环境 + 硬件级隔离沙盒 + AI 控件识别,完美兼容平台安全。
三级智能识别架构
成熟流程 $0 成本,只有未知页面才消耗 Token
第一级:指纹特征库匹配
基于页面控件的 text/desc/resource-id 生成指纹,直接匹配已学习过的页面。
命中率:60-80%(成熟流程)
适用:已学习过的页面
第二级:LLM 语义匹配
使用轻量 LLM 分析页面控件树文本,通过语义理解定位目标元素。采用压缩技术大幅降低 Token 消耗。
命中率:20-30%
适用:相似但有变化的页面
第三级:AI 视觉识别
使用 VLM(GPT-4V/Claude Vision/Qwen-VL)分析截图,通过视觉理解界面。
命中率:99%+
适用:全新页面、复杂布局
✅ 关键优势:成熟流程执行成本趋近于零,只有遇到未知页面才消耗 Token。越用越便宜。
感知界面,规划行动
AI 不只是执行命令,而是理解意图、规划路径
感知当前界面
获取控件树/截图 → 识别可交互元素 → 理解页面状态
规划下一步操作
理解用户意图 → 分析当前状态 → 决策最优动作
示例:TikTok 养号任务
用户指令:"在 TikTok 养号 2 小时,刷视频、点赞、评论"
AI 理解:
• 平台识别:TikTok
• 任务类型:养号(Loop 模式)
• 时长:120 分钟
• 行为权重:浏览 60%,点赞 25%,评论 15%
→ AI 自主执行:刷视频 → 随机点赞 → 智能评论 → 休息 → 循环
自愈能力:UI 改版不再是问题
传统脚本遇到改版就崩溃,AI 自动适应变化
| 场景 | 传统 RPA | ProMoi AI |
|---|---|---|
| TikTok 更新 UI | ❌ 脚本失效,需人工修复 | ✅ AI 自动识别新布局 |
| Instagram 改版按钮位置 | ❌ 坐标失效 | ✅ 通过控件/视觉找到按钮 |
| LinkedIn 新增弹窗 | ❌ 流程中断 | ✅ 自动处理弹窗继续执行 |
| 验证码/异常页面 | ❌ 卡死 | ✅ 四级纠错机制自动恢复 |
自愈机制
当指纹匹配失败时,AI 自动触发重学习流程:
检测:发现页面与指纹库不匹配
分析:使用 LLM/VLM 理解新页面结构
更新:自动更新指纹库,下次直接匹配
继续:无缝恢复任务执行
自然行为模式:采用上下文感知AI操作
不是简单的随机延时,而是完整的自然行为模式
贝塞尔曲线滑动
三次贝塞尔曲线生成平滑轨迹,随机化控制点,每次轨迹都不同。
随机偏移点击
±3 像素随机偏移,模拟人类点击的不精确性。
变速打字
随机打字速度和错误率,采用自然行为模式输入习惯。
视觉聚焦停顿
模拟人类阅读和思考的停顿,不是机械式连续操作。
所有行为参数都可配置,支持不同平台的风控策略适配。
成本控制:越用越便宜
三级识别架构让成本随使用递减
>85%
指纹匹配率
成熟流程
60-80%
Token 节省
AX Tree 压缩
>70%
零成本操作
稳定运行后
适用场景
双执行层覆盖所有自动化需求
社媒多渠道运营
TikTok、Instagram、WhatsApp 团队工作空间多渠道运营。云手机执行层确保账号安全。
云手机执行层跨境电商
Amazon、eBay 后台操作,商品上架、订单处理。浏览器执行层高效稳定。
浏览器执行层LinkedIn 获客
自动搜索、筛选、发送连接请求。浏览器沙盒隔离确保账号安全。
浏览器执行层内容运营
小红书、抖音内容发布与互动。云手机真机环境兼容检测。
云手机执行层常见问题
让 AI 成为你的眼睛和大脑
感知界面,规划行动,自主执行。
无需信用卡 · 支持私有化部署

