Human Skills——手机智能体测评
测评人:廖麟鹭,张祖熙,任泽铖 一、前言 随着大模型技术的深度渗透,手机智能体正经历从“语音助手”到“自主执行体”的关键演进。这一转变不仅意味着交互方式从被动响应向主动预判的升级,更代表着产品能力边界的全面拓展。当前,行业内主要存在两条并行的技术路线:一条是由手机厂商主导的系统原生路线,通过深度整合底层硬件与操作系统,实现更高效的本地算力调度和更无缝的场景联动;另一条则是由独立AI公司推动的第三方路线,依托云端大模型的强大能力,提供更丰富的功能生态和跨平台的服务能力。 为了客观评估这两类产品的真实表现,本次测评设计了一系列覆盖日常办公、生活服务、复杂决策等场景的标准化任务,旨在通过测试结果,厘清它们在任务完成度、隐私安全及多轮交互等维度的能力差异 二、测评产品 本次测评的手机智能体产品主要分为以下两类: 1.系统原生智能体:小布助手、YOYO、超级小爱 2.第三方通用智能体:千问、豆包 三、测评方案 本测评项目聚焦于手机AI Agent的指令执行效果与核心能力,将任务分为三个复杂度递增的基本层级:基础指令执行、任务理解、跨应用操作,并分别设计了对应的demo进行测试。我们对测试环境、操作流程和结果进行了记录,供读者参考和进一步探究。 四、系统原生智能体测试结果 1.小布助手 测试机型:OPPO Find X8s 系统版本:ColorOS 16.0.3 小布助手版本:12.5.2(版本号:12.5.2_f64d459_260126) 测试时间:2026年2月12日 (1)基础执行 小布助手可以完成系统控制、应用唤起的基础执行,并且在省电模式和下述即将出现的时钟等界面右方的按钮处,可以快捷关闭或再次打开。 (2)复杂理解 1)多轮对话 对话 1: 对话 2: 小布助手对于简单的多轮对话具有理解能力,并对上一轮对话具有简单的记忆能力。但对于设定闹钟这类简单操作的不同指令理解存在偏差,当输入最简单指令时能正确理解,但当单轮指令变得稍复杂后会出现错误,如下图所示: 类似出现错误情况的还有创立便签,如下图所示: 2)复合指令 指令1: 指令2: 对于指令1,小布助手能完全理解,并经过测试在半小时后也响铃提醒了。 对于指令2,小布助手对于“辣”这类偏主观的描述理解不足,回答中有很多强行自圆其说的辞藻;对于“评分4.5以上”的理解也不足,在回答中出现了“评分为4.2-4.5之间符合要求”的明显矛盾。 指令 3: 这类指令小布助手完全不能理解,并且可以看出小布助手对这种两步式的指令重心落在了用户需求所处的最后一步;当最后一步指令模糊时,甚至会直接跳过第一步的指令。 (3)任务执行 1)手机自带应用 对于拨打通话、发送短信类的操作实现成功,但对于读取短信的功能有所欠缺, 会显示读取失败或直接打开短信界面供用户自行读取: 2)第三方应用 微信相关操作都无法实现,但会弹出微信界面供读者自行操作。 打车、订火车票或机票的任务完成良好。 无法完成大众点评订餐的功能,会输出文字引导用户按文字步骤操作。 (4)拟人交互 1)共情闲聊 ...