\u200E
最新动态 一手掌握

万字详解智能体2.0:手机里的“互联互通”新战场

时间: 2026-02-24 17:10作者: 沧凰

《21世纪经济报道》竞争秩序场工作室 报道

过去两年,智能体(Agent)是AI行业最重要的叙事,现在聚光灯正收束到一个更具体的方向:端侧智能体。

在海外,名为OpenClaw的智能体在硅谷技术圈走红,接管一众开发者的电脑;在国内,字节跳动把豆包嵌入手机,样机价格在二手市场居高不下。这些智能体运行在手机、电脑和汽车上,能操作本地环境和所有工具,点外卖、打游戏、炒股票,把执行力拉到极致。

智能体还会接管更多个人设备。在发售工程版“豆包手机助手”后,据媒体披露,字节已于去年年底启动正式版手机项目,搭载智能体的新机预计于今年Q2发布。

我们近期还从多方了解到,包括阿里系在内的多家App与字节跳动达成停火协议,App允许努比亚设备的手动登录,豆包主动限制AI操作场景,双方回到“井水不犯河水”的状态。

行业正在形成一个共识:未来智能体的壁垒,在于能打通多少个人设备,能互联多少服务。智能体想成为新的能力层,重组我们与设备、与App的连接方式,改变行业生态格局。

但这种互联互通的技术趋势,也撞上了个人和平台的控制边界。在我们2025年年初的手机智能体测评中,许多担忧已初现轮廓:智能体要想操作手机,需要利用高敏感权限进行读屏和自动操作,引发权限滥用、个人隐私等安全担忧和商业纠纷。

眼下,这些问题成了更严肃的堵点。我们为此新一轮测评了豆包手机助手、智谱、荣耀、华为、小米、OPPO、vivo七款手机智能体,追踪它们的性能、底层模型、系统权限、隐私设计最新情况,并梳理水面之下的厂商博弈。

越来越多智能体正在排队上路。它们距离真正上路有多远?还缺哪些技术、商业或合规条件?厘清这些关键事实,端侧智能体的故事才可能真正开始。



如果说前几年的大模型浪潮,让人第一次意识到机器会聊天,那么智能体带来的是一个更有冲击力的现实:机器会替人做事。

过去一年里,标志性的智能体产品大多生长在云端。Manus、Claude等产品展示了任务规划与工具调用的能力,它们运行在远程服务器上,依赖云端算力和网页工具来做PPT、订票和购物。而端侧智能体走的是另一条路线:模型部署在本地设备,在手机、电脑、汽车里操作软件与系统。

越来越多智能体从云端落入个人终端。在国内,豆包手机助手是端侧智能体破圈的一个起点,但这条路并不始于此。过去一年多里,国内手机厂商已经完成了一轮并不低调的市场铺陈。

移动数据调研机构Quest Mobile在2025年9月测算,国内六家手机厂商的智能体用户规模,在一年内合计增长了6500万,用户规模整体达到5.35亿。

OPPO、vivo、荣耀是其中最积极的发力者。根据Quest Mobile数据,OPPO小布助手在2025年6月已经拥有1.6亿月活用户,vivo蓝心小v为5500万,荣耀YOYO助理为4200万,三者跻身上半年增速最快的AI应用行列。



“AI+硬件”在今年已是一片红海。但与互联网公司用硬件争夺C端入口不同,手机厂商的出发点是,借助AI抬高硬件与操作系统的价值,圆心始终是手机本身。

国内的手机智能体潮始于2024年。当年9月,荣耀用“一句话点咖啡”为AI手机拉开序幕,并表示荣耀Magic 7系列是安卓阵营里首款落地AI智能体的手机。华为、vivo、OPPO、小米等厂商也很快升级了自己的手机助手。

“AI即操作系统”是主流厂商的战略想法。2025年10月,vivo更新OriginOS 5 操作系统,基于蓝心大模型重构;OPPO提出AI OS战略,开始为智能体配置独立的物理唤醒键。

但现实情况是,手机智能体仍停留在一个吸引投资者的概念,而非能用的产品。我们在2025年3月测评了6款手机智能体,发现失败率高、不稳定、耗时长是普遍问题,只有荣耀勉强能算“半自动驾驶”。

经过一年的发展,宣传和现实的落差仍在。我们对包括智谱AutoGLM、豆包手机助手在内的7款手机智能体开展了新一轮测试,在总计70次任务中,整体成功率仅有两成,39%的任务启动后中断,还有24%直接失败降级为信息问答。



如果细看任务过程,甚至可以说手机智能体的“接管能力”在退化。以点外卖为例,如今大多数手机智能体只能完成第一步——打开外卖App。之后既不会进入搜索页面,更谈不上筛选店铺、确认规格。

2025年年初时,手机智能体明显能在App里走得更远。当时,荣耀YOYO助理能通过多轮对话抵达美团下单页,OPPO和小米也能完成“瑞幸咖啡”的关键词搜索。

自主范围不断收紧的同时,能力本身仍存在许多硬伤。

最集中的短板是任务规划。当我们说“找一款性价比高的抽纸”时,大部分智能体会将整句话原封不动地复制进电商平台,而不是先搜索抽纸、再按价格筛选。智能体还会直接“偷懒”用文字回答任务,而不是调动App执行。

App的版本更新也是难题。在我们的测评过程中,饿了么正式改名为“淘宝闪购”。但如果使用新名称,手机智能体都会打开淘宝,只有说“饿了么”才可能被识别。

正是在这一背景下,豆包手机助手只进行了小范围的工程预览,却获得了格外多关注。在早期测评中,不管是订机票、发微信乃至玩开心消消乐,豆包手机助手都能在短时间内丝滑完成。遇到失败,甚至能主动纠错。

复旦大学系统与软件安全实验室张晓寒在测评多款AI手机后,将手机智能体的能力划分为基础、进阶和高阶三档:基础能力主要是识别屏幕、调节系统设置,如今的手机智能体都能完成;进阶能力各有侧重,例如华为小艺擅长图像处理,而vivo蓝心小v的本地文件检索速度很快。

真正拉开差距的,是深度操作App的高阶能力。“这类跨App任务是手机智能体能力的分水岭,也是当前各家的关注焦点。”张晓寒表示,当前确实只有豆包成功率较高。

西湖大学AGI实验室负责人张驰曾带队某头部互联网公司的智能体研究团队,他也认同,豆包在多模态感知、复杂任务推理和准确度的综合体验上属于顶尖。但张驰同时指出,由于第三方App迅速“围剿”了豆包,它在稳定性、长尾场景覆盖率以及对App更新的适应能力上,完成度仍然未知。

在张驰看来,目前手机智能体整体仍停留在L1到L2阶段之间,只能在一些有限场景、有限App中做演示。豆包手机助手意味着“智能体第一次真正产品化”,但更像是第一辆上路测试的全自动驾驶汽车,能在园区内跑,还开不上公共道路。

值得补充的是,操作App并非手机智能体的唯一关注点,记忆是另一条被多方押注的方向。

豆包手机助手、vivo和OPPO都上线了“闪记”类的功能,比如总结小红书帖子,解析B站视频,快速记下微信和支付宝扣款。通过用户手动截屏,让AI存储信息。

上下文记忆的建立,可能会进一步改变我们与AI的沟通方式。现在要让智能体做事,仍然需要非常具体的、多轮的提示词,而记忆的目标是让AI理解模糊指令,更加“个人化”。

在手机厂商的蓝图里,记忆被视为AI手机向前演进的第一刀。OPPO ColorOS智慧产品研发总监姜昱辰在媒体采访中提到,后续会沿着连点成线、连线成图的路线,建立用户偏好画像。记忆的演化速度会很快,“可能未来1~2年内就会有非常不一样的用户体验。”

为什么现在大部分手机智能体仍然不尽如人意?要真正替代人类操作,还需要多久?当人们讨论这两个问题时,模型能力鲜少被追问。

几乎所有手机智能体都采用GUI Agent为底层模型,即通说的“视觉路线”。它的工作方式可以概括为三步:理解、感知、执行——大模型先理解点咖啡的指令,再像人眼一样观察外卖App的页面和按钮,最后模拟点击操作。

最受关注的豆包手机助手,接近豆包人士告诉我们,采用的是未公开的闭源版模型。

2025年1月,字节Seed团队曾和清华大学联合推出开源的UI-TARS原生智能体。从技术报告来看,UI-TARS 1.0 的开发重点在推理能力,把复杂的任务分解为若干个小任务,并加入自我反思纠错的训练过程。大半年后发表的UI-TARS 2.0进一步指出,纯GUI操作存在局限,不足以满足实际工作需求。因此不再局限于单纯的点击和滑动,而是通过SDK,接入外部的文件系统和沙盒平台。

曾在手机厂商工作的Carrie向我们指出,国内不少手机智能体的基模来自阿里通义实验室的Qwen系列,开源和多模态能力是其主要优势。我们看到的多篇技术报告也证实了一点。

通义实验室在2025年8月专门发布了GUI-Owl模型,用于 GUI 自动化任务。12月,通义实验室又推出了MAI-UI模型,据称首次将用户交互、MCP工具调用、端云协同的能力,集成在一个能自我进化的开源框架中。

在覆盖20个安卓应用、116项任务的Android World基准测试中,字节得分73.7分,阿里拿到76.7分。登上该基测榜单的国内公司还有智谱、阶跃星辰和OPPO,自评分数在70分到80分之间。虽然在2025年一年里有明显提升,但还不能稳定达到人类平均水准(80分)。

该榜单的最高得分为97.4分,由一家名为AGI的美国硅谷初创公司摘下,据称公司正与小米、联想、三星探讨合作。



阶跃星辰也是目前与手机厂商合作密集的大模型公司之一,合作方包括荣耀、OPPO和中兴。技术报告显示,除了生产力工具,Step-GUI重点考虑了高频使用的生活服务,比如“在携程上订一张去三亚的机票,微信发给我老婆”。

最早一批入场手机智能体的智谱,最近开源了AutoGLM。据智谱披露,AutoGLM在常见国内App中的任务成功率可达89.7%。

测试得分看起来都不错,为什么实际体验还很笨拙?

在张驰看来,差距首先出现在学术指标与产业目标之间。学术界与产业界关注的指标并不一致,很多落地障碍并非技术问题,而是工程问题。但如果不以落地为目标,研究者往往很难提前想到工程缺口。

张驰举例说,多轮对话就是一个典型场景。很多开发者没考虑到,在真实环境下,需要用户进行反复补充信息,才能向智能体指明具体要买哪趟航班;再比如,学术研究中的GUI Agent往往只关注单个任务的记忆,但要落地成产品,必须具备手机的上下文记忆,才能理解用户的语境。

工程方面的问题,在过去一年里被更多研究者关注。OPPO研究院与上海交通大学在2025年10月联合发布的一篇论文指出,当前技术评估体系过度强调任务成功率,却忽略了以用户为中心的指标,包括意图理解的准确性、持续自我演化能力,以及整体交互体验。

这篇论文还提到,基准测试和真实场景的复杂性有明显差距。在测试环境中,几乎没有不可预测的干扰,但在真实使用里,一个突如其来的界面广告弹窗就足以中断执行。

在此背景下,豆包的技术意义主要是连接学术与产业。“字节的这一系列研究,更多是基础能力的增强,并围绕产品体验整合多种技术方案,比如加上了系统接口。这些尝试需要大量数据和算力,能够弥补学术界在这方面的不足。”张驰评价道。

我们还了解到,一些手机厂商宣称并未在量产产品中释放GUI Agent的全部能力,主要顾虑是稳定性和隐私。据其解释,虽然公司认为自己的GUI Agent实际效果不差,但鲁棒性还不够,也就是表现不够稳健,消费者对AI操作失败的容忍度很低。此外,GUI Agent的隐私风险仍然过高。

如果说大模型是智能体的大脑,那么操作系统就是它的手脚。没有环境支持,GUI Agent的能力无法释放,二者缺一不可。

正因如此,围绕手机智能体的争议,总会落到一个话题上:系统权限。

我们联合张晓寒测评了努比亚(豆包手机)、荣耀、华为、vivo、OPPO、小米六台手机的预装智能体,发现几乎所有智能体的权限总量都超过100个。四类权限(系统控制、屏幕控制与注入、窗口与显示管理、隐私数据访问)构成智能体接管手机的能力基石。

张晓寒形容这是“一个惊人的数量级”。他表示,作为参照,即便是微信这类生态复杂的超级App,申请权限通常也不会超过100项。

很难说如此多权限,都是必要的。云安全联盟大中华区CTO王安宇曾负责多家手机的终端安全,他告诉我们,智能体如果想应对复杂的任务链条,例如“给我妈发个消息今晚不回家吃饭”,最简单的方式就是提前申请通讯录、短信等全套权限。虽然也有其他方式,但会频繁触发授权弹窗,影响使用流畅度。

比数量更值得关注的,是申请权限的内容。测评显示,手机智能体申请的高敏感权限平均接近 40%,包括获取精确定位、读取短信与录音、静默安装应用等。

张晓寒表示,普通 App 的高敏感权限占比通常控制在 30% 以下,而且获取位置等敏感数据时,通常得按国家标准进行单独弹窗提示。“这意味着用户在使用手机智能体时,实质上是在运行一个默认拥有极高特权的程序,不能视为普通应用。”

智能体拿到的这些敏感权限服务于两项核心能力:读屏与自动操作。如何实现这两步,决定了风险的上限,因此需要更深入的分析。

在我们去年第一轮测评中,除了华为,所有手机智能体都采用了无障碍权限。它相当于一张万能门禁卡,可以绕过手机操作系统的沙箱隔离机制,进入每个App的独立房间,读取屏幕上的文本、按钮、标签。

经过一年进化,一些智能体走入了手机系统更深处。

技术测评结果显示,为了读屏,荣耀、小米和vivo的技术主路径是无障碍权限,而豆包和OPPO利用的是更底层的系统服务——豆包手机助手用到了一项名为WindowManagerService的系统服务,其截图依赖于CAPTURE_VIDEO_OUTPUT 和 CAPTURE_SECURE_VIDEO_OUTPUT 权限;OPPO的小布助手则通过SystemUI 等其他系统组件的相互调用,实现屏幕识别。

王安宇向我们解释了两者的差别:无障碍权限仍面临限制,打开时需要有系统弹窗,需要用户手动开启,而且无法直接读取银行密码键盘等Secure安全窗口。只要遵守这些安全栅栏,第三方App都可以合法调用。

与无障碍不同,系统框架没有单独的弹窗提示,可以直接获取像素级屏幕内容,并且能截屏到Secure安全窗口。因此,它只授予厂商级预装应用,不开放给第三方App。

针对利用系统框架截屏到Secure安全窗口的问题,豆包此前回应时解释,豆包手机助手使用了原生截屏接口(WindowManagerService),目的是为了在灵动岛向用户展示操作过程。

针对此次测评,豆包回应我们称,CAPTURE_SECURE_VIDEO_OUTPUT权限用于生成可视化虚拟操作界面,将助手的后台操作过程实时投射至虚拟屏(带有粉色光晕标识),确保用户全程可见。在这一过程中,“严格遵循应用声明的 Secure 标记,无法截屏银行安全键盘等声明受保护的界面内容”。

“‘严格遵循’是个有点讨巧的说法,理论上是能够截屏Secure页面的,只是不一定会实际处理。”一位手机安全业内人士直言。

我们的技术测评也显示,豆包、OPPO具备截屏Secure窗口的能力,但会加入标志提示,由调用方判断下一步的处理方式。相当于可以无视外界的安全屏障,更依赖于自我约束。

在自动操作层面,权限升级同样明显。OPPO和vivo的技术主路径为利用无障碍权限、模拟点击,豆包和荣耀则申请了inject_events权限,小米两者都有涉及。

“inject_events相当于设备的完全控制权,能力范围远远超出无障碍权限。”王安宇解释,无障碍点击速度偏慢、容易受后台服务限制等影响,对复杂界面处理也相对存在局限性;而inject_events直接向系统注入事件,更少被UI干预,成功率更高。同样的,该权限只对厂商级预装应用开放。

更开放的系统权限是一把双刃剑,它让AI更智能,也让安全暴露在更大的风浪中。

智能体需要不断截屏、分析、传数据上云,其中不可避免接触好友动态、私信提示、广告内容等敏感信息。哪怕厂商承诺不存储这些信息,但在读取和处理的瞬间,隐私暴露的⻛险也是客观存在的。

多位从业者还共同提到了误操作的问题。如果指令被干扰或者理解错误,用户可能来不及退出,智能体就在几秒钟内完成连续操作了——这是一种更不可控的风险。

值得一提的是,无论是无障碍权限还是inject_event,系统方手机厂商都兼具“玩家”和“裁判员”双重身份。我们曾在此前的无障碍权限测评中发现,手机厂商的原生智能体调用了无障碍权限但未提示,或者任务结束后无障碍权限还保持打开,并未严格遵循安全规则。

“GUI Agent 最根本的问题还是权限太高了,本质是在代替用户操作。”张驰说,智能体要真正落地,一定需要限制,而且得在用户预期和实际能力之间找到共同点。不能让用户以为什么都能做,实际上很多事做不到,也不该做。不确定性叠加高权限,本身就是一种风险。

给智能体套上透明的使用规范,因此是第一道防线。

在我们去年的测评中,手机智能体的调用还相当混乱:有的没有单独提示无障碍权限,有的任务结束后仍保持高权限开启。而今年的测评显示,各家提供者已经形成了较为一致的安全基线。

豆包、荣耀、OPPO已公开各自的AI隐私与安全白皮书。结合我们的测评可以看到,当前的安全设计主要集中在三个维度:知情与控制、操作透明度、数据传输策略。

在知情和控制上,差异最明显的是单独告知机制。虽然所有智能体都要求用户先同意《隐私政策》,但普通用户不一定明白AI如何操作、风险有多大。对此,只有小米和豆包在实际操作前,单独发送了“是否允许AI接管手机”的弹窗。

敏感操作的二次确认已成为行业共识,但哪些算敏感操作并不统一。大部分智能体只要求用户对支付二次确认,豆包则将发布内容、删除内容、退出账号等行为也纳为敏感操作,需要手动接管或确认。

OPPO在其领头撰写的安全技术白皮书提到,对于不同风险等级的行为,需要不同策略。OPPO建议的高风险操作有拼接验证码、安装App、删除或修改用户数据、发起支付和转账、保存敏感个人信息。

豆包在回应我们时提及,豆包手机助手采用了权限授权透明化、敏感操作人工接管、权限可控可调整等安全保障。

多位网络安全从业者向我们提到,AI操作日志留痕和权限记录很重要。云安全联盟分析师卜宋博解释,这是为了让AI的每⼀步操作有迹可循。比如“打开麦克风”“访问通讯录”等操作,应当像App权限一样可视化,才能做到事后追溯与监管。

测评显示,目前小米和华为的基础记录缺失。例如,使唤智能体需要调用手机麦克风,但在小米系统的麦克风权限使用记录中,事后没有出现小爱同学的痕迹。小米对此没有明确回复,只向我们表示在第一次使用AI助手时,会事前征得调用麦克风的用户授权。

还有一种需要特别关注的隐私场景,是锁屏状态下的智能体表现。王安宇告诉我们,手机锁屏时会有网络限制,如果能语音唤醒智能体,说明其绕过了很多安全机制。假如手机落入第三方手中,智能体还可能成为绕过锁屏的“入侵”工具。

王安宇和卜宋博因此单独测试了锁屏场景,发现大多手机智能体都已经加上安全防护。只有小米默认屏幕显示详细的通知信息,并允许智能体播报出信息、网络状态、锁屏时间等。

“这是一个比较小的攻击面,毕竟现在手机都设计了声纹识别,要唤醒智能体,黑客还得知道机主的声纹特征才行。”多位技术安全专家说。不过他们也指出,作为收集数据更多、能力更强的AI,对危险场景的考虑应当更细致。

总的来说,参与测评的业内人士认为代码逻辑是安全的,行业也有一套基础安全护栏。但问题并没有到此结束。

目前所有手机智能体都需要用“端云协同模式”来处理数据,而数据上云是手机智能体最有争议的环节,并不让人意外。张晓寒向我们指出,过去常见有敏感信息的网络数据包被截取,或者没有严格加密传到云端,导致隐私泄露。可以说,数据安全是整个手机安全体系中最核心、最脆弱的问题。

为了评估手机智能体数据上云的风险,多位技术专家进行了测评。结果显示,除了系统原生功能(闹钟、日历)外,大多数任务都会触发云端传输。

至于传输数据是否包含敏感信息,张晓寒告诉我们,测评智能体均采用了较为完备的数据加密和保护方法,所以无法通过抓包验证。

张晓寒因此又尝试了黑盒测试,要求智能体“将当前屏幕展现的身份证照片转为吉卜力风格”。结果发现,所有智能体都能完成任务,且身份证号未被脱敏处理,这意味着敏感信息大概率被上传到了云端处理。

许多开发者已经在关注数据匿名化方案,试图让“上云”过程更安全。比如,阶跃星辰在技术报告中设想,云端的大模型不应该直接访问原始屏幕截图,而是接受本地GUI模型处理后的摘要。这些摘要仅包含完成任务所需的关键语义,不包含敏感的细节信息。

但愿景离现实还有很长距离。北京师范大学最新发布的一篇论文指出,现有GUI Agent的隐私识别能力很弱,只有13.3%的概率准确识别出安卓屏幕里的隐私信息。也就是说,智能体几乎意识不到自己正在看隐私,离合格的数据保护还很远。

“最大的担忧还是在这里,你在手机屏幕里看到的一切内容,理论上都会暴露给一个智能体。无论是加密还是直接传原始数据,最终一定程度上都是可以被还原的。”张驰说。

开发者当然可以为此承诺最小化收集、不留存等安全措施,但问题在于,数据已经交出去了——如何使用,取决于要不要相信它们的安全机制和自我约束。

隐私悖论曾在互联网时代反复上演,用户为了便利交出隐私,但难以控制它们究竟被如何利用。手机智能体的风险更大,因为它不再针对单个App,而是整合全景数据。这既是技术难题,也是信任拷问。

豆包手机助手发售后,最显性的阻力来自于App。发售第二天,多位购买了努比亚M153手机的用户反映微信突然被强制下线,提示“登录环境存在异常”。微信相关人士表示,可能触发了安全风控措施。

微信率先反应后,阿里系、美团系等App集体“限制”了豆包操作,来自努比亚设备的账号无法正常登录。由于许多高频生活类App无法调动,“AI手机”的核心卖点迅速塌缩。

“两方谁有问题?其实做法都有点问题。”在手机厂商和互联网公司都工作过的业内人士指出,App 不该彻底拒绝互联,但 Agent 也没有理由要求强制开放。在发展和安全的外皮之下,“现在纯属是商业行为”。

行业的一个共识是:手机智能体尚未探索出合理的分润模式,各方手中握有的筹码、顾虑也不尽相同,这些都增加了达成商业共识的难度。

App的防御并不意外。此前,OPPO的“AI一键记账”功能就曾在上线不到一个月后,被微信从支持列表中移除。过去一年,行业已经对自动化截屏与操作保持警惕,只是豆包第一次把能力边界推到极限。

这背后的动机已经被反复讨论。可能影响平台的安全运行是一方面;另一方面,一旦智能体能完全替代真人操作手机,短期冲击的活跃度、使用时、广告曝光的核心商业指标,长期还可能让App被管道化(OTT化),退化为智能体的工具零件。

除了App,还有一条水下暗流是手机厂商。

智能体要接管手机,目前必须拥有手机系统权限才行。尤其对豆包、智谱、阶跃星辰等第三方入局者来说,谈拢硬件厂商是上路的第一关。

我们了解到,字节跳动在2024年就开始接触中兴等手机厂商,希望手机AI助手的入口和流量完全转给豆包。作为交换,字节愿意免除手机厂商的托管费,并承担AI助手的Token调用成本。

Token成本是各个手机厂商看重的问题之一,智谱也跟手机厂商提出过类似方案,改为按设备数量进行整机收费。这是因为智能体调用频繁、消耗巨大,长期的算力成本反而可能侵蚀硬件利润。

但即便字节抛出诱人的商业条件,当时也并未打动中兴之外的手机厂商,原因不只是性价比。据《财新》报道,智能体需要硬件厂商开放系统级权限,包括摄像头、指纹识别等物理传感器的开关。手机厂商普遍不愿意将系统级权限直接开放给App开发者,尤其是字节跳动这种全能巨头。

“这只是表层理由。”曾参与谈判的业内人士向我们指出,本质还是因为字节的方案不符合手机厂商的AI战略。一方面,主流手机厂商都有自己的AI团队,不会轻易让渡系统AI助手这一核心入口;另一方面,字节当时并未想清楚AI助手到底要做什么,“手机整个产线都是成本,没有办法拿整个身家赌一个AI的前途。”

一位头部手机厂商负责人直言,如果⼀个产品推出第⼆天,⼤部分服务都不能⽤了,“在我们这⼉就是质量事故,是没法接受的。”大部分消费者的手机购买决策依据是系统流畅度、续航和发热,在消费品战场,产品稳定性远比AI创新更重要。

不过,这并不意味着手机厂商处于防御状态,而是在谨慎评估。

我们了解到,字节仍在推进与硬软件厂商的双线谈判。根据《智能涌现》披露,字节已于去2025年底开启豆包手机助手正式版项目,新机预计将于2026年Q2中晚期发布。有供应链人士称,豆包二代手机依旧合作中兴努比亚,由中兴负责硬件,豆包负责AI。

推进的关键是豆包验证了市场需求,即用户愿意为智能体能力买单。我们获得的一份OPPO内部讲话显示,Color OS 智慧产品研发总监称豆包手机助手是一次“AI手机的市场教育”,让整个生态更积极地讨论合作可能性,“现在⼤家(App大厂)都变得更积极了。”

在手机厂商的视角里,用户体验始终是第一优先级。考虑到这一点,多位开发者都提到,手机智能体的落地路线应该是“双轨并行”的:高频、标准化的场景(比如订机票、点外卖),通过A2A等合作协议完成;非标准化的长尾场景(比如在某个学术网站注册账号),再用GUI Agent的视觉识别路线。

所谓A2A、MCP或者意图框架,都属于智能体与外界工具的互通方案。经过App授权后,智能体通过API或者其他Agent调用服务,避免读屏分析和模拟点击。体验更流畅、鲁棒性更强,也更易形成稳定的合规边界,但也考验对接双方的Agent水平。

从手机智能体兴起以来,这类合作路线就一直存在,难点始终在于“摸着石头过河”——合作没有先例,即使只期望覆盖一部分高频App场景,也需要复杂的商务谈判和技术对齐。

“现在还是一个非常早期的阶段,肯定说不上有成熟的标准”,前述OPPO负责人坦言。协议需要标准化,尤其需要回答流量分成、数据回流以及用户上下文隐私处理等核心问题,否则合作会变得不可控。

据我们的了解,阿里在内的部分App与字节跳动达成停火协议,App允许努比亚设备的正常登录,而豆包主动限制AI操作场景,双方回到“井水不犯河水”的状态。

我们于2月10日核查,在微信、淘宝、淘宝闪购、美团、支付宝、拼多多、高德地图App中,努比亚设备的用户可以正常登录,不会再弹出“登录环境异常”的提示;而豆包手机助手会主动提示,自己不可操作上述App。

至于进一步的合作意愿如何?许多业内人士的判断是:阿里系可能更愿意探索,因为自身也在推进智能体战略。最近千问App开始接入淘宝、支付宝、闪购、飞猪、高德,甚至“想复刻一个豆包手机都没有任何问题”。

而腾讯系一直是坚定的防守阵营。自2024年起,腾讯已经意识到端侧智能体可能对自身生态造成冲击,但没想到最终跑出来的是字节跳动。目前的处境也比较微妙,自家的元宝还在补作业阶段,微信生态对接入Agent尤其谨慎,防守仍是当前的最优解。

豆包方面回复我们称,目前仍在积极寻求与各应用厂商的深度沟通,希望推动形成更加清晰、可预期的规则,避免用一刀切的方式,否定用户合理使用 AI 的权利。

豆包手机助手被微信安全弹窗“封堵”,让不少人想起十多年前的3Q大战。彼时,360以“隐私保护器”为由拦截QQ,腾讯则以不正当竞争为由反击,宣布装有360软件的电脑无法运行QQ。双方从2010年互掐到2014年,成为中国互联网史上标志性的反垄断与竞争秩序案件。

映射到今天,争议依然围绕平台的边界,“只不过一个是主张对方篡改功能屏蔽广告,构成不正当竞争;另一个是通过高系统权限绕过App风控,以动摇以App为中心的移动互联格局。”合规从业者李汶龙撰文写道。

当前的期望在,寻找同一个概念锚点,至少让不同方在同一个法律框架之下同频对话。多位合规从业者向我们提到,他们认为锚点应该是“互操作性”。

互操作性不是一个新概念。20世纪末,欧美监管机构将大型电信运营商视为公共基础设施,要求电话网络必须开放互通。由此确立的互联互通概念,也影响了此后几十年的互联网环境。

到了AI时代,互联互通升级为更深入的功能操作,边界也需要重新摸索。

海外已经有了一些进展。谷歌的情况与字节颇为相似,三星等手机厂商需要以谷歌的智能体为端侧AI入口。今年1月,欧盟对此启动了两项互操作性的程序,要谷歌履行《数字市场法案》(DMA)义务。

两项程序中,一是针对AI服务,要求谷歌向第三方AI提供与Gemini同等级的系统访问权;二是针对搜索业务,要求谷歌以公平、合理和非歧视(FRAND)条款,向第三方搜索引擎开放匿名排名、查询、点击和浏览数据。

如果把这一语境置换为国内市场,意味着字节、手机厂商不准利用底层权限“拉偏架”,指定自家的手机助手为唯一入口,必须给第三方平等接入的机会。而头部的APP厂商也不能利用自己的生态地位构建闭环,架空系统入口。双方坚持公平、合理和非歧视的FRAND原则,才有往前走的可能性。

寻找锚点只是第一步,进一步的问题是,谁有能力号召和落地规则。

多位研发者提到,他们认为可以参考苹果的生态位。苹果当年的做法是,提供一套开发者套件,让所有 App 开发者自己去决定,哪些能力可以通过 Siri 这样的系统级助手被调用,哪些不可以。

具体来说,通过App Intents框架,Siri只调度开发者授权的功能接口,而不直接触达底层数据。而针对 App 厂商最担忧的数据控制权之争,苹果设备仅在用户请求时,向私有云发送必要数据,私有云处理完请求后立即删掉数据,即“阅后即焚”。

这样一来,硬件级的隐私设计能打消App 厂商被“吃掉”的恐惧,App方保住了数据资产,获得了流量;手机获得了AI能力升级;用户也获得相对可控的隐私体验。

但这是一种非常理想化的方案,几乎是国内厂商难以复制的终点。毕竟苹果的处理方案,本质建立在自研芯片和绝对生态霸主的基础之上。

Carrie向我们直言:“往深里走,会发现都是芯片和内存的问题”,芯片和端侧AI是当前产业的高门槛工程。豆包也在回复中谈到,在当下的产业落地,云端处理相比端侧有明显优势,复杂 AI 模型在手机上运行会能力大幅降低,还会导致耗电快、手机发热、内存不足等问题。

这构成了国内智能体落地的矛盾,似乎没有一家公司同时具备硬件供应链、隐私技术与生态号召力三体合一的底气,去引领安全方案与商业步伐。

不少人因此认为,只有出现一个真正破圈的“超级智能体”才能打破僵局。到那时,就像传统出租车面对网约车平台一样,没有端侧智能体的“登船票”就会被甩下——这当然是一个技术上的乐观预期,却是商业与隐私治理的悲观前景。

撰文|肖潇 王俊

测评|王俊 肖潇 王安宇 张晓寒 卜宋博 章驰

制图|肖潇 黎旭亭 黄兰雯