AI点外卖还知道怎样省钱！智谱公布Agent三端升级，手机电脑都能被接管

作者：小编更新时间2024-12-01 08:33:45 点击数：

//oss.zhidx.com/uploads/2024/11/674978e36f2c1_674978e36b5fa_674978e36b5ce_WeChat_20241129161819.mp4

当一个人在指定的微信群聊中发100个、总金额为2万元的红包，他至少需要完成包括点开微信、找到指定的微信群聊、找到底部菜单中的红包并点击、输入红包数量和总金额在内的一系列操作，但如果有了Agent，这只是一句话的事，除输入密码外的其它操作都可以交给Agent来完成。这样具有科技感的画面，来自智谱CEO张鹏对新升级的AutoGLM的现场演示。

智东西11月29日报道，今日，在国产大模型公司智谱举办的Agent OpenDay上，该公司公布了Agent项目在手机端、浏览器、电脑端的新进展：

手机端方面，AutoGLM新升级，可以理解超长复杂指令，自主执行超过50步的手机操作，还能跨App执行任务，如自主在小红书App检索网友推荐的美食食材后到小象超市下单；

浏览器方面，智谱清言网页端插件上线AutoGLM功能，支持在数十个网站执行任务，如给名人的微博写一条评论；

电脑端方面，GLM-PC开启邀请测试，第一阶段将在会议替身、文档处理、网页搜索与总结、远程和定时操作、隐形屏幕等五大场景进行内测。

张鹏认为，Agent可以看作是大模型通用操作系统（LLM-OS）的雏形，“现阶段，AutoGLM相当于在人与应用之间添加一个执行的调度层，很大程度上改变人机的交互形式。更重要的是，我们看到了LLM-OS的可能，基于大模型智能能力，未来有机会实现原生的人机交互，将人机交互范式带向新的阶段。”

一、GLM-phone：54步买食材，比人类快5秒

今年10月，智谱正式发布Agent项目AutoGLM，并面向公众开启内测。一个月后的今天，AutoGLM在手机端执行任务复杂度、跨App执行等方面得到显著升级。

首先是超长任务方面，升级后的AutoGLM支持更长的任务流程，能够理解超长、复杂的指令并实现连贯自主操作。如，用户可以让AutoGLM在美团买火锅食材，AutoGLM可以将该任务拆解为54步操作并顺利完成。根据发布会现场视频，在这一任务上，AutoGLM的操作速度比人类快5秒。

其次是跨App操作方面，AutoGLM可以根据人类一句简单的指令跨多个App执行任务。如，让AutoGLM帮忙点一份更便宜的外卖，AutoGLM可以在多个外卖App间切换并检索、对比同一商品的价格，然后选择更便宜的那一个完成下单操作。张鹏介绍，这一功能的实现源于AutoGLM强大的泛化能力，具备App思维链，真正成为了用户和应用之间执行的调度层。

为了更贴合用户在日常生活中的实际使用场景，AutoGLM还新增了“短口令”和“随便模式”。

在用户对长任务设置自定义短语后，让AutoGLM点咖啡的操作真的可以浓缩于一句“点咖啡”，而不再需要告诉AutoGLM在哪家店、购买哪一款商品；随便模式则更像是把“喝哪一种咖啡”的选择权交给AutoGLM，AI从被动执行转向主动决策，用户可以等着开一个“盲盒”。

目前，AutoGLM已启动百万内测，并将尽快上线成为面向C端用户的产品。智谱还宣布启动“10个亿级APP免费Auto升级”的计划。另外，支持核心场景和核心应用的AutoGLM标品API会在两周内上线到智谱maas开放平台试用。

二、GLM-web：自主刷网页，应援王心凌

升级后的AutoGLM也从即日起上线浏览器中的智谱清言插件，支持搜索、微博、知乎、Github等数十个网站的无人驾驶。

现场，张鹏打开智谱清言插件，让AutoGLM帮他评论歌手兼演员王心凌的微博，AutoGLM随即完成了以下操作：搜索并打开网页版微博、找到王心凌的账号并打开、根据账号首页的第一条微博内容生成相关评论、发送评论。

三、GLM-PC：像人一样处理工作，支持远程和定时操作

手机、浏览器之后，智谱还在人类和电脑之间加入了Agent——GLM-PC，该产品目前处于内测阶段，预计在明年第一季度推出。

张鹏介绍，人类使用电脑的过程是用眼睛看图形及文字、用大脑思考、再用手执行单击双击、输入等操作，而GLM-PC使用电脑的方式几乎和人类完全一样，“理论上只要是为人类设计的应用，在GLM-PC学习之后它都能够执行”。这或许是一种系统级、跨平台的能力，不依赖于 HTML、API，具备更高的能力上限。

目前，GLM-PC拥有以下能力：

1、会议替身：帮用户预定和参与会议，在会议结束后向指定对象发送会议总结。

2、文档处理：支持文档下载、文档发送、理解和总结文档。

3、网页搜索与总结：在指定平台，如微信公众号、知乎、小红书等搜索指定关键词，完成阅读、总结。

4、远程和定时操作：远程通过手机发送指令，GLM-PC可以自主完成电脑操作；设定一个未来时间，在开机状态下定时执行任务。

5、隐形屏幕：在用户工作时，GLM-PC可以在隐形屏幕上自主完成工作，不干扰电脑的正常使用。

张鹏还在现场演示了一个应用场景：通过手机远程让GLM-PC找到电脑中的某个文件，并发送至指定微信群聊中。在进行关键操作，如文件发送时，GLM-PC会通过手机提示用户进行远程确认。

这次GLM-PC的发布背后是CogAgent向2.0版本的迭代。从2023年4月的AgentBench开始，智谱针对AutoGLM和GLM-PC的模型——多模态模型CogAgent的研发工作进行了一年半的时间。

GLM-PC技术负责人潘立航现场分享说，CogAgent2.0具有更强的GUI（图形用户界面）视觉感知能力，能够进行高清晰度文本和UI界面理解；经过语言和视觉的联合训练，逻辑推理能力也得到了提升，支持电脑复杂、多任务中的目标拆解、长短程规划、界面理解、任务执行、状态判断、像素级动作预测等——大模型正默默学习人类操作，转化为属于自己的原生行为。

张鹏很坦诚地说，由于电脑的复杂程度，以及大家在电脑完成的几乎都是复杂任务，今天大模型的能力距离真正代替人类办公还有一定距离，GLM-PC在当前版本下，用户仍需要输入非常精准的指令。

四、从Chat到Act，看到LLM-OS的可能

从自然语言到多模态，从Chat到Act，AI Agent正在带来新的人机交互方式。张鹏认为，Agent可以看作是大模型通用操作系统 LLM-OS的雏形。而AutoGLM和GLM-PC是智谱迈向AI智能操作系统的尝试。

他说：“现阶段，AutoGLM相当于在人与应用之间添加一个执行的调度层，很大程度上改变人机的交互形式。更重要的是，我们看到了LLM-OS的可能，基于大模型智能能力（从L1到L4乃至更高），未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”

和OpenAI略有不同的是，在智谱的定义里，大模型发展有L1语言能力、L2逻辑能力（多模态能力）、L3使用工具的能力、 L4自我学习能力、 L5探究科学规律五个阶段，至今已经初步具备了人类与现实物理世界互动的部分能力。“Agent将极大地提升L3使用工具能力，同时开启对L4自我学习能力的探索。” 张鹏说。

“手机+AI会变成随身个人智能助理，PC+AI将会成为全新生产力工具，汽车+AI将会让车成为人们的智能第三生活空间。”在智谱COO张帆的期待中，随着端侧性能及算力持续提升、为AI原生设备适配的模型和端云同源的协同架构出现，Agent不仅在操作系统OS和应用上实现用户体验变革，还能将其推广到各类智能设备上，从手机到电脑，再到汽车、眼镜、家居和各种edge side设备。

总结：AI参与工作决策，人机交互迎来新范式

近期，信息技术研究和咨询公司Gartner将agentic AI（能动型人工智能）列为2025年十大技术趋势之一，并预测2028年至少有15%的日常工作决策将由agentic AI自主完成，而这一数字在2024年为0。从自然语言到任务执行，从单一场景到多模态、跨App协同，智谱的AutoGLM与GLM-PC正逐步揭示AI Agent对未来生活改变的广阔空间。

随着技术不断突破，AI Agent或将成为大模型走向全场景应用的关键桥梁。其对人机交互形式的重新定义，预示着AI不再局限于屏幕之内的角色，而是逐步向智能助理、生产力伙伴乃至智能系统核心的方向迈进，对人类现实物理世界产生实际影响。

以大模型为基础的AI Agent，或将加速人类迈入真正的AI原生生态时代。

Chat AI人工智能机器人在线使用

AI论文在线生成一键生成万字论文只需5分钟