1月,OpenAI宣布进军AI智能体领域,中国公司智谱也推出了新版的GLM-PC 1.1。从回答问题到执行任务,AI智能体的发展进入了新的阶段。
当地时间1月23日,美国人工智能公司OpenAI推出了首款AI智能体Operator。这款智能体能够模拟人类操作浏览器完成购物、订餐、论文整理等任务,通过融合视觉识别与高级推理的CUA模型实现复杂步骤规划。工作流程中,Operator会根据需求捕获屏幕画面,通过GPT-4o的视觉能力理解界面内容,再依靠强化学习制定下一步计划,并使用虚拟鼠标和键盘执行点击、滚动或输入等操作,直至任务完成或需要用户输入。目前,Operator将以每月200美元的订阅费面向美国ChatGPT Pro用户开放测试。
同一天,中国公司智谱AI发布了去年12月公布的AI智能体GLM-PC 1.0的升级版——GLM-PC 1.1。本次更新优化了多种任务流程,不仅能够自动处理文件、发送定制化微信内容,还借鉴了人类左右脑分工的概念,以“左脑逻辑+右脑感知”的双引擎架构实现多模态交互,甚至生成代码与视频内容,展示了超越文本生成的操作层突破。智谱公众号文章演示了在淘宝中一键加购辣条等产品、截取小红书春节档图片转发微信群聊并询问观看意愿、以及给群聊成员每人单独发送一段2025年新春祝福语和AI自动生成的蛇年主题图片。这些新春祝福甚至可以按照每个人的名字进行定制发送。
新版GLM-PC的背后是智谱自主研发的多模态模型CogAgent与代码模型CodeGeex的深度融合。该系统以代码形式指挥工作流程和工具调用,强化了深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。实际执行时,GLM-PC能感知多层环境反馈,协助反思,以有效自我纠正与优化。
目前,通用人工智能技术已进入L3级(智能体)阶段,核心竞争围绕各家企业模型的自主操作能力展开。除了OpenAI和智谱,谷歌、微软、Anthropic以及国内多家AI公司也都相继推出类似产品。上海人工智能产业研究院院长朱兆颖预测,AI智能体将是生成式AI的下一个前沿,预计2025年市场规模将达100亿美元以上,2025年将成为AI智能体大放异彩的应用元年。