2月6日消息,美国时间周三,谷歌正式向公众发布Gemini 2.0人工智能模型套件,这是该公司迄今为止推出的“最强大”AI系统。
虽然早在去年12月,谷歌已向开发者和受信任测试者开放了Gemini 2.0的早期版本,并将部分功能集成到自家产品中,但此次标志着该系统的"全面正式发布"。该模型套件包含三大核心模型套件:2.0 Flash作为"主力模型",专为处理大规模高频次任务优化;2.0 Pro Experimental针对编码性能进行强化;而2.0 Flash-Lite则被定位为"最具成本效益"的轻量化版本。
在定价策略上,Gemini Flash对文本、图像和视频输入的处理费用为每百万token 10美分(token即AI模型处理的最小数据单元,相比而言GPT-4o的输入成本为每百万token 5美元),其精简版Flash-Lite价格更低至0.75美分/百万token。这一系列产品发布是谷歌在AI智能体领域的重要布局。随着科技巨头与初创企业间的AI军备竞赛日趋激烈,包括Meta、亚马逊、微软、OpenAI及Anthropic等公司都在竞相开发能自主完成多步骤复杂任务的智能体系统,而非需要逐步指导的传统AI模型。
谷歌在去年12月的技术博客中阐释:"过去一年,我们持续投资研发更具自主性的模型,使其能够深度感知环境、进行多步前瞻性思考,并在用户监督下代为执行操作。"Gemini 2.0不仅实现了原生图像与音频输出的多模态突破,更具备原生工具调用能力,该系列模型将助力我们打造新一代AI智能体,向‘通用型数字助手’的愿景迈进。"
值得关注的是由前OpenAI研究团队创立、获亚马逊投资的Anthropic公司。这家AI新锐去年10月宣布其智能体已具备类人类的计算机操作能力,能够解析屏幕信息、点击按钮、输入文本、浏览网页,并通过各类软件结合实时网络数据完成任务。公司首席科学家贾里德·卡普兰(Jared Kaplan)当时表示:"我们的系统能以近乎人类的方式操作电脑,处理包含数十乃至数百个步骤的复杂流程。"
OpenAI近期也推出名为Operator的智能体系统,可自动完成旅行规划、表格填写、餐厅预订等任务。这家微软投资的明星企业将Operator定义为"可联网执行任务的数字代理"。本周早些时候,OpenAI又发布Deep Research功能,支持智能体自主生成深度研究报告。值得注意的是,谷歌在去年12月也推出了同名工具,定位为"能代用户探索复杂课题的研究助手"。
去年12月曾有报道称,谷歌计划在2025年初推出多项AI新功能。公司首席执行官桑达尔·皮查伊(Sundar Pichai)在内部战略会上强调:"商业史上,先发优势并非绝对关键,真正的成功在于卓越执行力与产品力。2025年对我们而言,正是兑现产品承诺的关键之年。"(小小)