又热闹了！OpenAI的加强版“Her”正式开放，压过了Gemini的“生产级”大升级…

今天可谓是AI领域的一个热闹的日子！昨天奥特曼发布的那篇AI小作文让人摸不着头脑，而现在他的意图逐渐清晰了。奥特曼的目标直指老对手Google，具体来说是今天Google推出的两款升级版Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。奥特曼的策略相当直接：宣布备受期待的GPT语音功能正式上线。短短两小时内，就成功抢占了Google的风头。如果我是Google，估计也会气得吐血。

GPT 高级语音功能全面上线

OpenAI宣布，ChatGPT的高级语音模式（Advanced Voice Mode）将在本周内逐步向所有Plus和团队用户推出。团队在这段时间内对功能进行了多项改进，包括新增自定义指令、记忆功能以及五种新声音，并改进了口音。OpenAI特意强调：“它可以用50多种语言说出‘抱歉，我迟到了’。”

视频展示了从英文切换到普通话的例子：“奶奶对不起，我迟到了。我不是故意让您等这么久的，我可以怎么补偿您呢？”视频中的语音模式以一个跳动的蓝色球体表示，而非之前展示的黑色动画点。当用户获得访问权限时，应用内会弹出提示。首先是Plus和Teams层级用户，下周起扩展到企业和教育用户。

ChatGPT还新增了五种新语音：Arbor、Maple、Sol、Spruce和Vale。至此，ChatGPT的语音总数达到了9种（Google的Gemini Live语音数量为10种）。这些名字都是从自然界中汲取灵感的，旨在让使用感觉更加自然。

OpenAI还扩展了一些定制功能，包括允许用户个性化回应的「自定义指令」功能，以及允许ChatGPT记住对话的记忆功能。例如，在系统设置的自定义ChatGPT菜单中输入“我的名字是夏洛特，我住在旧金山湾区”，GPT会在回答问题时称呼用户为夏洛特，并提供符合本地天气和交通的建议。

尽管如此，OpenAI四个月前展示的视频和屏幕共享功能此次并未更新。目前，OpenAI尚未提供这项多模态功能的推出时间表。此外，高级语音模式暂不对欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放。

Google 发布Gemini 1.5 新模型

Google这次的更新同样值得关注，尤其是对于开发者而言。根据Google Blog，这次他们推出了两个生产级Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。这两个模型经过充分开发、测试和优化，已准备好商业化部署。

主要亮点如下：

1. 价格大幅降低：1.5 Pro的输入和输出价格下降约50%，降低了构建成本。
2. 整体质量改进：在数学、代码生成、长文本上下文和视觉任务上的性能显著提升。
3. 速率限制提高：1.5 Flash和1.5 Pro的速率限制分别提高至每分钟2000 RPM和1000 RPM。
4. 更快输出和更低延迟：输出速度提升2倍，延迟降低3倍。
5. 更简洁的响应：响应风格更简洁、成本更低。
6. 多模态和长上下文支持：1.5 Pro支持处理长文本和多模态任务。
7. 更新的过滤设置：开发者可以根据需要定制模型的安全设置。

开发者可以通过Google AI Studio和Gemini API免费访问这两个最新模型。大型组织和Google Cloud客户也可在Vertex AI上使用新模型。

开发者对Gemini的反应

然而，不少普通用户对Google的动作表示失望，认为这甚至不算真正意义上的“发布”。Abacus.AI CEO Bindu Reddy表示：“OpenAI发布了通过智商测试的o1，而Google只是对Gemini 1.5进行了一些小更新。”

尽管有开发者为Google辩护，但总体来看，Gemini的吸引力仅限于开发者群体。甚至一些开发者也表示不满：“我没有看到与Claude或o1的比较，我们即将迎来新一代OpenAI和Anthropic模型。”

Google对模型的命名也被吐槽，认为其冗长且易混淆。The Information近期发布的一篇文章揭示了Gemini如何被开发者“抛弃”。相比之下，OpenAI的API使用起来更加简便。一项调查显示，超过76%的受访者选择使用GPT。

尽管Google试图通过各种措施改变现状，但在OpenAI的强大市场份额面前，Google的反击之路并不容易。

对Google的期待

人们对Google的失望源于对其的高期待。这家公司拥有强大的实力和人才储备，却无法提供更多“替代”OpenAI的选项，这确实令人遗憾。

本文来源：