今天可谓是AI领域的一个热闹的日子!昨天奥特曼发布的那篇AI小作文让人摸不着头脑,而现在他的意图逐渐清晰了。奥特曼的目标直指老对手Google,具体来说是今天Google推出的两款升级版Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。奥特曼的策略相当直接:宣布备受期待的GPT语音功能正式上线。短短两小时内,就成功抢占了Google的风头。如果我是Google,估计也会气得吐血。
GPT 高级语音功能全面上线
OpenAI宣布,ChatGPT的高级语音模式(Advanced Voice Mode)将在本周内逐步向所有Plus和团队用户推出。团队在这段时间内对功能进行了多项改进,包括新增自定义指令、记忆功能以及五种新声音,并改进了口音。OpenAI特意强调:“它可以用50多种语言说出‘抱歉,我迟到了’。”
视频展示了从英文切换到普通话的例子:“奶奶对不起,我迟到了。我不是故意让您等这么久的,我可以怎么补偿您呢?”视频中的语音模式以一个跳动的蓝色球体表示,而非之前展示的黑色动画点。当用户获得访问权限时,应用内会弹出提示。首先是Plus和Teams层级用户,下周起扩展到企业和教育用户。
ChatGPT还新增了五种新语音:Arbor、Maple、Sol、Spruce和Vale。至此,ChatGPT的语音总数达到了9种(Google的Gemini Live语音数量为10种)。这些名字都是从自然界中汲取灵感的,旨在让使用感觉更加自然。
OpenAI还扩展了一些定制功能,包括允许用户个性化回应的「自定义指令」功能,以及允许ChatGPT记住对话的记忆功能。例如,在系统设置的自定义ChatGPT菜单中输入“我的名字是夏洛特,我住在旧金山湾区”,GPT会在回答问题时称呼用户为夏洛特,并提供符合本地天气和交通的建议。
尽管如此,OpenAI四个月前展示的视频和屏幕共享功能此次并未更新。目前,OpenAI尚未提供这项多模态功能的推出时间表。此外,高级语音模式暂不对欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放。
Google 发布Gemini 1.5 新模型
Google这次的更新同样值得关注,尤其是对于开发者而言。根据Google Blog,这次他们推出了两个生产级Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。这两个模型经过充分开发、测试和优化,已准备好商业化部署。
主要亮点如下:
1. 价格大幅降低:1.5 Pro的输入和输出价格下降约50%,降低了构建成本。
2. 整体质量改进:在数学、代码生成、长文本上下文和视觉任务上的性能显著提升。
3. 速率限制提高:1.5 Flash和1.5 Pro的速率限制分别提高至每分钟2000 RPM和1000 RPM。
4. 更快输出和更低延迟:输出速度提升2倍,延迟降低3倍。
5. 更简洁的响应:响应风格更简洁、成本更低。
6. 多模态和长上下文支持:1.5 Pro支持处理长文本和多模态任务。
7. 更新的过滤设置:开发者可以根据需要定制模型的安全设置。
开发者可以通过Google AI Studio和Gemini API免费访问这两个最新模型。大型组织和Google Cloud客户也可在Vertex AI上使用新模型。
开发者对Gemini的反应
然而,不少普通用户对Google的动作表示失望,认为这甚至不算真正意义上的“发布”。Abacus.AI CEO Bindu Reddy表示:“OpenAI发布了通过智商测试的o1,而Google只是对Gemini 1.5进行了一些小更新。”
尽管有开发者为Google辩护,但总体来看,Gemini的吸引力仅限于开发者群体。甚至一些开发者也表示不满:“我没有看到与Claude或o1的比较,我们即将迎来新一代OpenAI和Anthropic模型。”
Google对模型的命名也被吐槽,认为其冗长且易混淆。The Information近期发布的一篇文章揭示了Gemini如何被开发者“抛弃”。相比之下,OpenAI的API使用起来更加简便。一项调查显示,超过76%的受访者选择使用GPT。
尽管Google试图通过各种措施改变现状,但在OpenAI的强大市场份额面前,Google的反击之路并不容易。
对Google的期待
人们对Google的失望源于对其的高期待。这家公司拥有强大的实力和人才储备,却无法提供更多“替代”OpenAI的选项,这确实令人遗憾。
本文来源: 硅星人Pro公众号【阅读原文】