IT之家报道,8月14日,谷歌在Pixel 9系列新品发布会上推出了Gemini Live服务,该服务将优先向英语用户中的Gemini高级订阅者开放。Gemini Live服务致力于提升用户与Gemini之间的对话体验,使得双方的交流更加自然、流畅。
Gemini Live服务采用了增强型语音引擎技术,能够实现更为真实且富有情感的多轮对话。用户在与Gemini进行互动的过程中,可以随时打断其发言,并提出进一步的问题,Gemini将根据用户的语言习惯做出实时调整。
借助Gemini Live服务,用户可通过Gemini应用程序与Gemini进行对话,并可从十种自然声音中挑选一种作为Gemini的回复声音。此外,用户还可以按照自己的节奏进行对话,甚至在Gemini回答问题的过程中提出澄清性问题,这种交互方式类似于人与人之间的正常对话。
Gemini Live还提供了一个应用场景示例,即模拟用户与招聘经理(或AI角色)之间的对话,以帮助用户提高演讲技巧并获得优化建议。
Gemini Live目前使用的是Gemini高级模型,该模型经过专门调整以提高对话性。在用户与Gemini进行长时间对话时,会启用更大的上下文窗口以支持对话的连贯性。
值得注意的是,Gemini Live尚未具备在I/O大会上展示的多模态输入功能,如通过手机摄像头捕捉图像和视频,并据此做出响应等。谷歌计划在今年晚些时候推出这一功能,但具体细节尚未公布。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...