近日,据《信息报》报道,亚马逊正秘密研发一款名为Olympus的新一代多模态AI模型。这款模型不仅具备强大的文字理解能力,还在图像和视频分析领域展现出卓越的性能,特别是在视频场景理解和精准运动分析方面具有显著优势。
知情人士透露,尽管Olympus在文本生成和解决复杂问题方面可能不及OpenAI和美国AI巨头Anthropic的最新语言模型,但亚马逊看重的是其在视频处理上的巨大潜力。亚马逊计划以更具竞争力的价格推出这一服务,旨在降低对Anthropic技术的依赖。
目前,Anthropic的Claude聊天机器人是亚马逊云服务(AWS)上的明星产品。近期,亚马逊再次向Anthropic投资40亿美元,使其总投资额达到了80亿美元。然而,亚马逊希望通过自主研发的Olympus来增强自身的竞争力。
Olympus视频理解能力出众,助力AWS客户高效分析视频
知情人士指出,Olympus在视频理解方面表现出色,能够准确判断篮球离开球员手的时间并预测其运动轨迹,这是传统视频识别技术难以实现的功能。对于拥有大量视频数据的AWS客户,如体育分析、媒体和娱乐公司,Olympus将成为一个不可或缺的工具,帮助他们更高效地处理和分析视频。
目前,虽然市场上已有支持图像和文本分析的语言模型,但视频分析技术仍处于初级阶段。Olympus的推出标志着亚马逊正式进军视频AI市场,挑战谷歌的Gemini模型和专注于视频理解的AI公司Twelve Labs。
亚马逊或在AWS re:Invent大会上公布Olympus更多细节
据《信息报》报道,亚马逊有望在即将举行的AWS re:Invent大会上披露Olympus的更多详细信息。截至发稿时,亚马逊官方尚未对此消息做出回应。
今年4月,亚马逊推出了一款仅支持文本的Titan系列语言模型,但并未在市场上引起广泛关注。面对自研大语言模型(LLM)的挑战,亚马逊开始依赖Anthropic等初创公司为其云服务提供技术支持,特别是在数字助手和AI编程产品方面。
亚马逊制定计划,力争赶超竞争对手
去年,负责Olympus项目的亚马逊高级副总裁Rohit Prasad提出了一项雄心勃勃的计划,目标是超越竞争对手的大语言模型。据知情人士透露,该计划包括训练四个大型模型,其中一个是4000亿参数的文本模型,另一个则是2万亿参数的文本模型。
这些模型的参数规模将与Meta的开源Llama模型(4050亿参数)和OpenAI的GPT-4(超过1.5万亿参数)相媲美。未来,亚马逊计划将这些大型文本模型与视觉模型相结合,进一步提升其多模态能力。
结语:Olympus强化亚马逊在视频AI市场的竞争力
随着Olympus在参数规模和多模态能力上的不断进步,亚马逊将在运动分析和视频场景理解领域吸引更多的高精度视频分析需求客户。同时,视频AI市场的竞争也将更加激烈,谷歌的Gemini和Twelve Labs等领先者将面临来自亚马逊的强大挑战。通过Olympus,亚马逊不仅减少了对Anthropic的依赖,还在大模型领域进一步增强了自主技术能力。
本文来源: 智东西【阅读原文】