标签:GPT-4o

扎克伯格大招被扒光!开源大模型打脸GPT-4o商业化路径也已隐现

Meta的LLaMA 3.1 405B:一场开源AI的胜利? 科技界再次掀起波澜,Meta计划在当地时间7月23日揭晓其最新力作——LLaMA 3.1 405B,一款拥有4050亿个参数的巨无霸模型,具备多模态处理能力,能够轻松应对图像与文本的生成与理解任务。然而,这款备受期待的模型竟在正式亮相前遭遇意外泄露,信息迅速在开源AI社区Hugging Face上流传开来,引发广泛关注。 泄露的细节揭示,LLaMA 3.1 405B在多项关键AI基准测试中的表现令人瞩目,甚至超越了竞争对手Claude 3.5 Sonnet,成为MMLU-Pro评估中的新王者。虽然在某些特定测试中稍显逊色...

AI实时语音与GPT-4o:RTC技术如何影响OpenAI的情感分析及多模态大模型延迟问题

在人工智能领域,OpenAI的最新模型GPT-4o以其高效能和低延迟引起了关注,尤其是在实时语音互动方面,达到了与人类对话相当的速度。然而,尽管发布会展示了令人惊叹的技术,但在产品落地过程中,诸如GPT-4o的实时音视频功能和视频多模态产品Sora的开放仍面临延迟。这种现象不仅困扰OpenAI,国内的类似项目也面临同样的问题。尽管实时语音被认为是AI商业化的重要路径,但现有的技术如Pi和Call Annie存在高延迟和情感理解不足的问题。新产品EVI通过引入语义空间理论来改进情感表达,但牺牲了响应时间。GPT-4o的多模态技术则显著...

菲尔兹奖得主挑战GPT-4:过河问题解答受挫,LLM能力遭LeCun质疑,Claude 3.5推理表现令人咋舌

菲尔兹奖得主Timothy Gowers最近测试了大模型如GPT-4o和Claude3.5解决经典“狼-山羊-卷心菜”过河问题的能力,结果表明这些大模型在该问题上表现不佳。 Gowers提出了一个新的评估标准——废话比率,即模型给出的错误答案与正确答案的比例。在简单的过河问题上,大模型的废话比率甚至高达5倍。在更复杂的100和1000只鸡过河问题中,尽管GPT-4o在100只鸡问题上答对了,但在1000只鸡问题上表现出严重错误,废话比率达到了125倍。测试显示,即使在被告知无需过河的情况下,模型仍然给出了复杂的解决方案。而Claude3.5在类似问题上也...

DreamBench++引领新纪元:GPT-4o驱动的图像生成评估与个性化图像分析,多模态数据集助力自动化评测

随着个性化图像生成技术的快速发展,一个亟待解决的问题浮出水面:如何统一标准来评判生成图片的质量和人类喜好。为了解决这个问题,清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中国科学院和旷视科技的研究团队共同推出了一项创新基准——DreamBench++。 DreamBench++借助GPT-4o模型,通过多模态输入和精心设计的prompt,使模型能够进行与人类偏好相一致的自动化图像评估。在评估过程中,研究团队采用了7位专业标注员的评分作为参照,对比了7种不同的图像生成方法。实验结果显示,DreamBench++的评估与人类评价高...

人工智能新突破:GPT-4o展现超越专家的道德推理与伦理决策能力,人类监督下的智能进化

近日,一项由北卡罗莱纳大学教堂山分校和艾伦AI研究所联合开展的研究揭示了人工智能在道德推理领域取得的重大突破。OpenAI的最新聊天机器人GPT-4o在测试中表现出超越人类道德专家的水平,其道德建议被广大美国成年人认为更合规、可信且体贴。在501位美国成人的评估中,GPT-3.5-turbo模型的道德解释超过了人类的标准。进一步的研究对比了GPT-4o与知名伦理学者Kwame Anthony Appiah的建议,AI在50个伦理问题上的表现几乎在所有方面都优于人类专家,其建议被认为是更道德、更可靠、更周全且准确。 这一成果引发了对AI在道德和...

OpenAI的GPT-4o:人工智能在道德推理上的突破超越伦理学家的预期,考虑文化差异

最新的科研发现揭示,OpenAI的GPT-4o聊天机器人在道德解释和建议方面展现出超越人类专家的能力。根据The Decoder的报道,北卡罗莱纳大学教堂山分校和艾伦AI研究所的学者进行了两组研究,以评估大语言模型在道德推理上的效能。在第一项研究中,501名美国成年人比较了GPT-3.5-turbo模型与人类的道德解释,结果显示,AI的解释被认为更道德、更可信、更周全。第二项研究则将GPT-4o的建议与《纽约时报》伦理学家Kwame Anthony Appiah的建议进行对比,AI在多数指标上表现更优,仅在识别微妙差异上与人类相当。研究人员提出,AI可能...

Ryan Greenblatt的GPT-4o打破通用人工智能ARC-AGI基准,实现71%新高,证明LLMs学习能力里程碑式突破!

【新智元报道】近日,AI领域传来重大突破,GPT-4o模型在ARC-AGI基准测试中取得了前所未有的成绩,打破了之前无人能及的纪录。ARC-AGI,作为评估通用人工智能的重要标准,由François Chollet设计,被认为很难被轻易超越。然而,GPT-4o在公共测试集上的准确率达到了50%,在训练集的保留子集上更是高达71%,一举成为新的SOTA! 这个基准测试自2020年起在Kaggle平台上举办,当年的冠军团队icecuber在测试集上的成功率仅为21%,证明了ARC-AGI的挑战性。然而,GPT-4o的表现打破了这一局面,标志着通用AI的进步迈出了重要一步。此...

苹果一夜重塑iPhone!GPT-4o加持Siri,AI深入所有APP,库克:开启苹果AI下一章

苹果在最新的WWDC上揭示了其iPhone的AI转型,通过与OpenAI的合作和引入GPT-4o,Siri得到了显著提升,使iPhone迈向AI Phone时代。Apple Intelligence成为苹果设备的核心,提供了语言、图像、行动和个性化的AI功能。iOS和iPadOS在Apple Intelligence的加持下,AI体验大幅提升,包括智能通知排序、写作工具增强、图像生成和编辑、跨APP操作等。此外,Siri的更新使其更加自然、智能,能够理解上下文、执行复杂任务,并支持语音输入和屏幕内容感知。iOS 18引入了更多个性化设置,如深色模式、自定义控制中心和锁定APP功能。iPadOS...

OpenAI 推出为大学开发的 ChatGPT Edu 教育版,对话和数据不用于训练模型

OpenAI发布ChatGPT Edu,助力大学AI教育与应用 随着科技的快速发展,OpenAI在5月30日推出了全新的ChatGPT Edu版本,专门针对高等教育领域,旨在服务学生、教师、研究人员及校园管理者。这个创新平台利用了GPT-4o的强大功能,不仅在文本理解、编码和数学问题解决上表现出色,还能进行数据分析和视觉推理,为校园生活带来智能化解决方案。 ChatGPT Edu提供了企业级的安全保障和管理措施,同时价格适宜,对教育机构而言极具吸引力。通过这款工具,学生可以得到个性化的学习辅导,简历也能得到专业审查;研究人员能够借助它来...

AI化身恋爱军师,大模型分析爱情靠谱吗?

随着AI技术的快速发展,它已经渗透到各个领域,甚至包括恋爱咨询。最近,小红书博主分享了如何利用AI工具Kimi分析情侣的聊天记录,以洞察双方性格和增进感情。Kimi能识别出情侣的个性特征,预测追求过程,甚至协助挑选水果。与此同时,GPT-4o作为全能型AI,不仅能处理多种输入,还能帮助人们分析潜在伴侣的喜好,模拟恋爱策略。然而,AI在提供便利的同时,也引发了关于隐私保护和真实性的问题。AI可能会收集大量个人数据,增加隐私泄露的风险。政策制定者和用户都需要关注AI技术的安全隐患,确保在享受便利的同时保护个人隐...
1234