标签:开源模型
DeepSeek与中国AI:开源模型助力突破芯片限制,重塑AI硬件发展格局
(由多段落组成): '不可能的已经实现,不可思议的正在发生。' 当一家名不见经传的中国初创公司让美国科技股蒸发万亿美元时,全球AI格局被彻底颠覆。随着DeepSeek等中国AI企业的崛起,科技世界的重心正向东转移。近日,蚂蚁集团宣布使用国产芯片(包括阿里巴巴和华为的芯片)训练AI模型的成本降低了20%,性能却与英伟达H800相当。与此同时,DeepSeek发布了V3-0324更新版本,超越了Gemini 2.0 Pro和Claude 3.7 Sonnet,成为首个在非推理模型类别中领先的开源模型。谷歌紧急推出Gemini 2.5系列,声称在数学和代码基准测试中击...
警惕仿冒DeepSeek网站超两千个,六成IP源自美国,防范钓鱼欺诈风险,保护您的数据安全——开源模型与AI初创公司共同应对挑战
国产AI公司DeepSeek爆红引发仿冒网站泛滥,带来安全隐患 随着国产AI公司深度求索(DeepSeek)的大模型DeepSeek-R1的推出,该公司的热度迅速攀升,但也随之带来了大量的仿冒网站和钓鱼网站。根据澎湃新闻记者的报道,截至2月6日,已有超过2000个仿冒DeepSeek的网站出现,并且这一数字仍在快速增加。 仿冒域名的全球化分布 通过分析这些仿冒DeepSeek的域名注册时间及解析IP地址,发现有60%的仿冒域名解析IP位于美国,其余则主要分布在新加坡、德国、立陶宛、俄罗斯和中国等地。这表明仿冒域名的注册活动具有明显的全球化特...
华为云携手硅基流动推出基于昇腾云服务的DeepSeek-R1&V3 AI推理服务,赋能开源模型应用创新
华为云DeepSeek-R1开源引发全球关注,昇腾云服务助力推理服务上线 据财联社2月1日报道,华为云官方公众号宣布,自DeepSeek-R1开源以来,迅速吸引了全球用户和开发者的广泛关注。为了满足市场需求,硅基流动与华为云团队经过多日的紧密合作,终于联合发布了基于华为云昇腾云服务的DeepSeekR1/V3推理服务。这一新服务的推出,不仅展示了华为云在人工智能领域的技术实力,也进一步推动了AI技术的普及和发展。 值得注意的是,DeepSeekR1是一款高性能的开源模型,适用于多种应用场景,包括自然语言处理、图像识别等。此次发布的...
历史首次!DeepSeek凭借深度求索和强化学习技术同时登顶中美两区苹果App免费榜:开源模型引领AI竞争,下载量爆增
深度求索(DeepSeek)引领中美AI竞争新潮流 近日,快科技报道指出,随着深度求索(DeepSeek)的出现,中美在人工智能(AI)领域的竞争格局发生了显著变化。根据苹果App Store中国区免费榜数据显示,过去一周内,全球瞩目的DeepSeek一举登顶榜首。同时,在美国区苹果App Store免费榜上,DeepSeek也从昨日的第六位迅速攀升至首位,超越了包括ChatGPT、Meta旗下的Threads、Google Gemini和Microsoft Copilot等在内的多个知名生成式AI产品。 这是首次有中国应用在中国和美区苹果App Store同时占据首位,其火爆程度可见一斑。1...
「DeepSeek-R1接棒OpenAI,基于强化学习的多模态模型开源,引发AI圈性能对比热潮」
国内创业公司实现 OpenAI 愿景,多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域 最近,大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时,备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1,在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。 去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮,实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...
DeepSeek新模型代码能力媲美OpenAI,开源模型引发热议,LiveCodeBench实测表现卓越,网友戏称今年编程只需Tab键
DeepSeek新模型表现优异,开源引发热议 近日,DeepSeek发布了其最新的大模型DeepSeek-R1-Preview,该模型在代码基准测试LiveCodeBench中表现出色,与OpenAI的o1中档推理设置相当。这一消息引起了广泛的关注和讨论。值得注意的是,这并不是之前已发布的轻量预览版DeepSeek-R1-Lite-Preview,而是使用了更大规模的基础模型,性能更加强劲。 DeepSeek团队不仅在评估过程中帮助LiveCodeBench团队解决了评分系统的一些bug,还展示了DeepSeek-R1-Preview的思考过程。此前,DeepSeek已经宣布R1模型将开源,这意味着一个与OpenAI o...
低成本推理模型的突破:Sky-T1-32B-Preview
450 美元的价格乍一听不算便宜,但如果这是训练一个拥有 32B 参数的推理模型的成本呢?加州大学伯克利分校的天空计算实验室(NovaSky)最近发布了 Sky-T1-32B-Preview 模型,其训练成本仅为 450 美元。这一成果表明,高级推理能力的开发正变得越来越经济和高效。 开源贡献与技术细节 Sky-T1-32B-Preview 不仅在多个关键基准测试中表现出色,还成为第一个真正开源的推理模型。团队发布了训练数据集、代码和模型权重,任何人都可以轻松复制并改进该模型。这为学术界和开源社区提供了宝贵资源。 成本降低的背后 不久前,训...
最强开源模型Qwen2.5-Coder深夜发布!320亿参数,代码生成与修复能力超越GPT-4,成为编程助手的不二选择
一夜之间,AI编程模型的开源领域迎来了一位新的霸主!Qwen2.5-Coder-32B正式发布,不仅在多个主流基准测试中取得最佳成绩,更是彻底打破了闭源模型的垄断地位。这款强大的模型拥有320亿参数,凭借其卓越的代码生成、修复和推理能力,成功超越了GPT-4o等知名闭源模型。 强大的代码生成能力 Qwen2.5-Coder-32B在代码生成方面表现出色,能够在多个流行的基准测试中取得开源领域的最佳成绩。无论是简单的计算器还是复杂的音乐播放器,只需输入自然语言指令,Qwen2.5-Coder-32B就能迅速生成完整的代码。这对于编程新手来说,无...
创造历史:阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama,引领大语言模型潮流
近日,基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜,阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言,Qwen2.5-72B-Instruct在大语言模型(LLM)榜单中排名第10,成为唯一进入前十名的中国大模型。此外,Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九,是当前得分最高的开源大模型。 与此同时,Qwen系列在全球开源社区中的影响力显著提升,基于Qwen系列的衍生模型数量已突破7.43万个,超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...
对话阿里云CTO周靖人:AI算力时代,通义千问引领大模型降价风潮,探索开源模型新未来
一、技术优化助力全线降价,企业级用户与开发者共享红利 在2024云栖大会的主论坛上,阿里云智能集团CTO周靖人宣布了通义大模型的一系列重大更新。其中,通义千问的三款主力模型再次大幅降价,最高降幅达到了85%,百万tokens的价格低至0.3元。周靖人表示,这次降价主要得益于规模效应和技术优化,使得模型推理成本显著降低。阿里云希望通过这种方式将技术红利带给企业级用户和开发者,推动整个产业的发展。 周靖人还提到,目前模型的应用仍处于早期阶段,很多新的模型迭代和Agent的使用都需要大量的并发调用。如果模型推理...