标签：开源模型

DeepSeek与中国AI：开源模型助力突破芯片限制，重塑AI硬件发展格局

(由多段落组成)： '不可能的已经实现，不可思议的正在发生。' 当一家名不见经传的中国初创公司让美国科技股蒸发万亿美元时，全球AI格局被彻底颠覆。随着DeepSeek等中国AI企业的崛起，科技世界的重心正向东转移。近日，蚂蚁集团宣布使用国产芯片（包括阿里巴巴和华为的芯片）训练AI模型的成本降低了20%，性能却与英伟达H800相当。与此同时，DeepSeek发布了V3-0324更新版本，超越了Gemini 2.0 Pro和Claude 3.7 Sonnet，成为首个在非推理模型类别中领先的开源模型。谷歌紧急推出Gemini 2.5系列，声称在数学和代码基准测试中击...

来源：

iFeng科技【阅读原文】
Tags：AI硬件 DeepSeek 中国AI 开源模型芯片限制

5天前

警惕仿冒DeepSeek网站超两千个，六成IP源自美国，防范钓鱼欺诈风险，保护您的数据安全——开源模型与AI初创公司共同应对挑战

国产AI公司DeepSeek爆红引发仿冒网站泛滥，带来安全隐患随着国产AI公司深度求索（DeepSeek）的大模型DeepSeek-R1的推出，该公司的热度迅速攀升，但也随之带来了大量的仿冒网站和钓鱼网站。根据澎湃新闻记者的报道，截至2月6日，已有超过2000个仿冒DeepSeek的网站出现，并且这一数字仍在快速增加。仿冒域名的全球化分布通过分析这些仿冒DeepSeek的域名注册时间及解析IP地址，发现有60%的仿冒域名解析IP位于美国，其余则主要分布在新加坡、德国、立陶宛、俄罗斯和中国等地。这表明仿冒域名的注册活动具有明显的全球化特...

来源：

iFeng科技【阅读原文】
Tags：AI初创公司 DeepSeek 仿冒网站开源模型钓鱼欺诈

2个月前

华为云携手硅基流动推出基于昇腾云服务的DeepSeek-R1&V3 AI推理服务，赋能开源模型应用创新

华为云DeepSeek-R1开源引发全球关注，昇腾云服务助力推理服务上线据财联社2月1日报道，华为云官方公众号宣布，自DeepSeek-R1开源以来，迅速吸引了全球用户和开发者的广泛关注。为了满足市场需求，硅基流动与华为云团队经过多日的紧密合作，终于联合发布了基于华为云昇腾云服务的DeepSeekR1/V3推理服务。这一新服务的推出，不仅展示了华为云在人工智能领域的技术实力，也进一步推动了AI技术的普及和发展。值得注意的是，DeepSeekR1是一款高性能的开源模型，适用于多种应用场景，包括自然语言处理、图像识别等。此次发布的...

来源：

iFeng科技【阅读原文】
Tags：AI推理服务 DeepSeek-R1 华为云开源模型昇腾云服务

2个月前

历史首次！DeepSeek凭借深度求索和强化学习技术同时登顶中美两区苹果App免费榜：开源模型引领AI竞争，下载量爆增

深度求索（DeepSeek）引领中美AI竞争新潮流近日，快科技报道指出，随着深度求索（DeepSeek）的出现，中美在人工智能（AI）领域的竞争格局发生了显著变化。根据苹果App Store中国区免费榜数据显示，过去一周内，全球瞩目的DeepSeek一举登顶榜首。同时，在美国区苹果App Store免费榜上，DeepSeek也从昨日的第六位迅速攀升至首位，超越了包括ChatGPT、Meta旗下的Threads、Google Gemini和Microsoft Copilot等在内的多个知名生成式AI产品。这是首次有中国应用在中国和美区苹果App Store同时占据首位，其火爆程度可见一斑。1...

来源：

快科技【阅读原文】
Tags：AI竞争 DeepSeek 开源模型强化学习深度求索

2个月前

「DeepSeek-R1接棒OpenAI，基于强化学习的多模态模型开源，引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景，多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域最近，大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时，备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1，在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮，实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

来源：

机器之心【阅读原文】
Tags：DeepSeek-R1 多模态模型开源模型强化学习性能对比

2个月前

DeepSeek新模型代码能力媲美OpenAI，开源模型引发热议，LiveCodeBench实测表现卓越，网友戏称今年编程只需Tab键

DeepSeek新模型表现优异，开源引发热议近日，DeepSeek发布了其最新的大模型DeepSeek-R1-Preview，该模型在代码基准测试LiveCodeBench中表现出色，与OpenAI的o1中档推理设置相当。这一消息引起了广泛的关注和讨论。值得注意的是，这并不是之前已发布的轻量预览版DeepSeek-R1-Lite-Preview，而是使用了更大规模的基础模型，性能更加强劲。 DeepSeek团队不仅在评估过程中帮助LiveCodeBench团队解决了评分系统的一些bug，还展示了DeepSeek-R1-Preview的思考过程。此前，DeepSeek已经宣布R1模型将开源，这意味着一个与OpenAI o...

来源：

量子位【阅读原文】
Tags：DeepSeek LiveCodeBench OpenAI 代码能力开源模型

2个月前

低成本推理模型的突破：Sky-T1-32B-Preview

450 美元的价格乍一听不算便宜，但如果这是训练一个拥有 32B 参数的推理模型的成本呢？加州大学伯克利分校的天空计算实验室（NovaSky）最近发布了 Sky-T1-32B-Preview 模型，其训练成本仅为 450 美元。这一成果表明，高级推理能力的开发正变得越来越经济和高效。开源贡献与技术细节 Sky-T1-32B-Preview 不仅在多个关键基准测试中表现出色，还成为第一个真正开源的推理模型。团队发布了训练数据集、代码和模型权重，任何人都可以轻松复制并改进该模型。这为学术界和开源社区提供了宝贵资源。成本降低的背后不久前，训...

来源：

机器之心【阅读原文】
Tags：合成数据大模型技术开源模型推理模型推理能力

3个月前

最强开源模型Qwen2.5-Coder深夜发布！320亿参数，代码生成与修复能力超越GPT-4，成为编程助手的不二选择

一夜之间，AI编程模型的开源领域迎来了一位新的霸主！Qwen2.5-Coder-32B正式发布，不仅在多个主流基准测试中取得最佳成绩，更是彻底打破了闭源模型的垄断地位。这款强大的模型拥有320亿参数，凭借其卓越的代码生成、修复和推理能力，成功超越了GPT-4o等知名闭源模型。强大的代码生成能力 Qwen2.5-Coder-32B在代码生成方面表现出色，能够在多个流行的基准测试中取得开源领域的最佳成绩。无论是简单的计算器还是复杂的音乐播放器，只需输入自然语言指令，Qwen2.5-Coder-32B就能迅速生成完整的代码。这对于编程新手来说，无...

来源：

量子位【阅读原文】
Tags：Qwen2.5-Coder 代码修复代码生成开源模型编程助手

5个月前

创造历史：阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama，引领大语言模型潮流

近日，基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜，阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言，Qwen2.5-72B-Instruct在大语言模型（LLM）榜单中排名第10，成为唯一进入前十名的中国大模型。此外，Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九，是当前得分最高的开源大模型。与此同时，Qwen系列在全球开源社区中的影响力显著提升，基于Qwen系列的衍生模型数量已突破7.43万个，超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...

来源：

量子位【阅读原文】
Tags：Chatbot Arena Qwen2.5 大语言模型开源模型通义千问

6个月前

对话阿里云CTO周靖人：AI算力时代，通义千问引领大模型降价风潮，探索开源模型新未来

一、技术优化助力全线降价，企业级用户与开发者共享红利在2024云栖大会的主论坛上，阿里云智能集团CTO周靖人宣布了通义大模型的一系列重大更新。其中，通义千问的三款主力模型再次大幅降价，最高降幅达到了85%，百万tokens的价格低至0.3元。周靖人表示，这次降价主要得益于规模效应和技术优化，使得模型推理成本显著降低。阿里云希望通过这种方式将技术红利带给企业级用户和开发者，推动整个产业的发展。周靖人还提到，目前模型的应用仍处于早期阶段，很多新的模型迭代和Agent的使用都需要大量的并发调用。如果模型推理...

来源：

智东西【阅读原文】
Tags：AI算力大模型开源模型通义千问阿里云

6个月前

12 3