标签:大语言模型

探索OLMoE:首个100%开源的混合专家模型,拥有7B参数与1B稀疏激活的高效推理成本

训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型(LM)在各类任务中取得了显著进展,但在训练和推理方面,性能与成本之间的权衡仍然是一个问题。对于很多学者和开发者而言,高性能的语言模型由于高昂的成本而难以触及。一种改善成本-性能的方法是采用稀疏激活混合专家(MoE)。MoE在每一层都有多个专家,每次只激活其中的一部分,从而使得MoE模型比密集模型更高效。因此,许多前沿模型如Gemini-1.5和GPT-4等都采用了MoE。 然而,大多数MoE模型都是闭源的,即便有些模型公开了权重,但对于训练数据...

李沐:依托大语言模型与BosonAI的创业之路——一年融资经历见证人工智能领域的飞速发展

创业初衷与进展 在亚马逊工作期间,心中一直怀揣着创业的梦想。最终,在第七年半之际,决定离开稳定的工作,踏上了创业之路。选择创业时,决定专注于大语言模型(LLM),并成立了BosonAI。公司的名称来源于量子物理学中的玻色子,寓意着团队希望将不同背景的人才汇聚在一起,共同创造价值。 公司命名与文化 在创业之初,一系列项目以“Gluon”命名,代表着将不同的元素紧密相连。最终,新公司命名为“BosonAI”,希望能够传递出“玻色子和费米子组成了世界”的概念,尽管这个名字偶尔会被误解为“Boston”。 融资经历 在筹备...

中金公司预测:未来十年,AI大语言模型引领的通用化技术将大幅提升采矿、医疗等行业生产率,推动就业结构转型

在最新的研究报告中,中金公司揭示了一个关键趋势,即人工智能(AI)技术,特别是大语言模型,正展现出越来越广泛的通用性应用。这一发展预示着AI在执行多元任务方面的能力增强,可能会对全球经济产生深远影响。据预测,到2035年,AI在中国的经济增长贡献可望达到惊人的12.4万亿元,相当于GDP的9.8%增量,年均增长率额外提高约0.8个百分点。 未来十年,AI将显著提高某些行业的生产力。其中,采矿业、医疗卫生、资源加工、信息技术以及租赁和商务服务业有望受益匪浅。然而,批发零售、住宿餐饮及轻工制造业的生产力提升则相...

探讨AGI与Scaling Law:马毅教授解析大语言模型对白盒CRATE架构的逻辑推理新视野——打造全球第二个OpenAI

马毅教授曾评论,顶尖CS毕业生不应局限于大语言模型,而应寻求创新。OpenAI的Sora展示了新毕业生的潜力。马毅认为大语言模型不是通往AGI的终点,而ChatGPT引领了AI 2.0时代,使AI智能通用性显现。AGI成为可实现的目标,Scaling Law成为实现AGI的原理,即增加数据、参数和算力以提升模型性能。然而,这种资源投入可能导致模型性能提升的局限性,如逻辑推理和数理能力的缺乏。马毅团队通过白盒CRATE架构研究,揭示Transformer模型的本质是数据压缩,认为目前技术无法达到人类智能水平。白盒架构能更高效、有针对性地发展模型,...

杨笛一团队的DITTO:大语言模型高效对齐新突破,模仿学习与在线比较数据强化技术仅需少量示例

在培养大语言模型(LLM)的过程中,模仿学习的概念可以被巧妙地应用。斯坦福大学的研究团队提出了名为DITTO的新框架,它利用少量的用户示范来引导LLM与特定用户偏好对齐,从而减少了大量比较数据的需求。DITTO通过默认用户更偏爱示范而非原始模型的输出,构建增强数据集,并使用对齐算法如DPO来更新模型。此外,DITTO还可视为一种在线模仿学习算法,能够超越专家表现。实验表明,DITTO在与传统方法如SFT相比时,表现出更高的效率和性能。DITTO的关键在于利用模型自身的输出和专家示范生成比较数据,通过迭代和重放比较数据的...

LLM 的“母语”是什么?

在探索大语言模型(LLM)的内部运作机制时,EPFL的研究人员对Llama 2家族进行了深入研究,挑战了普遍认为英语是多语言LLM“母语”的观点。他们通过一系列实验,使用特定提示来揭示模型在处理多语言任务时的思考过程。研究发现,尽管Llama 2在最后的输出层倾向于使用中文,但在中间层的“思考”阶段,它似乎使用了一种偏向英语的“内部语言”,并非直接的英语单词,而是与抽象概念相关联的表示。 研究人员通过翻译任务、重复任务和完形填空任务,观察Llama 2的内部状态是否与特定自然语言对应。实验结果显示,模型在大部分前向传递...

苹果iOS 18将迎重磅AI升级!不联网也能分析生成文本

苹果正在利用大语言模型(LLM)技术提升iPhone内置应用的用户体验,以适应日益流行的生成式AI趋势。根据内部测试,Safari浏览器、聚焦搜索和Siri等关键应用将迎来显著的AI增强。Safari浏览器将引入AI文字摘要功能,能自动提炼网页和文档的关键信息,帮助用户快速浏览主要内容。此外,名为“Ajax”的AI模型会识别并分析文本中的关键字,以便提供全面的相关信息概览,包括涉及的公司、人物和地点。这一功能的独特之处在于它能在本地生成文本摘要,无需云端处理,确保用户隐私。Siri也将得到类似升级,能够提供更连贯的回答。据报...

半年涨粉1000万,这个AI聊天搭子是怎么火的

近年来,快手平台上出现了一位备受关注的账号——「AI小快」。作为快手官方推出的人工智能互动助手,AI小快凭借其机智、有趣的评论回复,迅速积累了千万级别的粉丝。它不仅能解答各种问题,解读视频内容,还会制造网络热梗,为评论区带来欢乐。AI小快具备“有态度、有能力、有感情、有梗”的特点,成为了一位受欢迎的聊天伙伴,尤其在提供情绪价值和安慰方面表现出色。不仅如此,AI小快还能在科普、文案创意等方面提供帮助,甚至能进行图片生成和编辑。其背后的强大技术包括快手自主研发的大语言模型「快意」和文生图大模型「可...

AI日报:Model3模型重磅发布;阿里云全面支持Llama 3训练推理;Gorq推出iOS应用;批量去水印工具VSR来了

欢迎来到【每日AI探索】!在这个栏目中,我们将每日更新关于人工智能的精华资讯,带你领略AI的无限魅力。今天,我们一起来关注一下近期AI领域的重大进展和创新产品。 1. Blockade Labs推出了令人瞩目的Model3模型,它在生成效果上实现了显著提升,支持高达8192x4096的超高清分辨率,增强了文本提示生成世界的能力,让内容更加清晰细腻。不仅如此,Model3还提供了免费体验机会,并展望了未来可能的功能扩展。 2. 阿里云宣布全面支持Llama3大语言模型的训练和推理,为开发者提供一站式解决方案,包括免费计算资源、快速对比...

最强开源大模型Llama 3来了!4000亿参数模型狙击GPT-4,训练数据量达Llama 2七倍

Meta公司最近发布了其最先进的开源大模型——Llama 3系列,包括8B和70B两个版本,这些模型在多项基准测试中超越了其他开源和闭源模型。Llama 3 8B在MMLU、GPQA等任务上优于谷歌的Gemma 7B和Mistral 7B Instruct,而70B版本则在相同基准上超过了闭源的谷歌Gemini Pro 1.5和Claude 3 Sonnet。Llama 3系列的最大模型规模预计将超过4000亿参数,标志着开源模型的一个重要里程碑。 Llama 3基于超过15T的公开数据进行预训练,数据量是前一代Llama 2的七倍,代码量也增加了四倍。训练效率相较于Llama 2提高了三倍。Meta的AI助手已经...
123