标签:大语言模型

杨笛一团队的DITTO:大语言模型高效对齐新突破,模仿学习与在线比较数据强化技术仅需少量示例

在培养大语言模型(LLM)的过程中,模仿学习的概念可以被巧妙地应用。斯坦福大学的研究团队提出了名为DITTO的新框架,它利用少量的用户示范来引导LLM与特定用户偏好对齐,从而减少了大量比较数据的需求。DITTO通过默认用户更偏爱示范而非原始模型的输出,构建增强数据集,并使用对齐算法如DPO来更新模型。此外,DITTO还可视为一种在线模仿学习算法,能够超越专家表现。实验表明,DITTO在与传统方法如SFT相比时,表现出更高的效率和性能。DITTO的关键在于利用模型自身的输出和专家示范生成比较数据,通过迭代和重放比较数据的...

LLM 的“母语”是什么?

在探索大语言模型(LLM)的内部运作机制时,EPFL的研究人员对Llama 2家族进行了深入研究,挑战了普遍认为英语是多语言LLM“母语”的观点。他们通过一系列实验,使用特定提示来揭示模型在处理多语言任务时的思考过程。研究发现,尽管Llama 2在最后的输出层倾向于使用中文,但在中间层的“思考”阶段,它似乎使用了一种偏向英语的“内部语言”,并非直接的英语单词,而是与抽象概念相关联的表示。 研究人员通过翻译任务、重复任务和完形填空任务,观察Llama 2的内部状态是否与特定自然语言对应。实验结果显示,模型在大部分前向传递...

苹果iOS 18将迎重磅AI升级!不联网也能分析生成文本

苹果正在利用大语言模型(LLM)技术提升iPhone内置应用的用户体验,以适应日益流行的生成式AI趋势。根据内部测试,Safari浏览器、聚焦搜索和Siri等关键应用将迎来显著的AI增强。Safari浏览器将引入AI文字摘要功能,能自动提炼网页和文档的关键信息,帮助用户快速浏览主要内容。此外,名为“Ajax”的AI模型会识别并分析文本中的关键字,以便提供全面的相关信息概览,包括涉及的公司、人物和地点。这一功能的独特之处在于它能在本地生成文本摘要,无需云端处理,确保用户隐私。Siri也将得到类似升级,能够提供更连贯的回答。据报...

半年涨粉1000万,这个AI聊天搭子是怎么火的

近年来,快手平台上出现了一位备受关注的账号——「AI小快」。作为快手官方推出的人工智能互动助手,AI小快凭借其机智、有趣的评论回复,迅速积累了千万级别的粉丝。它不仅能解答各种问题,解读视频内容,还会制造网络热梗,为评论区带来欢乐。AI小快具备“有态度、有能力、有感情、有梗”的特点,成为了一位受欢迎的聊天伙伴,尤其在提供情绪价值和安慰方面表现出色。不仅如此,AI小快还能在科普、文案创意等方面提供帮助,甚至能进行图片生成和编辑。其背后的强大技术包括快手自主研发的大语言模型「快意」和文生图大模型「可...

AI日报:Model3模型重磅发布;阿里云全面支持Llama 3训练推理;Gorq推出iOS应用;批量去水印工具VSR来了

欢迎来到【每日AI探索】!在这个栏目中,我们将每日更新关于人工智能的精华资讯,带你领略AI的无限魅力。今天,我们一起来关注一下近期AI领域的重大进展和创新产品。 1. Blockade Labs推出了令人瞩目的Model3模型,它在生成效果上实现了显著提升,支持高达8192x4096的超高清分辨率,增强了文本提示生成世界的能力,让内容更加清晰细腻。不仅如此,Model3还提供了免费体验机会,并展望了未来可能的功能扩展。 2. 阿里云宣布全面支持Llama3大语言模型的训练和推理,为开发者提供一站式解决方案,包括免费计算资源、快速对比...

最强开源大模型Llama 3来了!4000亿参数模型狙击GPT-4,训练数据量达Llama 2七倍

Meta公司最近发布了其最先进的开源大模型——Llama 3系列,包括8B和70B两个版本,这些模型在多项基准测试中超越了其他开源和闭源模型。Llama 3 8B在MMLU、GPQA等任务上优于谷歌的Gemma 7B和Mistral 7B Instruct,而70B版本则在相同基准上超过了闭源的谷歌Gemini Pro 1.5和Claude 3 Sonnet。Llama 3系列的最大模型规模预计将超过4000亿参数,标志着开源模型的一个重要里程碑。 Llama 3基于超过15T的公开数据进行预训练,数据量是前一代Llama 2的七倍,代码量也增加了四倍。训练效率相较于Llama 2提高了三倍。Meta的AI助手已经...

OpenAI举办推介会,阿尔特曼承诺不用API收集的数据训练未ChatGPT版本

OpenAI,一家领先的AI研发公司,最近举办了一系列的推广活动,其CEO山姆・阿尔特曼在多个重要城市进行了演讲,包括旧金山、纽约和伦敦,向各大行业,如金融、医疗保健和能源的高层管理人员保证,OpenAI将不会利用API收集的客户数据来增强其大语言模型(LLMs)。这些活动旨在向关键决策者展示OpenAI的一系列创新产品,如ChatGPT Enterprise和文本转视频模型。阿尔特曼亲自出席,并与其他高管,如首席运营官Brad Lightcap一起,详细阐述了公司的数据隐私政策,强调通过ChatGPT Enterprise获取的数据不会用于未来模型的改进。 ...

360 智脑 7B 参数大模型开源,支持 50 万字长文本输入

360公司最近在GitHub上公开了其创新项目——360智脑7B,这是一个具有70亿参数的大型模型,旨在推动人工智能技术的发展。该模型基于3.4万亿的Tokens语料库进行训练,涵盖了中文、英文和代码等多种语言类型。360公司强调,360K版本(约50万字)是目前中国国产开源模型中最长的文本长度。 在OpenCompass的一系列主流评估数据集中,360智脑7B表现出色,参与了C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA等任务,展示了其在自然语言理解、知识、数学计算推理、代码生成和逻辑推理等多个...

大模型做时序预测也很强!华人团队激活LLM新能力,超越一众传统模型实现SOTA

近日,一支由华人组成的团队揭示了大语言模型在时序预测领域的惊人潜力,无需额外训练即可超越传统时序模型,实现最新最优技术(SOTA)。该团队来自蒙纳士大学、蚂蚁集团和IBM研究院,他们提出了一种创新的通用框架,即“Time-LLM”,能够激活大语言模型处理跨模态时序数据的能力。 时序预测对于各类复杂系统的决策至关重要,如城市规划、能源管理、交通控制和遥感分析。借助Time-LLM,大模型有望革新时序数据的挖掘方法。该框架的核心技术包括时序输入重编程和提示做前缀,使得大语言模型能够理解和处理时序数据,同时增强了...

拒绝白人与亚洲人同框,Meta图像生成器的“歧视”,被人挖出来了

在当前的人工智能领域,AI系统的偏见问题日益凸显,尤其是在大语言模型和图像生成工具中。以谷歌的Gemini为例,该图像生成器曾因拒绝描绘白人并产生错误的性别、种族图像而引发争议。最近,Meta的AI图像生成器也暴露出类似的问题,无法准确地生成反映不同种族组合的图像,特别是涉及亚洲男性与白人女性或亚洲女性与白人男性的场景。The Verge进行了一系列测试,发现无论怎样调整提示词,Meta的图像生成器仍然倾向于生成亚洲人形象,甚至在某些情况下,南亚女性会被默认穿上纱丽。这一现象揭示了AI在处理多元文化图像时的局限...
123