标签:Llama 2

LLM 的“母语”是什么?

在探索大语言模型(LLM)的内部运作机制时,EPFL的研究人员对Llama 2家族进行了深入研究,挑战了普遍认为英语是多语言LLM“母语”的观点。他们通过一系列实验,使用特定提示来揭示模型在处理多语言任务时的思考过程。研究发现,尽管Llama 2在最后的输出层倾向于使用中文,但在中间层的“思考”阶段,它似乎使用了一种偏向英语的“内部语言”,并非直接的英语单词,而是与抽象概念相关联的表示。 研究人员通过翻译任务、重复任务和完形填空任务,观察Llama 2的内部状态是否与特定自然语言对应。实验结果显示,模型在大部分前向传递...

欧洲最火AI独角兽发布旗舰大模型!性能直逼GPT-4,微软宣布合作投资

欧洲人工智能公司Mistral AI最近推出了其最新的大语言模型——Mistral Large,不同于以往,这个模型不会开源。该模型支持五种语言,具有32K tokens的上下文窗口,但具体参数规模未公开。在多语言理解任务基准MMLU上,Mistral Large仅次于GPT-4,优于Llama 2。 在价格方面,Mistral Large比GPT-4 Turbo定价更低。同时,微软宣布与Mistral AI建立多年合作关系,并对其进行小额投资,Mistral AI的大模型将在Azure云平台上提供,成为继OpenAI之后第二个在此托管的公司。 Mistral Large拥有四大亮点:多语言支持、大上下文窗口、...