LLM 的“母语”是什么？

在探索大语言模型（LLM）的内部运作机制时，EPFL的研究人员对Llama 2家族进行了深入研究，挑战了普遍认为英语是多语言LLM“母语”的观点。他们通过一系列实验，使用特定提示来揭示模型在处理多语言任务时的思考过程。研究发现，尽管Llama 2在最后的输出层倾向于使用中文，但在中间层的“思考”阶段，它似乎使用了一种偏向英语的“内部语言”，并非直接的英语单词，而是与抽象概念相关联的表示。

研究人员通过翻译任务、重复任务和完形填空任务，观察Llama 2的内部状态是否与特定自然语言对应。实验结果显示，模型在大部分前向传递过程中，更可能使用英语作为内部语言的代理。这表明在语义层面上，英语可能被视为LLM的“母语”，而非仅限于词汇层面。

此外，模型在处理多语言时，嵌入经历了输入空间、概念空间和输出空间的转换。尽管Llama 2在多语言语料库（主要由英语主导）上训练，但非英语训练数据的绝对值依然庞大。实验强调了LLM可能存在语言偏见，可能导致非英语语言在应用中的边缘化。

本文来源：