微软近期推出了 Phi-3 系列的大型语言模型,包括 Phi-3Vision、Phi-3Small7B 和 Phi-3Medium14B,这些模型展现出与业界领先水平匹敌的性能。其中, Phi-3Medium14B 的表现甚至超越了某些知名模型,如 Mixtral8x22B 和 GPT3.5。尽管 Phi-3Small7B 规模较小,但在处理大量数据时,它的效能仍然优于 Mistral7B 和 Llama38B,成为资源受限环境的理想选择。Phi-3 系列支持的上下文长度从4K到128K,适应各种长文本处理需求。模型参数分别为 Medium 版本的14B,Small 版本的7.5B,以及 Vision 版本的4.2B。微软使用了4.8T令牌对模型进行训练,训练时间长达42天,使用512个H100GPU,并包含10%的多语言数据,以提高模型在特定领域的精准度。新引入的10万词汇量分词器提升了模型的语言理解和生成能力。此外,Phi-3模型的权重兼容多种格式,为开发者的部署和运行提供了便利。微软的这一系列模型为研究者和开发者开辟了新的道路,预示着自然语言处理领域将有更多创新。
本文来源: 站长之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...