26年前的Windows 98古董电脑成功运行大型语言模型:EXO Labs推动人工智能普及,搭载奔腾II处理器和128MB内存,再现BitNet时代辉煌

运行 Windows 98 的奔腾 II 电脑成功运行大型语言模型
近日,一个名为 EXO Labs 的组织在社交媒体上发布了一段视频,展示了在一台拥有 26 年历史的奔腾 II 电脑(配备 128MB 内存)上成功运行大型语言模型(LLM)的过程。这台古老的 350MHz Elonex 奔腾 II 电脑运行了基于 Andrej Karpathy 开发的 Llama2.c 定制纯 C 推理引擎,并生成了一个关于“Sleepy Joe”的故事。令人惊讶的是,整个过程非常流畅,故事生成速度也相当可观。

EXO Labs 的愿景与使命
EXO Labs 由牛津大学的研究人员和工程师组成,致力于“普及人工智能”。该组织认为,少数大型企业控制人工智能会对文化、真相以及社会其他基本方面造成负面影响。因此,EXO Labs 希望通过构建开放的基础设施,使任何人都能在任何地方训练和运行 AI 模型,从而让普通人也能在几乎任何设备上使用人工智能技术。此次在 Windows 98 上运行 LLM 的壮举,正是对这一理念的有力证明。

技术细节与挑战
为了实现这一目标,EXO Labs 从 eBay 购得了一台老式 Windows 98 电脑,并通过以太网端口使用“古老的 FTP”将数据传输到这台老机器上。更大的挑战在于为 Windows 98 编译现代代码,幸运的是他们找到了 Andrej Karpathy 的 llama2.c,这是一个用 700 行纯 C 代码即可在 Llama 2 架构的模型上运行推理的工具。借助老式的 Borland C++ 5.02 IDE 和编译器(以及一些小的调整),EXO Labs 成功将代码编译成可在 Windows 98 上运行的可执行文件。最终代码已公开在 GitHub 上。

性能表现
EXO Labs 的 Alex Cheema 特别感谢了 Andrej Karpathy 的代码,并对其性能赞叹不已。在使用基于 Llama 架构的 26 万参数 LLM 时,在 Windows 98 上实现了“每秒 35.9 个 token”的生成速度。虽然 26 万参数的 LLM 规模较小,但在这台古老的 350MHz 单核电脑上运行速度相当不错。使用 1500 万参数的 LLM 时,生成速度略高于每秒 1 个 token。而使用 Llama 3.2 10 亿参数模型时,速度则非常缓慢,仅为每秒 0.0093 个 token。

BitNet:未来的展望
EXO Labs 的目标远不止于在 Windows 98 机器上运行 LLM。他们在博客文章中进一步阐述了其对未来的展望,并希望通过 BitNet 实现人工智能的普及。BitNet 是一种使用三元权重的 transformer 架构,使得一个 70 亿参数的模型只需要 1.38GB 的存储空间。这种架构是“CPU 优先”的,避免了对昂贵 GPU 的依赖。此外,据称这种类型的模型比全精度模型效率高 50%,并且可以在单个 CPU 上以人类阅读速度(约每秒 5 到 7 个 token)运行一个 1000 亿参数的模型。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...