光与电的结合,可能是未来计算技术的重要方向。近日,国内一家初创企业曦智科技自主研发的光电混合芯片技术成功登上了国际顶级期刊《自然》(Nature)。这项技术的核心成果是一种名为PACE(Photonic Arithmetic Computing Engine)的光子计算处理器。
核心技术解析
PACE采用了一种创新的光电混合架构,通过光执行矩阵向量乘法,实现了超低延迟和高能效的计算性能。根据论文中的数据显示,PACE在解决组合优化问题(例如伊辛问题和最大割/最小割问题)时,计算延迟仅为3纳秒,比传统GPU快了两个数量级。这一突破得益于PACE的高度集成设计,系统集成了超过16000个光子组件,并通过2.5D混合先进封装技术将光子集成电路(PIC)与电子集成电路(EIC)无缝结合。
这种设计不仅解决了大规模光电系统集成的技术难题,还为商业化应用奠定了基础。曦智科技的这一成就,标志着继创始人沈亦晨博士八年前在Nature发表封面论文后,再次登上这一国际顶刊。
高度集成的创新设计
随着人工智能的快速发展,传统电子计算在功耗和速度方面逐渐面临瓶颈。光子计算因其独特的性质(如并行处理能力、低能耗传输等),成为备受关注的替代方案。然而,光子计算的发展也面临着诸多挑战,包括制造工艺不成熟、光学存储限制以及计算精度不足等问题。
曦智科技提出的PACE采用了混合架构,将光子集成电路(PIC)和电子集成电路(EIC)集成在一个系统级封装(SiP)中。PIC负责执行光矩阵向量乘法(oMAC)操作,而EIC则处理控制、迭代逻辑、数据输入输出、存储及钟控等功能。这种架构充分发挥了光子计算在速度和低延迟方面的优势,同时保留了电子计算在逻辑处理和存储上的长处。
具体来说,PIC中设计了1×64光学数据模块和64×64权重模块来执行oMAC操作。光信号通过高性能光栅耦合器从外部激光阵列进入电路,经过调制后在光电探测器阵列中进行转换和合并。EIC基于28-nm商业CMOS技术设计,PIC则基于65-nm硅光子技术构建,单个芯片集成了超过16000个光子组件,实现了高度集成。
实验数据显示,64×64矩阵运算的延迟仅为3纳秒,比传统GPU快500倍。此外,研究团队还将光学矩阵运算应用于组合优化问题,通过“噪声驱动递归算法”,PACE系统能够在求解63节点Max-cut问题时,平均经过537次迭代(耗时2.7μs)即可达到92.7%的收敛率,相比NVIDIA A10 GPU提速295倍。
新一代光电计算卡发布
除了PACE,曦智科技还在3月25日正式推出了新一代光电混合计算卡——曦智天枢。这款计算卡深度融合了光芯片与电芯片的优势,采用先进的3D封装技术,具备高度可编程性。
曦智天枢在光电集成度、光子矩阵规模、计算精度及可编程性等方面均实现了显著提升。其核心处理器由光学处理单元(OPU)和电学专用集成电路(ASIC)组成,通过3D先进封装技术实现协同工作,主频速率达1GHz,输出精度为8bit。光芯片面积提升至600平方毫米,器件数量超过四万个,集成度大幅提高。
此外,曦智天枢的最大支持矩阵规模可达128×128,运算能力和灵活性均得到显著增强。用户可通过API自由配置计算矩阵系数,实现更高效的优化与适配。软件方面,产品搭载了曦智光电混合计算软件栈,支持主流框架如PyTorch和ONNX,用户可通过曦智编译器灵活构建高效的应用模型。
沈亦晨博士表示:“曦智天枢首次实现了光电混合计算在复杂商业化模型中的应用,是曦智科技光电混合算力技术在产品化和商业化进程中的重要突破。”
专家评价
Nature审稿人对曦智科技团队的努力给予了高度肯定,认为他们在光子计算工程化方面取得了重要进展。文章中的所有数据均来自整个PACE计算系统的实测性能,而非小规模演示的推断,这是一项令人瞩目的“壮举”。
