今年4月,斯坦福大学推出了一款名为STORM的强大工具,旨在利用大型语言模型(LLM)辅助编写类似维基百科的文章。这款开源工具可以在短短三分钟内将用户输入的主题转化为长篇文章或研究论文,并支持PDF格式直接下载。STORM通过检索、多角度提问和模拟专家对话等方式,整理收集到的信息,生成详细的写作大纲,最终形成一份深入且准确的报告。尤其适合需要大量研究和引用的写作任务。用户可以在STORM的官方网站上免费体验这一工具。自推出以来,STORM在GitHub上的Star数量已超过12k。
全新功能Co-STORM的推出
最近,斯坦福大学的研究团队又推出了STORM的升级版——Co-STORM。Co-STORM引入了协作对话机制,通过轮次管理策略,实现流畅的协作式AI学术研究。其主要功能包括:
1. Co-STORM LLM专家:这种智能体会根据外部知识来源生成答案,并根据对话历史提出后续问题。
2. 主持人(Moderator):该智能体会根据检索器发现但未在前几轮直接使用的信息生成发人深省的问题,问题生成也可以基于事实。
3. 人类用户:人类用户可以主动观察对话,通过注入对话来引导讨论焦点,积极参与对话。
Co-STORM的界面与体验
Co-STORM的界面简洁明了,用户可以轻松上手。例如,我们让Co-STORM就“战争与和平”这一主题生成一篇文章,整个过程大约需要三分钟。生成文章后,可以看到主持人提出问题,并得到基本信息提供者、文学教授、纪录片导演等不同AI智能体的回复,然后开启新一轮次的提问。
Co-STORM的相关论文
Co-STORM的相关论文已被EMNLP 2024主会议收录,论文地址为:https://www.arxiv.org/pdf/2408.15232。
运行原理概览
Co-STORM的整体框架模拟用户、观点引导专家和主持人之间的协作对话。运行原理如下:
1. 动态更新的思维导图:帮助用户跟踪和参与对话。
2. 对话历史分析:根据对话历史确定对话意图,生成基于互联网的问题或答案。
3. 主持人引导:利用未使用的信息和思维导图生成新问题,自动引导对话。
4. 引用报告生成:最终生成完整的引用报告作为总结。
评估结果
研究者对Co-STORM进行了自动评估,将其与以下基线进行比较:
1. RAG Chatbot:从搜索引擎检索信息并通过一问一答范式与用户交互。
2. STORM + QA:使用STORM框架为给定主题生成报告以提供基本信息。
评估结果显示,STORM + QA在研究给定主题时考虑了多种观点,与RAG Chatbot相比,提高了报告质量在所有四个评分维度的表现。同样,Co-STORM在深度和新颖性方面表现优异,通过模拟具有多个智能体角色的协作对话,类似于圆桌讨论。在对话质量方面,Co-STORM中的问答轮次在一致性和参与度方面明显优于两个基线。
Co-STORM的关键特性
Co-STORM的一个关键特性是LM智能体可以代表用户提问。在检查提问轮次时,Co-STORM多智能体设计的优势变得更加明显,只需一位专家和一位主持人即可显著提升效果。主持人角色会根据有关主题的未使用信息提出问题,有效地引导对话,帮助用户在未知未知(unknown unknowns)空间中发现更多信息。
本文来源: 机器之心【阅读原文】