STORM 再进化,推出协作文本工具 Co-STORM:AI 协作学术研究新利器!

斯坦福大学开源学术研究神器 STORM 升级,推出 Co-STORM,实现在线协作写论文,模拟圆桌讨论,并得到不同 AI 专家解答,免费体验:https://storm.genie.stanford.edu/

原文标题:斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

原文作者:机器之心

冷月清谈:

斯坦福大学研发的学术研究神器 STORM 再次进化,推出全新功能 Co-STORM,引入了协作对话机制,实现了流畅的协作式 AI 学术研究。

与 STORM 不同,Co-STORM 拥有以下特点:

* **LLM 专家:**根据外部知识来源生成答案,并根据对话历史提出后续问题。
* **主持人:**根据检索器发现但未在前几轮直接使用的信息生成发人深省的问题。
* **人类用户:**通过观察对话、注入对话或提问来主动引导讨论,深度参与其中。

Co-STORM 使用一种模拟用户、观点引导专家和主持人之间协作对话的框架来运作。它维护动态更新的思维导图,帮助用户跟踪和参与对话。此外,它提示模拟专家根据对话历史生成问题或答案,并提示模拟主持人利用未使用的信息生成新问题,从而自动引导对话。最后,思维导图可用来生成完整的引用报告,作为总结。

评估结果表明,Co-STORM 在报告质量和对话质量方面都优于基线,它可以帮助用户找到与其目标相关的更广泛、更深层次的信息,类似于参与一场圆桌讨论。

更多技术细节和评估结果,请参考原论文:https://www.arxiv.org/pdf/2408.15232

怜星夜思:

1、你觉得 Co-STORM 最吸引人的功能是什么?
2、你认为 Co-STORM 适用于哪些学术研究任务?
3、Co-STORM 在哪些方面需要进一步完善?

原文内容

机器之心报道

作者:杜伟
不仅有主持人,还能得到不同AI专家的解答。

今年 4 月,斯坦福大学推出了一款利用大语言模型(LLM)辅助编写类维基百科文章的神器。它就是开源的 STORM,可以在三分钟左右将你输入的主题转换为长篇文章或者研究论文,并能够以 PDF 格式直接下载。


具体来讲,STORM 在 LLM 的协助下,通过检索、多角度提问和模拟专家对话等方式,在整理收集到的信息基础上生成写作大纲,并最终形成一份详细、深入和准确的内容报告。STORM 尤其擅长需要大量研究和引用的写作任务。更难得的是,用户可以直接在 STORM 的网站免费体验。


此后,STORM 不断推出新的功能和服务,在 GitHub 上的 Star 量已经超过了 12k。



GitHub 地址:https://github.com/stanford-oval/storm


就在最近,该团队又推出全新功能 ——Co-STORM。与 STORM 的区别在于,它引入了协作对话机制,并采用轮次管理策略,实现流畅的协作式 AI 学术研究。功能包括如下:


Co-STORM LLM 专家:这种类型的智能体会根据外部知识来源生成答案并能根据对话历史提出后续问题。


主持人(Moderator):该智能体会根据检索器发现但未在前几轮直接使用的信息生成发人深省的问题。当然,问题生成也可以基于事实。


人类用户:人类用户将主动观察对话以更深入地了解主题,或者通过注入对话来引导讨论焦点,积极参与对话。


Co-STORM 的界面是下面这样的。



体验地址:https://storm.genie.stanford.edu/


我们让 Co-STORM 就战争与和平(war and peace)主题来生成一篇文章,大约需要三分钟。



在生成文章之后,我们可以看到,主持人提出问题,并得到基本信息提供者、文学教授、纪录片导演等不同 AI 智能体的回复,然后开启新一轮次的提问。



此外,Co-STORM 的相关论文已被 EMNLP 2024 主会议收录。



论文地址:https://www.arxiv.org/pdf/2408.15232


运行原理概览


下图为 Co-STORM 框架。整体而言,Co-STORM 模拟用户、观点引导专家和主持人之间的协作对话。


运行原理如下所示:首先维护动态更新的思维导图(3.2),从而帮助用户跟踪和参与对话(3.3)。 


在 3.4,提示模拟专家根据对话历史来确定对话意图,并生成基于互联网的问题或答案。


在 3.5,提示模拟主持人利用未使用的信息和思维导图生成新问题,从而自动引导对话。


最后,思维导图可用来生成完整的引用报告以作为总结。



评估结果


自动评估可以实现可扩展测试,并允许对用户行为进行一致的模拟。


研究者将 Co-STORM 与以下基线进行比较:(1)RAG Chatbot,该基线从搜索引擎检索信息并通过一问一答范式与用户交互;(2)STORM + QA,该基线使用 STORM 框架为给定主题生成报告以提供基本信息。


下表 3 展示了报告质量和对话中问答轮次质量的评估结果。问答轮次和最终报告是人类与 Co-STORM 交互时学习的主要来源。STORM + QA 在研究给定主题时考虑了多种观点,与 RAG Chatbot 相比,确实提高了报告质量所有四个评分维度的表现。


同样,Co-STORM 的表现优于 RAG Chatbot,特别是在深度和新颖性方面,它通过模拟具有多个智能体角色的协作对话,类似于圆桌讨论。就对话质量而言,Co-STORM 中的问答轮次在一致性和参与度方面明显优于两个基线。



Co-STORM 的一个关键特性是 LM 智能体可以代表用户提问。如下图 3 所示,在检查提问轮次时,Co-STORM 多智能体设计的优势变得更加明显,只需要一位专家和一位主持人就可以极大地获益。


重要的是,CoSTORM 中的主持人角色会根据有关主题的未使用信息提出问题。这样的角色代表拥有更多已知未知(known unknowns)的人,有效地引导对话,帮助用户在未知未知(unknown unknowns)空间中发现更多信息。



下表 4 为人工评分结果,图 4 为成对比较结果。可以得出结论,CoSTORM 可以帮助用户找到与其目标相关的更广泛、更深层次的信息。




更多技术细节和评估结果请参考原论文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

请允许我卖个萌,最吸引我的功能是它的名字:Co-STORM,又酷又押韵,让人过目不忘。

还可以用来探索新领域,快速了解一个主题的背景知识和不同视角。

需要大量研究和引用的写作任务,比如写论文、报告或综述等,Co-STORM 都可以胜任。

期待未来能加入更多专家模型,让它像真实的圆桌会议一样包罗万象,汇集多学科的智慧。

甚至可以作为一种教学工具,让学生通过参与式的对话学习和了解复杂的学术概念。

对我来说,最吸引人的是能够免费体验,可以随时随地进行学术研究,非常方便。

目前只支持英文,如果能支持更多语言就更好了。

我认为最吸引人的功能是模拟多智能体对话协作生成研究报告,就像参与一场圆桌讨论一样,既高效又有趣。

生成的报告内容虽然全面,但有时逻辑性不够强,需要进一步优化思维导图的组织结构。