多样化指令下的LLM可控生成基准测试:CoDI-Eval

CoDI-Eval评估LLMs在多样化指令下的可控生成能力,揭示其局限性与发展空间。

原文标题:【AAAI2024】在多样化指令下对大型语言模型的可控生成进行基准测试

原文作者:数据派THU

冷月清谈:

本文介绍了针对大型语言模型(LLMs)可控生成的新基准测试CoDI-Eval。现有的可控文本生成研究尚未充分评估LLMs对带有显式约束的指令的响应。为了填补这一空白,研究团队构建了一个大型约束属性指令集,注重多样化和覆盖,同时引入了微细化的任务分类。本研究评估了主流LLMs(如ChatGPT和Vicuna)在此基准测试中的表现,揭示了它们在特定约束下的指令响应局限性,尤其在开源与闭源模型之间仍存在明显差距。通过自动化的评估过程,本文为改进LLMs对多样化指令响应的可控性提供了新的思路和方法。

怜星夜思:

1、对于LLMs的指令响应能力,你认为还存在哪些需要改进的方面?
2、CoDI-Eval测试套件对LLMs的评估有何潜在影响?
3、在可控生成领域,大家觉得开源和闭源模型的评估标准应该如何设定?

原文内容

图片
来源:专知
本文为论文介绍,建议阅读5分钟
作为LLM对齐的一个重要方面,制定这样一套专门的指令集以及调查LLMs的相应行为变得非常重要。


尽管大型语言模型(LLMs)已经展现出令人印象深刻的遵循指令的能力,但目前尚不清楚它们能否以及在多大程度上响应可能包含在各种指令中的显式约束。因此,作为LLM对齐的一个重要方面,制定这样一套专门的指令集以及调查LLMs的相应行为变得非常重要。为了填补这一空白,我们提出了一个新的基准测试CoDI-Eval,以系统全面地评估LLMs对带有各种约束的指令的响应。我们构建了一个大型的约束属性指令集作为测试套件,专注于泛化和覆盖。具体来说,我们提倡一个指令多样化过程,以合成多种形式的约束表达,并且还仔细考虑了具有更细粒度子类别的候选任务分类。最后,我们自动化整个评估过程以促进进一步的发展。与现有的可控文本生成研究不同,CoDI-Eval首次将范围扩展到流行的遵循指令范式。我们对代表性的LLMs(例如ChatGPT,Vicuna)在CoDI-Eval上进行了广泛评估,揭示了它们在遵循具有特定约束的指令方面的局限性,以及开源和商业闭源LLMs之间仍然存在显著差距。我们相信这个基准测试将有助于研究如何提高LLMs对指令响应的可控性。我们的数据和代码可在 https://github.com/Xt-cyh/CoDI-Eval 上获取。

这个测试可能会促使行业开发者更加重视LLMs在真实环境中的实际应用,进而改进模型设计。

我认为应当提升模型在处理模糊指令时的表现,像部分自然语言的歧义性处理就需要进一步深挖。

开源模型应更注重社区的参与反馈,而闭源可能需要更多商业化考量,评估标准应体现这种差异。

个人觉得可以考虑引入一些用户反馈机制,用户的实际使用体验将会是最直接的改进意见。

这个基准测试可以成为一个标准化方案,有助于不同模型之间的对比与进步监测,当然这也需看后续的实际应用反馈。

我觉得在理解上下文方面仍然有提升空间。目前很多模型有时候显得比较机械,缺乏人性化的理解。

标准的设定可以考虑兼顾开源和闭源的优势,比如,开源模型的透明度和闭源模型的高性能,找到一个平衡点。

我觉得应该有统一的标准,因为很多用户在选择模型时并不清楚这两者之间的评价差异。

我想这将激励研究者探索更多的控制机制,以提升模型生成的精确度与灵活性,对未来研究极具指导意义。