CoDI-Eval评估LLMs在多样化指令下的可控生成能力,揭示其局限性与发展空间。
原文标题:【AAAI2024】在多样化指令下对大型语言模型的可控生成进行基准测试
原文作者:数据派THU
冷月清谈:
本文介绍了针对大型语言模型(LLMs)可控生成的新基准测试CoDI-Eval。现有的可控文本生成研究尚未充分评估LLMs对带有显式约束的指令的响应。为了填补这一空白,研究团队构建了一个大型约束属性指令集,注重多样化和覆盖,同时引入了微细化的任务分类。本研究评估了主流LLMs(如ChatGPT和Vicuna)在此基准测试中的表现,揭示了它们在特定约束下的指令响应局限性,尤其在开源与闭源模型之间仍存在明显差距。通过自动化的评估过程,本文为改进LLMs对多样化指令响应的可控性提供了新的思路和方法。
怜星夜思:
1、对于LLMs的指令响应能力,你认为还存在哪些需要改进的方面?
2、CoDI-Eval测试套件对LLMs的评估有何潜在影响?
3、在可控生成领域,大家觉得开源和闭源模型的评估标准应该如何设定?
2、CoDI-Eval测试套件对LLMs的评估有何潜在影响?
3、在可控生成领域,大家觉得开源和闭源模型的评估标准应该如何设定?
原文内容

来源:专知本文为论文介绍,建议阅读5分钟作为LLM对齐的一个重要方面,制定这样一套专门的指令集以及调查LLMs的相应行为变得非常重要。
尽管大型语言模型(LLMs)已经展现出令人印象深刻的遵循指令的能力,但目前尚不清楚它们能否以及在多大程度上响应可能包含在各种指令中的显式约束。因此,作为LLM对齐的一个重要方面,制定这样一套专门的指令集以及调查LLMs的相应行为变得非常重要。为了填补这一空白,我们提出了一个新的基准测试CoDI-Eval,以系统全面地评估LLMs对带有各种约束的指令的响应。我们构建了一个大型的约束属性指令集作为测试套件,专注于泛化和覆盖。具体来说,我们提倡一个指令多样化过程,以合成多种形式的约束表达,并且还仔细考虑了具有更细粒度子类别的候选任务分类。最后,我们自动化整个评估过程以促进进一步的发展。与现有的可控文本生成研究不同,CoDI-Eval首次将范围扩展到流行的遵循指令范式。我们对代表性的LLMs(例如ChatGPT,Vicuna)在CoDI-Eval上进行了广泛评估,揭示了它们在遵循具有特定约束的指令方面的局限性,以及开源和商业闭源LLMs之间仍然存在显著差距。我们相信这个基准测试将有助于研究如何提高LLMs对指令响应的可控性。我们的数据和代码可在 https://github.com/Xt-cyh/CoDI-Eval 上获取。