如何测评大语言模型
大语言模型的评测方法是一个热门的研究话题,目前还没有一个统一的标准。不同的评测方法可能侧重于不同的方面,例如语言模型的生成能力、理解能力、泛化能力、对抗能力等。
一些常见的评测方法有:
- 困惑度(Perplexity):困惑度是一种衡量语言模型预测下一个词的准确性的指标,它反映了语言模型对文本的复杂度的估计。困惑度越低,说明语言模型越能够准确地预测下一个词,越能够流畅地生成文本。困惑度的计算公式是
$$PPL(W)= \exp \Big(− \frac{1}{N} \sum_{i=1}^{N} \log p(w_i|w_{<i}) \Big)$$
其中 W 是一个文本序列,N 是序列的长度,p(wi | w<i) 是语言模型给出的第 i 个词的条件概率。 - 自动评价指标(Automatic Metrics):自动评价指标是一种利用已有的参考文本来评价语言模型生成文本的质量的方法,它主要考察生成文本和参考文本之间的相似度。常用的自动评价指标有 BLEU、ROUGE、METEOR、BERTScore 等。这些指标通常基于词汇、语法、语义等层面来计算生成文本和参考文本之间的匹配程度,但是它们也存在一些局限性,例如忽略了生成文本的流畅性、逻辑性、创造性等方面。
- 人工评价指标(Human Metrics):人工评价指标是一种通过人类评估员来评价语言模型生成文本的质量的方法,它主要考察生成文本是否符合人类的期望和偏好。人工评价指标通常涉及多个维度,例如 流畅性(Fluency)、一致性(Consistency)、相关性(Relevance)、多样性(Diversity)、正确性(Correctness) 等。人工评价指标可以更好地反映生成文本的真实水平,但是它们也存在一些问题,例如成本高、效率低、主观性强等。
相关的论文如下:
CodeXGLUE: A Benchmark Dataset and Open Challenge for Code Intelligence
[Storyline: A Benchmark Dataset for Story Understanding and Generation]
KILT: a Benchmark for Knowledge Intensive Language Tasks
思考问题:
- 以上论文均基于特定数据集,特定场景,给出的特定的测试结果(Metrics),相对的人类用户使用时的感受还有较大的差距。
- 人工测评的话,成本高、效率低、主观性强。特定用户群很可能产生不同的测评结果。