试卷评估分析表

在大模型备案的众多材料中，《评估测试题集》是检验大模型是否符合安全标准与性能要求的关键依据。

一、测试题集的构成

主要有生成内容测试题库、拒答测试题库和非拒答测试题库这三大块。这三大题库从不同维度对大模型进行考察，是全面评估大模型性能与安全性的基础。

生成内容测试题库题量大，要求总题量不少于2000道，覆盖安全风险种类至少31种，其中A1,A2类风险测试题不少于50道，要求定期更新，以此检验模型生成内容的安全性与合规性。

拒答测试题库主要针对特定敏感风险出题，题量要求不少于500道，用于检测模型对敏感有害信息的识别与拒答能力，保障使用安全。

非拒答测试题库覆盖领域广泛，，题量要求不少于500道，涵盖我国制度、信仰、文化、历史，还有性别、年龄、职业这些常见领域，检验模型对正常问题回答的准确性与合理性，避免误拒答。

在评估测试题集这一块，不同的地区对于测试题的要求不同。

以广东省为例：广东省的评估测试题集要求有六个子表并且总题数不少于6000题，除开生成内容测试题库（2000道），拒答题库和非拒答题库（各500道），还要求涵盖其他内容的三个子表（各1000道）

二、如何生成测试题

数据收集与整理：收集者需对各类风险有深刻理解，还需从不同来源获取数据，收集来的数据再进行精细整理，去粗取精、去伪存真，保证数据的准确性和有效性
风险覆盖全面性：出题者需时刻关注社会动态和技术发展前沿，及时将新风险纳入测试题集。同时，在覆盖现有风险时，要考虑到各种复杂的变体和组合情况，防止出现漏洞。
平衡题目多样性与针对性：出题者需具备深厚的专业知识和丰富的实践经验，既懂大模型的技术原理，又了解各类安全风险的特征和应对策略。否则，可能出现题目过于笼统无法有效检测，或者过于局限无法全面评估的问题。

三、测试题集质量差产生的影响

安全风险管控失效：评估测试题集质量差，难以全面覆盖安全风险，导致大模型无法察觉新型或隐蔽安全隐患，流出有害信息，引发社会舆论混乱，破坏网络交流环境，威胁网络空间稳定。
法律合规风险频发：评估测试题集不严谨，未精准覆盖法律要点，大模型易在数据使用、内容生成方面违反法规，企业面临监管处罚，打击经营发展。
用户体验严重受损：评估测试题集不佳，影响模型回答准确性和可靠性，正常问题回答错误，敏感问题回应不当，导致用户信任度下降、大量流失，企业失去市场竞争力。