type
status
slug
summary
tags
category
password
date
icon
根据O1使用的五个数据集构建OOD数据集,采用DyVal算法,可以按照以下步骤进行:
- 识别原始数据集:确认五个原始数据集的特点和分布,例如它们的领域、标签和样本特征。
- 确定OOD目标:针对每个原始数据集,定义OOD数据集的构建目标。例如,考虑不同的领域、任务或样本类型,以确保OOD样本与原始数据集具有显著差异。
- 数据生成策略:
- 数据增强:使用图像变换、文本重组等技术,生成多样化的样本。
- 引入噪声:在输入数据中添加噪声或变形,模拟真实世界中可能遇到的干扰。
- 转移学习:使用在其他领域或任务上训练的模型,生成新样本。
- 使用DyVal算法:
- 利用DyVal算法的动态评估机制,生成OOD样本。通过调整模型的推理过程,识别在OOD任务中表现不佳的区域。
- 依据生成的样本进行模型的适应性训练,以增强模型的OOD robustness。
- 评估和迭代:
- 对构建的OOD数据集进行性能评估,使用模型在OOD样本上的准确率、召回率等指标。
- 根据评估结果,调整数据生成策略,反复优化直到达到预期的OOD robustness。
OOD数据集(Out-of-Distribution Dataset)是指与模型训练过程中所使用的数据分布不同的数据集。这类数据集用于评估模型在面对未见过的样本时的性能和鲁棒性。具体特点包括:
- 分布差异:OOD数据集的统计特性、样本类型或标签分布与训练数据显著不同。
- 应用场景:OOD数据集通常用于测试模型在真实世界应用中的泛化能力,特别是在不确定性和变化环境下。
- 挑战性:这些数据集可以包含噪声、干扰或极端情况,帮助识别模型的弱点。
使用OOD数据集可以有效评估和提升模型的鲁棒性,确保其在实际应用中具有可靠的性能。
采用的数据集
MMLU
1. 用于解释和评估代理的提示。
promptbench.mpa
ParaphraserAgent, EvaluatorAgent
共同构成一个管道
- 数据格式取决于不同释义规则的提示和预处理函数。(例如,上面加载的 ParaphraserBasicInputProcess)
from promptbench.mpa import ParaphraserBasicInputProcess, ParaphraserQuestionOutputProcess, \ ParaphraserChoicesOutputProcess
- 整个的workflow
Add context to the question
b.
Paraphrase the choices
c.
Add a new choice
d.
基于DYVAL2进行相应的数据合成:
MPA包含两种类型的代理:
ParaphraserAgent
和EvaluatorAgent
。ParaphraserAgent
用于生成给定评估数据的释义,而EvaluatorAgent
用于评估生成的释义是否满足某些条件。prompts
'mmlu': "Here is a question about {task}:\n\n{question}\n\n{choices}\n\nChoose the correct answer and explain why. Please include your answer into <<<>>>. For example, if you choose A, please write <<<A>>>.",
- 作者:fufu酱
- 链接:https://csfufu.life/article/5af65ef4-af8f-4073-b7e6-84aff54c8748
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章