Benchmarking the Inference-time Training Robustness

type

status

slug

summary

category

password

date

icon

根据O1使用的五个数据集构建OOD数据集，采用DyVal算法，可以按照以下步骤进行：

识别原始数据集：确认五个原始数据集的特点和分布，例如它们的领域、标签和样本特征。

确定OOD目标：针对每个原始数据集，定义OOD数据集的构建目标。例如，考虑不同的领域、任务或样本类型，以确保OOD样本与原始数据集具有显著差异。

数据生成策略：

数据增强：使用图像变换、文本重组等技术，生成多样化的样本。

引入噪声：在输入数据中添加噪声或变形，模拟真实世界中可能遇到的干扰。

转移学习：使用在其他领域或任务上训练的模型，生成新样本。

使用DyVal算法：

利用DyVal算法的动态评估机制，生成OOD样本。通过调整模型的推理过程，识别在OOD任务中表现不佳的区域。

依据生成的样本进行模型的适应性训练，以增强模型的OOD robustness。

评估和迭代：

对构建的OOD数据集进行性能评估，使用模型在OOD样本上的准确率、召回率等指标。

根据评估结果，调整数据生成策略，反复优化直到达到预期的OOD robustness。

OOD数据集（Out-of-Distribution Dataset）是指与模型训练过程中所使用的数据分布不同的数据集。这类数据集用于评估模型在面对未见过的样本时的性能和鲁棒性。具体特点包括：

分布差异：OOD数据集的统计特性、样本类型或标签分布与训练数据显著不同。

应用场景：OOD数据集通常用于测试模型在真实世界应用中的泛化能力，特别是在不确定性和变化环境下。

挑战性：这些数据集可以包含噪声、干扰或极端情况，帮助识别模型的弱点。

使用OOD数据集可以有效评估和提升模型的鲁棒性，确保其在实际应用中具有可靠的性能。

采用的数据集

MMLU

cais/mmlu at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

https://huggingface.co/datasets/cais/mmlu/tree/main

1. 用于解释和评估代理的提示。 promptbench.mpa

ParaphraserAgent, EvaluatorAgent 共同构成一个管道

数据格式取决于不同释义规则的提示和预处理函数。（例如，上面加载的 ParaphraserBasicInputProcess）

from promptbench.mpa import ParaphraserBasicInputProcess, ParaphraserQuestionOutputProcess, \    ParaphraserChoicesOutputProcess

整个的workflow

Add context to the question

b. Paraphrase the choices

c. Add a new choice

基于DYVAL2进行相应的数据合成：

MPA包含两种类型的代理：ParaphraserAgent和EvaluatorAgent。ParaphraserAgent用于生成给定评估数据的释义，而EvaluatorAgent用于评估生成的释义是否满足某些条件。

prompts

'mmlu': "Here is a question about {task}:\n\n{question}\n\n{choices}\n\nChoose the correct answer and explain why. Please include your answer into <<<>>>. For example, if you choose A, please write <<<A>>>.",

MATH-SHEPHERD:

aclanthology.org

https://aclanthology.org/2024.acl-long.510.pdfhttps://huggingface.co/datasets/peiyi9979/Math-Shepherd

Generative Verifiers: Reward Modeling as Next-Token Prediction

arxiv.org

https://arxiv.org/pdf/2408.15240

就是把 MATH-SHEPHERD 的 scalar-based prm 和 Generative Verifiers 这种 text-based prm 手撸一遍,在这个基础上改

💡

把AIME数据造出来，使用两种rm

目前提高大语言模型（LLMs）的主流做法就是 Best-of-N 模式，即由 LLM 生成的 N 个候选解决方案由验证器进行排序，并选出最佳方案。

这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分，但它们无法利用预训练 LLMs 的文本生成能力。

DeepMind 团队为了克服这个局限性，尝试使用下一个 token 预测目标来训练验证器，同时进行验证和解决方案生成。

DeepMind 团队这种生成式验证器（GenRM），相比较传统验证器，主要包含以下优点：

无缝集成指令调整

支持思维链推理

通过多数投票利用额外的推理时间计算