type
status
slug
summary
tags
category
password
date
icon
根据O1使用的五个数据集构建OOD数据集,采用DyVal算法,可以按照以下步骤进行:
  1. 识别原始数据集:确认五个原始数据集的特点和分布,例如它们的领域、标签和样本特征。
  1. 确定OOD目标:针对每个原始数据集,定义OOD数据集的构建目标。例如,考虑不同的领域、任务或样本类型,以确保OOD样本与原始数据集具有显著差异。
  1. 数据生成策略
      • 数据增强:使用图像变换、文本重组等技术,生成多样化的样本。
      • 引入噪声:在输入数据中添加噪声或变形,模拟真实世界中可能遇到的干扰。
      • 转移学习:使用在其他领域或任务上训练的模型,生成新样本。
  1. 使用DyVal算法
      • 利用DyVal算法的动态评估机制,生成OOD样本。通过调整模型的推理过程,识别在OOD任务中表现不佳的区域。
      • 依据生成的样本进行模型的适应性训练,以增强模型的OOD robustness。
  1. 评估和迭代
      • 对构建的OOD数据集进行性能评估,使用模型在OOD样本上的准确率、召回率等指标。
      • 根据评估结果,调整数据生成策略,反复优化直到达到预期的OOD robustness。
OOD数据集(Out-of-Distribution Dataset)是指与模型训练过程中所使用的数据分布不同的数据集。这类数据集用于评估模型在面对未见过的样本时的性能和鲁棒性。具体特点包括:
  1. 分布差异:OOD数据集的统计特性、样本类型或标签分布与训练数据显著不同。
  1. 应用场景:OOD数据集通常用于测试模型在真实世界应用中的泛化能力,特别是在不确定性和变化环境下。
  1. 挑战性:这些数据集可以包含噪声、干扰或极端情况,帮助识别模型的弱点。
使用OOD数据集可以有效评估和提升模型的鲁棒性,确保其在实际应用中具有可靠的性能。
 
采用的数据集
MMLU
1. 用于解释和评估代理的提示。 promptbench.mpa
  1. ParaphraserAgent, EvaluatorAgent 共同构成一个管道
  1. 数据格式取决于不同释义规则的提示和预处理函数。(例如,上面加载的 ParaphraserBasicInputProcess)
    1. from promptbench.mpa import ParaphraserBasicInputProcess, ParaphraserQuestionOutputProcess, \ ParaphraserChoicesOutputProcess
  1. 整个的workflow
    1. Add context to the question
    2. b. Paraphrase the choices
      c. Add a new choice
      d.
基于DYVAL2进行相应的数据合成:
MPA包含两种类型的代理:ParaphraserAgentEvaluatorAgentParaphraserAgent用于生成给定评估数据的释义,而EvaluatorAgent用于评估生成的释义是否满足某些条件。
 
prompts
'mmlu': "Here is a question about {task}:\n\n{question}\n\n{choices}\n\nChoose the correct answer and explain why. Please include your answer into <<<>>>. For example, if you choose A, please write <<<A>>>.",
 
MATH-SHEPHERD:
Generative Verifiers: Reward Modeling as Next-Token Prediction
就是把 MATH-SHEPHERD 的 scalar-based prm 和 Generative Verifiers 这种 text-based prm 手撸一遍,在这个基础上改
💡
把AIME数据造出来,使用两种rm
目前提高大语言模型(LLMs)的主流做法就是 Best-of-N 模式,即由 LLM 生成的 N 个候选解决方案由验证器进行排序,并选出最佳方案。
这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分,但它们无法利用预训练 LLMs 的文本生成能力。
DeepMind 团队为了克服这个局限性,尝试使用下一个 token 预测目标来训练验证器,同时进行验证和解决方案生成。
notion image
DeepMind 团队这种生成式验证器(GenRM),相比较传统验证器,主要包含以下优点:
  • 无缝集成指令调整
  • 支持思维链推理
  • 通过多数投票利用额外的推理时间计算
 
组会分享计算机体系结构
Loading...
fufu酱
fufu酱
一个爱折腾的大学生
公告
👋
欢迎 欢迎来到fufu酱的blog! 💞️我是22级浙江大学竺可桢学院计算机科学与技术专业的学生 一个爱折腾的大学生 🌱我会在这个网站上更新我的笔记和工具分享 🌈目前all in MLLM 📫你可以用下面的方式联系到我
🍀
今後ともよろしくお願いします