Data augmentation in natural language processing: a novel text generation approach for long and short text classifiers,b,b

Data augmentation in natural language processing: a novel text generation approach for long and short text classifiers

International Journal of Machine Learning and Cybernetics - In many cases of machine learning, research suggests that the development of training data might have a higher relevance than the choice...

https://link.springer.com/article/10.1007/s13042-022-01553-3

Data augmentation in natural language processing: a novel text generation approach for long and short text classifiers

s13042-022-01553-3.pdf

1257.8KB

框架：

本文的结构如下:在介绍了数据增强、自然语言处理和文本生成方法的相关工作(第2节)之后，本文介绍了一种新的文本生成数据增强算法的概念和实现(第3节)。此外，在讨论未来研究的意义、局限性和潜力(第5节)之前，它介绍了三轮评估的方法和发现(第4节)。

摘要：

中文翻译：

在许多机器学习案例中，研究表明训练数据的开发可能比分类器的选择和建模本身更为重要。因此，已经开发出数据增强方法，通过人工创建的训练数据来改善分类器。在自然语言处理领域，面临着建立文本转换的通用规则的挑战，这些规则能提供新的语言模式。在本文中，我们提出并评估了一种文本生成方法，适用于提高长文本和短文本的分类器性能。在评估短文本和长文本任务时，我们的文本生成方法的增强效果非常显著。特别是在小数据分析方面，在构建的低数据环境中，与无增强基线和另一种数据增强技术相比，我们实现了高达15.53%和3.56%的累积准确度提升。由于当前这些构建环境的轨迹并不普遍适用，我们还展示了在几个真实世界的低数据任务中的重大改进（最高+4.84 F1分数）。由于我们从多个角度评估了该方法（共11个数据集），我们还观察到该方法可能不适用的情况。我们讨论了我们的方法在不同类型数据集上成功应用的可能性和模式。

😋

训练数据的开发比分类器的选择和建模更重要，因此我们可以训练数据来改善分类器。

引入：

中文翻译

深度学习由于计算能力的提高与广泛问题训练数据的更高可获得性而引起了相当大的关注[55]。在某些学习任务中,特别是小数据集任务中,训练数据的开发可能比分类器的选择和建模更为重要[4]。为改进分类器,数据增强方法被设计出来以通过特定变换来人工创建训练数据[56]。当前的数据增强研究聚焦于深度学习算法,这是许多分类任务的最新技术,因为如果没有提供足够的数据,它们仍然经常对给定的问题有很强的方差。训练数据的人工创建充当了一种正则化,因此更简单的解决方案被优先考虑[14,63]。此外,数据集的不平衡可以被解决[40,64],通过使分类器抵抗输入序列的熟练变化带来的欺骗,可以增加其安全性[35]。数据增强还可以帮助缓解“大数据墙”问题,这与小公司、研究小组和组织通常无法像大公司那样获取相同规模的数据的事实有关[10]。

😋

深度学习由于计算能力的提高，广泛问题训练数据的更高可获得性。在小数据集任务中，训练数据实现数据加强十分重要。当前的数据增强聚焦于深度学习，加强数据可以解决不平衡问题，增加数据的安全性，并且有助于缓解“大数据墙”问题

中文翻译

与深度学习无关,人工数据创建的研究可以使自然语言处理(NLP)应用程序在训练数据稀缺或标注代价高昂的多个领域中受益。例如,为提高紧急管理人员的情境意识,危机信息学的一部分是处理灾难和紧急情况期间消息和图片的快速识别和后续分类[1,21]。由于财力和人力资源的短缺,紧急服务部门在处理复杂的识别任务上花费了宝贵的时间,这最终可能造成生命损失[17,43]。这种稀缺性问题也适用于中小企业在需要大量标注数据进行品牌分析或新闻分类等商业任务时[53]。在NLP中,建立文本数据转换的通用规则具有难度,这些转换可以自动完成,并且仍能保持标注质量,这在情感分析等领域尤为敏感[33]。文献[32]表明,NLP中当前的预训练或迁移学习方法已经覆盖了数据增强的目标。他们认为仅扰乱输入数据而不提供新的语言模式的增强方法无法提高预训练模型的分类质量。

因此,我们提出了一种复杂的基于生成的方法,它通过结合新的语言模式(即高语法多样性)来克服这些问题,这些模式被证明与预训练模型合用时有用。这种方法不仅仅创建非常相似的实例,而是非常新颖的实例。我们的方法使用两种子方法,其中一种是通过在生成过程中结合实例的部分(例如第一个词或标题)来实现上下文条件化的,因此适用于长文本,而另一种是上下文无关的,适用于短文本。虽然长文本和短文本之间没有明确的区分,但我们以280个字符的限制(即Twitter消息的长度)为指导,在此长度下,大多数标准NLP数据集会被归类为小数据集。因此,我们寻求回答以下三个研究问题:我们如何能利用保持标签质量的同时实现数据高新颖性的文本生成数据增强方法来改进预训练机器学习分类器(RQ1)? 在使用文本生成作为数据增强方法的分类问题中,结合长文本实例的上下文在何种程度上有益(RQ1.1)? 在使用文本生成增强短文本时,如何可能实现分类任务的质量提升(RQ1.2)?

😋

中小企业在需要大量标注数据进行品牌分析进行商业任务，数据增强尤其关键结合新的语言模式来克服这些问题。

数据加强的基础

中文翻译数据增强是一种机器学习技术，它通过标签保留变换[56]人为地扩大训练数据的数量。数据增强的第一个变化可以通过[30]在众所周知的LeNet中识别出来。使用训练图片的随机扭曲，mist数据集被放大了9倍，因此更好地检测手写数字变得可行。数据增强的一个相关术语是标签保存(label preservation)，它描述了保存类信息[10]的训练数据转换。这意味着这种类型的转换将给定类的文本修改为与该类相关的其他文本。在数据增强研究中，这是高度相关的，因为缺乏它将导致生成错误分类的数据。在大多数情况下，句子中的实体替换足以在情感分析中保存标签。然而，随机添加的单词可能会导致情绪的变化。许多研究者放宽了标签保存期限。然后，只要同时调整标签，打破保存的转换就是合法的。此外，可能存在高概率(但不确定)保留正确类的转换。在这种理解中，[48]将转换后分配正确标签的概率指定为数据增强方法的安全性。例如，这种不确定性如果已知，可以直接集成到标签中。如果未知，像标签平滑这样的方法可以模拟一般的不确定性。

在NLP中，数据增强被认为是一项困难的任务，因为保留标签的文本转换很难定义[24,59]。因此，到目前为止，研究中已经尝试了许多方法。其中包括交换[59]、删除[16,38]、诱导拼写错误[6,10]、释义[28]、同义词替换[25,61,66]、紧密嵌入[2,58]和语言模型在单词层面预测的单词[11,18,24]等方法。在更广泛的层面上，可以使用改变依赖树[45,62]、执行往返转换[27,47]或插入输入实例[9,65]的方法。进一步的研究处理了用于数据增强的文本生成方法。[44]和[54]使用循环神经网络和生成对抗网络进行短文本增强，而[38]的样本来自无长度限制的变分自编码器。此外，[57]和[3]使用GPT-2模型进行文本生成。关于数据增强技术的更详细的分析、分类和列表可以在[5]的数据增强调查中找到。

然而，[32]假设文本数据增强只有在生成的数据包含与任务相关且尚未在预训练中看到的新语言模式时才有帮助，这挑战了该领域的许多研究方向。

论文的相关技术：

微调语言模型:使用类数据微调GPT-2等预训练语言模型,使其适应目标任务的数据分布和语言风格。这样可以增强模型生成文本的群体特征和一致性。

增加生成前缀:为每个训练样本添加特殊的“开始生成”标记作为前缀,以指示模型为该样本生成相关文本。对长文本还可用样本标题或开头词组作为前缀引导生成。这进一步增强了生成结果的相关性。

过滤不相关样本:使用BERT等模型获取生成文本和原训练样本的文档向量表示,计算向量间距离判断生成样本是否语义一致,过滤不一致样本。这一步强化了标签安全性,避免引入错误样本。

以上三个设计均可增强生成文本的质量和标签一致性。尤其前缀引导,可产生与样本高度相关的新文本,过滤机制也可有效识别偏离原类的样本。这三者共同配合,使复杂的大模型也可安全地应用于文本数据增强中。

这篇论文针对长文本分类任务,提出了一种与文本上下文相关的生成方法,具体运用如下:

在微调语言模型时,为每个长文本训练样本添加特殊的“开始生成”的label作为前缀和后缀,进行模型fine-tuning。

在生成新样本时,以该训练样本的标题或开头几个词作为 prefix,接在“开始生成”标记后,让语言模型根据这一上下文生成新的长文本。

生成的长文本明确与原样本的标题或开头相关,模型可根据这一上下文引导生成语义和语法结构更加多样、连贯的新样本。

重复生成多个样本,并通过向量距离比较过滤不相关样本。

这种方法生成的长文本样本既保持与原样本的语义关联,又具有语法和词汇的多样性。实验结果显示,这种针对长文本的上下文相关生成方法,可明显提升多个长文本分类任务的性能,尤其在小样本场景下效果更佳。

相比短文本,长文本生成更难,但该方法提供了有效实现,为长文本数据增强提供了新思路。

😋

首先我们可以微调语言模型，把prompt指令嵌入模型内部，这样做之后可以减少90%prompt的浪费，从而提高api的调用速度。然后增加生成前缀，对每个训练样本添加特殊的label，给模型一个情境，这样之后进一步的增强的相关生成结果的相关性，过滤掉不相关的样本，通过计算获取文本和原训练文档向量的表示，计算向量之间的欧式距离，从而过滤掉不一致的样本，这一个操作增强了标签的安全性