新的层次对比学习框架 HICL,用于解决跨域零样本槽填充任务
该方法的主要贡献有:
- 提出了一种基于高斯分布嵌入的粗细粒度对比学习方法,通过在语义空间中重新分布令牌嵌入的距离,学习跨令牌的泛化令牌-类特征,从而提高模型识别新槽实体的能力。
- 发现了现有方法在unseen槽的性能评估中存在的问题,提出了一种新的迭代标签集语义推理方法,可以单独且无偏见地对unseen槽进行训练和测试。
- 在四个数据集和三种模型架构上进行了大量实验,结果表明该方法在unseen槽和整体性能上均优于或匹敌当前最先进的模型。
近年来面对TOD话题所遇到的瓶颈,引入一种新的层次对比学习框架HICL,解决跨越令样本槽填充任务
主要创新点是:
- 提出了分层对比学习框架,先学习粗粒度的实体级知识,然后结合实体特征学习细粒度的令牌级知识。实体级知识为令牌级学习提供信息,两者结合提高了泛化能力。
- 使用高斯分布嵌入表示令牌,通过优化分布间散度而不是点间距离来进行对比学习。高斯分布嵌入更好地建模了类别分布,有助于学习泛化的特征。
- 提出新的迭代语义推理方法进行无偏的unseen槽评估,解决了多个标签预测问题。
综上,该论文提出了一种创新的分层对比学习框架,通过提取泛化的槽位无关特征,显著提高了模型在跨域零示例槽填充任务尤其是未见槽位上的表现,是一篇高质量的论文。
背景:对话能力是Chat类LLMs及Agent最重要的能力,任务型对话(TOD)是面向实际业务场景的对话能力,该工作着眼于最近几年TOD槽填充遇到的瓶颈,拒绝绕弯,正面硬杠和死磕,解决了以下两个问题:
1.目前TOD槽填充(涉及对话状态及策略)目前遇到的瓶颈问题,原因,及解决方案。
2. 为这个领域(TOD)槽填充的future work定义了训练和评测的标准。
鼓励后续该方向研究者更多的citation。
中文翻译
标题:层次对比学习:一种从粗到细的对比学习框架,用于跨域零样本槽填充
摘要:
在面向任务的对话场景中,跨域零样本槽填充任务发挥着利用源域知识来学习具有高泛化能力模型的关键作用,这对于无法获得标注数据的新目标域尤为重要。然而,现有的最先进的零样本槽填充方法在目标域的泛化能力仍然有限,它们只在已见槽上表现出有效的知识转移,而在未见槽上表现较差。为了解决这个问题,我们提出了一种新的分层对比学习框架HiCL。具体地,我们提出了一种从粗到细的基于高斯分布的对比学习方法,通过优化令牌表示在语义空间内的类内部和类间分布距离,鼓励HiCL学习深层的语义关系,从而推广到训练阶段未见的槽类型。此外,我们提出了一种新的迭代标签集语义推理方法,以无偏地单独评估未见槽类型的性能。大量实验结果在四个数据集上证明,与当前最先进的零样本槽填充方法相比,我们提出的方法在未见槽的性能上具有竞争力或更好,在整体性能上也具有竞争力。
方法:
- 提出分层对比学习框架HiCL,包含粗粒度的实体级对比学习和细粒度的令牌级对比学习。实体级学习提供类型和边界信息,令牌级学习提供BIO信息,两者结合提高泛化能力。
- 使用高斯分布嵌入表示令牌,通过优化分布间散度进行对比学习。高斯分布嵌入更好地建模类别分布,有助于学习泛化特征。
- 提出迭代标签集语义推理方法进行无偏的未见槽评估,解决多标签预测问题。
结果:
在四个数据集上对多个模型进行评测,结果显示HiCL方法在未见槽方面优于当前最先进方法,泛化能力更强,同时在已见槽上表现接近最先进水平。
结论:
通过分层对比学习提取泛化特征,HiCL框架从增强模型识别新槽实体的能力这个新视角出发,为跨域零样本槽填充任务提供了有效的解决方案。
TOD面向任务的对话场景中
摘要翻译:
在面向任务的对话场景中,跨域零样本槽填充任务发挥着利用源域知识来学习具有高泛化能力模型的关键作用,这对于无法获得标注数据的新目标域尤为重要。然而,现有的最先进的零样本槽填充方法在目标域的泛化能力仍然有限,它们只在已见槽上表现出有效的知识转移,而在未见槽上表现较差。为了缓解这个问题,我们提出了一个新的分层对比学习框架HiCL用于零样本槽填充。具体地,我们提出了一种基于高斯分布嵌入的粗细粒度对比学习方法,通过优化令牌表示之间的类内部和类间分布距离,鼓励HiCL学习更加泛化的语义关系,以推广到训练阶段未见的槽类型。此外,我们提出了一种新的迭代标签集语义推理方法,以无偏地单独评估未见槽类型的性能,这避免了之前零样本槽填充评估方法中未见槽类型与对应已见槽类型之间的纠缠。在四个数据集上的大量实验显示,与当前最先进的零样本槽填充方法相比,我们提出的方法在未见槽上的性能具有竞争力或更好,整体性能也具有竞争力。
在层次对比学习框架(HiCL)中,粗粒度和细粒度的对比学习是通过层次分组的方式定义的。
首先,对于每个话语标记(utterance-token),使用高斯分布进行嵌入建模,将每个标记表示为一个高斯分布的中心点,包含了关于该标记的语义信息。
然后,进行粗粒度的对比学习。将所有的话语标记嵌入分成较大的组,例如按照领域进行划分。在每个组内部,通过最大化组内标记之间的相似性,最小化组间标记之间的相似性,来学习粗粒度的语义关系。
接下来,进行细粒度的对比学习。在每个组内部,再将标记进一步细分为更小的子组。在子组内,通过最大化子组内标记之间的相似性,最小化子组间标记之间的相似性,来学习更细粒度的语义关系。
通过这种层次对比学习的方法,HiCL能够学习到从粗粒度到细粒度的深层语义关系。这种层次分组的方式允许模型在不同层次上建模和捕捉语义信息,提供了更好的泛化能力,使得模型能够处理训练阶段未见过的槽类型。