中文翻译:

长文本生成挑战

摘要

我们提出了一个类人长文本生成共享任务(LTG Challenge),要求模型根据约1000个标记的提示,输出一致的、类人的长文本(用英语写的哈利波特异性恋群体同人小说)。我们建议使用一种新的统计指标来衡量文本的结构化程度,即基于GloVe的自相关功率/指数定律平均绝对百分比误差比(GAPELMAPER),并提供了人工评估方案。我们希望LTG可以为研究者开辟新的研究方向,以探究采样方法、提示策略、自回归和非自回归文本生成架构,并打破生成一致长文本(40K+标记)的局限。

任务概述

类人长文本生成(LTG)任务要求模型根据约1000个标记的提示,输出一致的、类人的长文本(用英语写的哈利波特异性恋群体同人小说)。文本的质量将通过第3.1节描述的GAPELMAPER自动化评估指标以及第3.2节描述的人工评估方案来评判。

动机

自回归概率大语言模型(LLM)一直是计算语言学各项任务的基石,可通过少样本学习或提示工程实现。如今,许多用户已经定期与ChatGPT、Claude或Google Bard等对话式模型进行交流。但这些模型仍有许多缺陷。尽管有针对性的努力,它们仍可能生成错误信息、传播社会定型观念和产生有害语言。
我们特别想解决的LLM缺陷是它们无法产生等级类人的长文本。当前的自回归语言模型在文本的长程依赖上保持一致性的能力很差。GPT-3、LLaMA、ALPACA等大语言模型虽然将“短文本”的界限推进了很远,但没有消除这个问题。面向对话使用的商业遵从语言模型如ChatGPT、GPT-4、Claude和Google Bard,它们对每个用户输入都限制生成特定数量的标记,只有在进一步提示后才生成后续文本。虽然商业模型的自回归窗口达到32K个标记,非常多,但尚不清楚这是否足以生成长篇连贯文本。
长文本建模与短文本建模有许多不同之处,包括(1)关于人物反应和意图的常识推理,以及关于物理对象(如“河流”)和抽象概念(如“反讽”)的知识;(2)话语层次特征建模,如句间关系(如因果关系)和全局话语结构(如事件顺序);(3)生成连贯性和可控性,需要同时保持连贯情节并遵循可控属性(如话题)。
Mikhaylovskiy和Churilov(2023)最近利用预训练词向量研究了长文本中的自相关性。这使得可以研究人工书面文本和模型生成文本在广泛自相关距离范围内的自相关性,发现人工书面语长文本的自相关性在10到10000词的范围内按幂定律衰减,与语言无关。另一方面,生成文本的自相关性衰减行为在定量上和定性上通常不同于文学作品。大语言模型通常呈现马尔可夫链行为,自相关性按指数定律衰减。
几位作者在理论和实证上都显示(Lin和Tegmark,2017; Alvarez-Lacalle等,2006),幂定律自相关性衰减与文本的层次结构密切相关。例如,列夫·托尔斯泰的《战争与和平》的层次结构至少有7个层次:全书、卷、部分、章节、段落、词和字母。有充分理由认为,这种结构反映了人类思维的一个重要方面:人们不会自回归地生成文本。写长文本需要提前思考,并返回编辑以保持前后部分的一致性。这种来回可以通过遍历树状结构来反映。当前最先进的自回归模型没有反映这一点,例如S4模型(Gu等,2021)呈现明显的指数衰减自相关性(Mikhaylovskiy和Churilov,2023)。
我们希望这个挑战可以引起NLG社区的兴趣,推进采样方法、提示策略、自回归和非自回归文本生成架构等文本生成子领域的发展。
任务描述 正式地,LTG Challenge的任务要求参与者提供一个系统,根据约1000个标记的提示,可以输出一致的、类人的长文本(用英语写的哈利波特异性恋群体同人小说)。
我们采用下面描述的自动化和人工评估来评价文本质量。
GAPELMAPER指标 假设我们有一系列向量Vi∈Rd,i∈[1,N]。自相关函数C(τ)是向量之间相似度的函数,其中lag τ=i−j。向量相似度最简单的度量是余弦距离d(Vi,Vj)=cos∠(Vi,Vj)=Vi·Vj/‖Vi‖‖Vj‖,其中·是两个向量的点积,‖‖是向量的欧几里得范数。因此,C(τ)=1/(N−τ)∑Vi·Vi+τ/‖Vi‖‖Vi+τ‖N−τi=1。C(τ)取值范围从-1到1,前者表示完全反相关的序列(比如对于τ=1且d=1,序列为1,-1,1,-1等),后者表示完全相关的序列(比如对于τ=1且d=1,序列为1,1,1,1等)。
分布式语义为文本中的每个词或上下文赋予一个向量。因此,文本被转换为一个向量序列,我们可以针对文本计算自相关函数。已有两种分布式语义方法用于词级自相关计算:Alvarez-Lacalle等(2006)提出了词袋模型,Mikhaylovskiy和Churilov(2023)建议使用预训练的GloVe向量。与只能测量长距离相关的词袋模型不同,后一种方法可以从1词距离开始测量任何距离的自相关。因此,我们建议使用GloVe进行自相关测量。
Mikhaylovskiy和Churilov(2023)发现人工书面长文本的自相关性在10到10000词的范围内按幂定律衰减。我们建议通过将生成文本的自相关性衰减与幂定律和指数定律进行比较,来测量生成文本的结构化程度。具体方法是计算该范围内的自相关性,使用最小二乘回归分别对对数坐标和对数线性坐标下的这些点进行直线逼近,并用MAPE(平均绝对百分比误差)评估这些回归的拟合优度。这两个误差的比值构成我们称之为基于GloVe的自相关功率/指数定律平均绝对百分比误差比(GAPELMAPER)的指标:
GAPELMAPER = MAPE功率/MAPE指数
GAPELMAPER小于1意味着自相关性按幂定律衰减,文本结构合理。GAPELMAPER大于1意味着自相关性按指数定律衰减,文本结构较差。比如,我们取Mikhaylovskiy和Churilov (2023)的表3,计算表1的GAPELMAPER。
人工评估方法 单一数字不足以评估长文本的质量。我们采用多项人工评估指标来更好地测量模型性能。类似Kryscinski等(2019),我们要求评估员根据四个维度对文本进行评级:相关性(文本中的话题与预期话题的相关程度)、一致性(文本不同部分之间的一致程度)、流畅性(单句的质量)和连贯性(句序列的质量)。每篇文本由5个不同评估员评级,最后得分取平均。为简化评估,每位评估员可获得一篇类似长度、开头标记相同的人工书写文本(自动翻译的同人小说)。
方案 我们建议以下日程:
  • 第1阶段(2023年9月起):在INLG 2023会议上公布共享任务,数据在共享任务网站上可用;参与者可以注册任务。
  • 第2阶段(2023年12月起):排行榜开放;参与者可以向组织者提交系统,在线排行榜持续更新最佳自动化评估指标。
  • 第3阶段(2024年3月起):提交结束;组织者进行人工评估。
  • 第4阶段(2024年7月):LTG Challenge共享任务完全结束。组织者将参与者报告和挑战报告提交到INLG 2024,并在会议上展示。
为了公平和可重现性,参与者应在系统报告中指明使用了哪些外部资源以及使用方式。第3阶段,截止日期之后,组织者将开始依靠语言专家的帮助评估最终提交模型生成的摘要。
请注意,如果INLG 2024的日程发布,上述日程可能会相应调整。排行榜和详细日程将在共享任务网站上公布。
相关工作 Shaham等(2022)提出了SCROLLS,这是一系列需要长文本推理的任务,包括较早的Huang等(2021)、Chen等(2022)、Zhong等(2021)、Dasigi等(2021)、Kočiský等(2018)、Pang等(2022)和Koreeda和Manning(2021)的工作。虽然所有这些数据集和任务都与长文本有关,但都没有要求生成长文本。
Gehrmann等(2021)提出了GEM,这是用于自然语言生成(NLG)及其评估和指标的动态基准测试。GEM提供了一个环境,模型可以轻松应用于广泛的任务集,评估策略可以得到测试,包含11个数据集/任务。Tay等(2020)提出了长序列竞技场,这是一系列1K到16K标记的序列任务,涵盖文本、自然图像、合成图像和数学表达式等广泛数据类型和模式,需要相似性、结构和视觉空间推理。这些任务都没有要求生成长文本。
最近,Köksal等(2023)提出了LongForm数据集,该数据集利用英语语料库样本和增强说明来构建。引用的论文中没有建议评估方案或竞赛。
迄今为止最类似我们的努力可能是Guan等(2022)提出的面向故事的长文本建模基准LOT。该基准聚合了两个理解任务和两个生成任务。作者根据人工中文故事构建了这些任务的新数据集。与我们的提议不同,LOT基准限于数百字的文本,且为中文。
结论 我们提出LTG Challenge来解决长文本生成任务,希望它可以为研究者开辟新的研究方向,以探究采样方法、提示策略、自回归和非自回归文本生成架构,并打破生成一致长文本(40K+标记)的局限,从而推进文本生成的边界。

当前自回归语言模型生成长文本方面存在以下问题值得改进:

  1. 无法捕捉文本中的长程依赖关系。自回归模型是通过预测前面词的条件概率来生成后续词语,这种顺序生成方式难以建模词语之间的长程依赖。
  1. 生成的文本autocorrelations衰减不遵循幂律分布。人类写作的长文本autocorrelations衰减符合幂律分布,反映了语言的层级结构。而自回归模型生成的文本衰减更接近指数分布,结构较为松散。
  1. 无法反映人类写作长文本的思维过程。人类写长文本需要提前思考安排,同时反复修改以保持一致。而自回归模型是严格顺序生成,无法反映这种前后跳跃的编辑过程。
  1. 难以建模语言的长程结构,如篇章的逻辑关系,事件顺序等。这需要对常识和背景知识的推理。
  1. 生成的可控制性较差,难以确保话题一致性。
  1. 难以建立丰富连贯的语言形式,句子之间的逻辑衔接较弱。
为了生成连贯可控的长文本,一些值得探索的方向包括:采用非自回归结构如树结构生成、引入长程依赖模块、增强对语言结构和背景知识的建模等。希望通过LTG Challenge可以促进这方面的研究进展。
survey paper从多个维度进行总结,任务型文本,技术型文本,transformer,decoder,技术层面,对比学习incoder-decoder
大模型的size,技术型,NLG的自然语言生成,文本生成
长文本生成survey,看10篇paper

LTG

实际场景需要→科研现状→大模型结合
长文本问答,解决这个问题,技术顾问
短文本生成→长文本生成
短文本的市场已经接近于饱和,performance提高1%没有价值
长文本的自动回答,自己的场景,采用非自回归结构如树结构生成、引入长程依赖模块、增强对语言结构和背景知识的建模等。
自回归模型的技术,大模型
** 核心问题**
(1)树形层级结构思维 (2)符合幂律分布的自动相关函数

LTG与金融领域的结合:

长文本生成与金融领域结合,的确存在一些可创新和探索的方向:
  1. 生成自定义化的金融分析报告
利用长文本生成技术,根据不同用户的需求,自动生成个性化的金融分析报告,包括市场预测、投资建议等。
  1. 智能投资组合报告
根据用户的投资组合和策略,生成定期的投资组合分析报告,指出风险和调整建议。
  1. 金融合同自动化
基于长文本生成,自动化生成兼容法律要求的金融合同,如贷款协议等。
  1. 金融知识问答
应用长文阅读理解技术,建立面向金融领域的知识问答系统。
  1. 自动化金融新闻
生成关于公司财报、行业分析、政策解释等定制化的金融新闻。
  1. 金融诈骗检测
通过检测生成文本的连贯性、语法错误等发现诈骗金融信息。
  1. 金融教育内容生成
自动生成针对不同阶段投资者的金融教育文章、案例等。
  1. 虚拟金融顾问
构建能够进行长时间金融建议对话的虚拟智能顾问。
总体来说,长文本生成可显著提升金融信息内容的个性化、自动化和智能化水平,创造新的金融服务模式。值得金融机构积极尝试与之结合,创新业务方案。
 
 

要提高长文本生成模型的性能,可以从以下几个方面进行优化:

  1. 使用更大规模的预训练语言模型作为基础模型,如GPT-3等大模型。这可以为生成提供更丰富的先验语言知识。
  1. 采用长序列训练技术,如梯度checkpoint等,避免在长序列上训练时的计算和优化困难。
  1. 使用hierarchical或tree-structured的解码器结构,分层生成文本,缓解长序列生成的困难。
  1. 引入更多语义约束,如题目、关键词等,帮助模型更好地 Capture 主题,生成逻辑性更强的长文本。
  1. 多任务学习,联合训练文本生成以及文本摘要、语义匹配等相关任务,让模型学习更好的语义表示。
  1. 强化学习方法,使用语义相似度、流畅度等自动度量作为奖励, guid 模型生成更连贯的长文本。
  1. 使用检索增强机制,检索外部信息引导生成,提供更多背景知识。
  1. 设计更合理的评估指标,如语义一致性、事实一致性等,避免只依赖于流畅度指标。
  1. 更大规模和高质量的数据集训练,尤其是长文本训练数据,提供更丰富的语料。
  1. 更合理的生成策略,如先生成摘要后扩展等,分阶段生成。
综合使用上述技术,持续迭代模型性能,可以大幅提升长文本生成的质量。但要生成真正高质量的长文本,仍有一定困难,需要进一步研究。
 

11.3 竺涯共语交流

本身也很喜欢哲学。目前在做一个NLP领域上的LTG solving的问题,简单点来说就是长文本生成相关的问题,想来这里寻找一下灵感,我们想尝试使用大约1k个token生成一个连贯的长故事,我举一个很典型的例子,比如我们拿列夫托尔斯泰的作品进行分析,我们可以发现人类写作的长文本主要符合幂律分布,比较符合人类设计语言的树状层级结构,就像现在最sota的transformer也是采用自回归的语言模型,我们发现自回归模型所生成文本衰减更符合指数分布,结构比较松散,我个人思考出来的可能解决的方法改变原来的自回归模型,变成非自回归模型树状结构模型,论文的相关技术:
  1. 微调语言模型:使用类数据微调GPT-2等预训练语言模型,使其适应目标任务的数据分布和语言风格。这样可以增强模型生成文本的群体特征和一致性。
  1. 增加生成前缀:为每个训练样本添加特殊的“开始生成”标记作为前缀,以指示模型为该样本生成相关文本。对长文本还可用样本标题或开头词组作为前缀引导生成。这进一步增强了生成结果的相关性。往前回溯
  1. 过滤不相关样本:使用BERT等模型获取生成文本和原训练样本的文档向量表示,计算向量间距离判断生成样本是否语义一致,过滤不一致样本。这一步强化了标签安全性,避免引入错误样本。
 
Loading...
fufu酱
fufu酱
一个爱折腾的大学生
公告
👋
欢迎 欢迎来到fufu酱的blog! 💞️我是22级浙江大学竺可桢学院计算机科学与技术专业的学生 一个爱折腾的大学生 🌱我会在这个网站上更新我的笔记和工具分享 🌈目前all in MLLM 📫你可以用下面的方式联系到我
🍀
今後ともよろしくお願いします