🏚️Language Models are Unsupervised Multitask Learners(GPT2 2019)-翻译
2024-1-12
| 2024-2-23
0  |  阅读时长 0 分钟
type
status
password
date
slug
summary
category
URL
tags
icon

摘要

自然语言处理任务,如问题回答、机器翻译、阅读理解和摘要生成,通常在特定任务数据集上使用监督学习方法来处理。论文证明,当语言模型在一个名为WebText的数百万网页的新数据集上进行训练时,语言模型开始无需任何明确指导便能学习这些任务。当对文档加问题进行条件限制时,在没有使用127000+的训练数据的CoQA数据集上,该模型生成的答案F1 score达到了55,并且4个baseline system中有3个打破了原来的最好成绩。语言模型的容量对于零样本任务迁移的成功至关重要,提高容量能够以对数线性方式提高跨任务的性能。我们最大的模型GPT-2的transformer参数量达到了15亿个,并且在WebText这个数据集还存在欠拟合的情况下,已经在8项测试语言模型的数据集上取得了7项最好的成绩。模型样本反映了这些改进,并包含了连贯的文本段落。这些发现为构建语言处理系统提供了一条有希望的途径,该系统可以从自然发生的演示中学习执行任务。

1 介绍

机器学习系统现在通过使用大型数据集、高容量模型通过监督学习在训练任务中表现优异(Krizhevsky et al.,2012)(Sutskever et al.,2014)(Amodei et al.,2016)。然而,这些系统很脆弱,对数据分布(Recht et al.,2018)和任务规范(Kirkpatrick et al.,2017)的细微变化很敏感。当前系统更像是狭窄的专家而非称职的通才。我们更想去构建一个更加通用的系统能胜任更多的任务——最终无需为每一个任务手动创建和标注训练数据集。
创建ML系统的主要方法是收集一个训练示例数据集,该数据集展示了所需任务的正确行为,训练系统模仿这些行为,然后在独立同分布(IID)示例上测试其性能。这样的模式在特定场景效果的确不错。但标题生成模型(Lake et al.,2017)、阅读理解系统(Jia&Liang,2017)和图像分类器(Alcorn et al.,2018)对于输入的多样性和不确定性就会把缺点给暴露出来。
论文怀疑,在单域数据集上进行单任务训练的普遍性是当前系统中缺乏泛化能力的主要原因。要想在目前的架构上取得更强的泛化能力,可能需要在广泛的领域和任务上进行训练和衡量性能。最近,已经有一些基准测试提出了该理念,例如GLUE(Wang等,2018)和decaNLP(McCann等,2018)。
多任务学习对于提升模型性能来说是很有用的,但是多任务学习在NLP领域还是新生儿。从元学习的角度来看,每个数据对都是从数据集和目标的分布中抽样的单个训练示例。目前的机器学习系统需要成百上千的数据去拟合出更好的函数,这也表明多任务学习需要更多的数据才能达到好的效果,但是一目前的技术来说,继续扩大数据集的规模是很困难的,这也促使我们去探索更多方法来提升多任务学习的效果。
图 1.WebText LM 在许多 NLP任务上的zero-shot任务性能与模型大小的函数关系。阅读理解结果是在CoQA 上(Reddy 等人,2018年),翻译是在WMT-14 Fr-En 上(Artetxe等人,2017年),摘要是在CNN 和 Daily Mail 上(See等人,2017年),问题解答是在Natural Questions 上(Kwiatkowski等人,2019年),第3节包含对每项结果的详细描述。
图 1.WebText LM 在许多 NLP任务上的zero-shot任务性能与模型大小的函数关系。阅读理解结果是在CoQA 上(Reddy 等人,2018年),翻译是在WMT-14 Fr-En 上(Artetxe等人,2017年),摘要是在CNN 和 Daily Mail 上(See等人,2017年),问题解答是在Natural Questions 上(Kwiatkowski等人,2019年),第3节包含对每项结果的详细描述。
目前效果最好的形式就是预训练模型并采用监督学习做微调的模式,该模式有着悠久的历史,未来会向着更加灵活的迁移形式发展。首先,学习单词向量并将其用作任务特定架构的输入(Mikolov等人,2013)(Collobert等人,2011),到后来采用循环神经网络的上下文信息(Dai&Le,2015)(Peters等,2018),最近的研究也表明,特定任务的体系结构其实并不是必须的,迁移多个self-attention模块就已经能够满足目前的需要(Radford等,2018)(Devlin等,2018)。
这些方法仍然需要有监督微调才能执行任务。当只有很少或没有监督数据可用时,另一项研究表明语言模型可通过执行其他一些特定的任务来进行训练,例如常识推理(Schwartz等,2017)和情感分析(Radford等,2017)。
在本篇论文中,我们会把多任务学习和非监督学习连接起来,并继续采用更通用的迁移方法。我们展示的语言模型能在没有训练样本(没有任何参数和结构的修改)的情况下执行一些下游任务,并且在零样本的情况下泛化性能更强,在一些任务上我们也取得了业界最佳的效果。

2 方法

论文方法的核心是语言模型。语言建模通常被界定为从一系列示例进行非监督分布估计,每个示例由可变长度的符号序列 组成。由于语言具有天然的顺序性,因此,通常将符号上的联合概率分解为条件概率的乘积(Jelinek&Mercer,1980)(Bengio et al.,2003):
这种方法方便估算 以及任何条件的 。近年来,可以计算这些条件概率的模型的表达能力有了显著的提高,例如采用self-attention结构的Transformer架构(Vaswani et al.,2017)。
学习执行单个任务可以在概率学中表示为估计条件分布 ,由于通用系统应能够执行许多不同的任务,即使对于相同的输入,它不仅应以输入为条件,还应以要执行的任务为条件。也就是说,它应该建模 。这在多任务和元学习环境中已被各种形式化。任务条件化通常在架构级别实现,例如(Kaiser等人,2017)中的特定任务编码器和解码器,或者在算法级别实现,如MAML的内部和外部循环优化框架(Finn等人,2017)。但正如McCann等人(2018)所述,语言提供了一种灵活的方式来指定任务、输入和输出,这些都可以作为符号序列。例如,翻译训练示例可以写成序列(translate to french, english text, french text)。同样,阅读理解训练示例可以写成(answer the question, document, question, answer)。McCann等人(2018年)证明,可以训练单一模型MQAN,以推断和执行这种类型格式示例上的许多不同任务。
原则上,语言模型还能够学习McCann等人(2018)的任务,而不需要对输出哪一个符号做明确的监督学习。虽然监督学习和非监督学习的目标是相同的,但是监督学习只能在子集上进行评估,非监督学习的全局最优解也是监督学习的全局最优解,因此是否我们能够在训练的过程中让非监督学习的目标能够收敛成了最大的问题。初期的实验表明足够大的语言模型是能够执行多任务的,但是其训练速度明显比监督学习的方法慢很多。
尽管从上述清晰的设置到“language in the wild”的杂乱无章是一个很大的步骤,Weston(2016)在对话的背景下提出了开发能够直接从自然语言中学习的系统的必要性,并展示了一个概念证明一一通过预测教师输出的方法,在没有奖励信号的情况下学习QA任务。
虽然对话是一个有吸引力的方法,论文担心它过于严格。互联网包含的信息太多,这些信息都是被动获取的,并且不存在互动交流。我们的猜测是,一个拥有足够容量的语言模型将开始学习推断和执行自然语言序列中展示的任务,以便更好地预测它们,不管它们是如何获得的。如果一个语言模型能够做到这一点,那么实际上,它将执行无监督多任务学习。我们通过分析语言模型在各种任务的zero-shot设置下的性能来测试这一点。

2.1. 训练数据集

表1:在整个WebText训练集中,可以找到自然发生的英译法和法译英演示示例
表1:在整个WebText训练集中,可以找到自然发生的英译法和法译英演示示例
大多数先前的工作是在单一文本领域上训练语言模型,如新闻文章(Jozefowicz等人,2016),维基百科(Merity等人,2016)或小说书籍(Kiros等人,2015)。我们的方法鼓励构建尽可能大且多样化的数据集,以便在尽可能多的领域能胜任。
例如Common Crawl,从互联网中爬取的文本数据。虽然Common Crawl数据集比当前的语言模型数据集大很多数量级,但它们存在着严重的数据质量问题。Trinh&Le(2018)在他们的常识推理工作中使用了Common Crawl,指出了大量“其内容大多无法理解”的文档。论文在初步实验中使用Common Crawl时也观察到类似的数据问题。Trinh&Le(2018)的最佳结果是通过使用一个小的Common Crawl子样本获得的,该样本只包含与其目标数据集(Winograd Schema Challenge)最相似的文档。虽然这是提高特定任务性能的一种实用方法,但论文希望避免对要提前执行的任务做出假设。
最终生成的数据集,WebText,包含这4500万个链接的文本子集。为了从HTML响应中提取文本,论文结合使用了Dragnet(Peters&Lecocq,2013)和Newspaper内容提取器。本文中展示的所有结果都使用了WebText的初步版本,该版本不包括2017年12月之后创建的链接,并且经过去重和数据平移之后,包含略超过800万个文档,总共有40GB的文本。我们从WebText中移除了所有维基百科文档,因为它是其他数据集的常见数据来源,可能会由于训练数据与测试数据重叠而使分析复杂化。

2.2 输入表示

一个通用的语言模型(LM)应该能够计算(并且生成)任何字符串。当前的大规模LM包括预处理步骤,如小写化、分词和OOV,这些限制了可建模字符串的空间。尽管将Unicode字符串作为UTF-8字节序列处理优雅地满足了这个要求,正如Gillick等人(2015)的工作所示,但当前的字节级LM在如 One Billion Word Benchmark(Al-Rfou等人,2018)这样的大规模数据集上与词级LM相比并没有竞争力。在我们自己尝试在WebText上训练标准字节级LM时,我们观察到了类似的性能差距。
字节对编码(BPE)(Sennrich等人,2015年)是一种介于字符级和字级之间的实用语言模型,它有效地对于常见的符号序列采用词级输入,对不常见的符号序列采用字符级输入。尽管名为BPE,但实际是在处理Unicode编码,而不是字节序列,该方法需要包含所有unicode编码,以便能对所有Unicode字符串建模。这将导致在添加任何多符号token之前,基础词汇量超过130,000。与常用的32,000到64,000的BPE token词汇量相比,这是过于庞大的。相比之下,字节级的BPE版本只需要一个由256个大小构成的基础词汇量。然而,直接将BPE应用于字节序列会导致合并无法达到最优解,因为BPE使用贪婪算法来构建词汇表。我们观察到BPE包括了像dog 这样的常见单词的许多变体,例如dog、dog!、dog?。该结果将会导致词典词槽分配与模型能力受到限制。为了避免这个问题,我们会防止BPE跨字符类别合并任何字节序列,我们为空格添加了一个异常,它显著地提高了压缩效率,同时只在多个vocab标记之间添加了最小的单词碎片。
这种输入表示允许我们将字级语言模型的经验优势与字节级方法的通用性结合起来。因为我们的方法能给任何一个unicode字符串分配一个概率,这允许我们在任何数据集上评估我们的语言模型并且不需要去管预处理,分词,或者说词典大小。

2.3 模型

我们的语言模型内部采用的是transformer结构,该模型在很大程度上遵循OpenAI GPT模型(Radford等人,2018年),只是细节做了一些修改。首先我们将layer normalization(Ba等人,2016年)移至每个sub-block的输入处,类似于一个预激活的残差网络(He等人,2016年),并在最后的self-attention模块中添加了layer normalization。采用修正的初始化方法,考虑了模型深度对当前层的影响,我们通过因子 来缩放残差层在初始化时的权重,其中N是残差层的数量。词汇量扩展至50,257。我们还将上下文大小从512增加到1024个token,并使用了更大的批量大小512。

3 实验

表2:4种模型尺寸的架构超参数
表2:4种模型尺寸的架构超参数
我们训练和基准测试了四种LM,它们的大小呈对数均匀分布的。这些架构如表2所示。最小的模型相当于原始的GPT,第二小的模型相当于 BERT(Devlin等人,2018年)中最大的模型。我们最大的模型叫做GPT-2,其具有比GPT多一个数量级的参数。每个模型的学习率都是通过在WebText的5%保留样本上获得最佳困惑度来手动调整的。所有的模型目前在WebText上都还存在欠拟合的情况,如果给更多的时间去训练的话效果还能进一步的提升。

3.1 语言模型

模型验证的第一步当然是零样本任务,我们对WebText训练的语言模型在一些基本任务零样本的情况下的效果很感兴趣。我们的模型是在字节级别做的处理,因此并不需要做预处理或者说是分词,我们能够在任何语言模型的基准上进行评估。语言建模数据集上的结果通常以每个标准单元(字符、字节或者词)的平均负样本对数概率的比例或指数作为评判标准。我们的评判标准是:对数概率除以标准节点的个数。对于这些数据集来说,WebText语言模型能明显的测出out-of分布,它能找出没有联系的标点符号、缩进、打乱的句子,甚至在WebText中极为罕见的字符串<UNK>,不过这个在WebText中出现的次数极少,400亿字节中只出现了26次。表3是我们的模型在各项任务的表现,我们采用了invertible de-tokenizers并尽可能的把人为的预处理过程移除了。正是由于采用了invertible de-tokenizers,我们仍然可以计算数据集的对数概率值,该值可以被认为是一种简单的域自适应结果。我们发现GPT-2在invertible de-tokenizers作用下,困惑度获得了2.5-5个点提升。
表3:许多数据集上的zero-shot结果。没有对这些结果进行任何训练或微调。PTB和WikiText-2的结果来自(Gong等人,2018)。CBT结果来自(Bajgar等人,2016)。LAMBADA准确度结果来自(Hoang等人,2018),LAMBADA困惑度结果来自(Grave等人,2016)。其他结果来自(Dai等人,2019年)。
表3:许多数据集上的zero-shot结果。没有对这些结果进行任何训练或微调。PTB和WikiText-2的结果来自(Gong等人,2018)。CBT结果来自(Bajgar等人,2016)。LAMBADA准确度结果来自(Hoang等人,2018),LAMBADA困惑度结果来自(Grave等人,2016)。其他结果来自(Dai等人,2019年)。
WebText语言模型跨越了不同的领域与数据集,在零样本的情况下8个数据集测试情况中有7个取得了最好的结果。我们在小型数据集(如Penn Treebank和WikiText-2)上获得了很大的改进,这些数据集只有100万到200万个训练tokens。对于有长期依赖关系的数据集也有很大的提升,如LAMBADA(Paperno et al.,2016)儿童图书测试(Hill等人,2015年)。但是我们的模型在One Billion Word Benchmark上效果并不如之前(Chelba et al.,2013)做的好,可能是由于我们数据集太大,打乱了其long-range的结构。

3.2 儿童书籍测试

图2:儿童读物测验成绩与模型能力的关系。人的性能来自Bajgar等人(2016),而不是原始论文中的低得多的估计值
图2:儿童读物测验成绩与模型能力的关系。人的性能来自Bajgar等人(2016),而不是原始论文中的低得多的估计值
儿童图书测试(CBT)(Hill等人,2015年)创建的目的是检查语言模型在不同类别单词上的表现:命名实体、名词、动词和介词。CBT 没有像其他测试那样将困惑度作为评估指标,而是通过一个自动生成的完形填空测试来报告准确度,任务是预测被省略单词的10个可能选项中哪一个是正确的。按照原文中介绍的语言模型方法,我们计算每个选项及以此选项为条件的句子剩余部分的概率,预测概率最高的一个。如图2所示,随着模型大小的增加,性能稳步提高,在此测试上几乎赶上了人类的表现。数据重叠分析显示,CBT测试集的一本书籍,《丛林之书》(吉普林著),包含在WebText中,因此我们报告的是在验证集上的结果,该验证集没有显著的重叠。GPT-2在常见名词上达到了93.3%的新技术水平,在命名实体上达到了89.1%。为了去除CBT中的PTB风格标记化文本,应用了反标记器。

3.3 LAMBADA

LAMBADA数据集(Paperno等人,2016)测试系统在文本中建模长距离依赖关系的能力。任务是预测句子的最后一个词,人类要想成功预测,至少需要50个上下文标记。GPT-2将技术水平从99.8(Grave等人,2016)提高到了8.6的困惑度,并将语言模型在此测试上的准确率从19%(Dehghani等人,2018)提高到了52.66%。对GPT-2的错误进行调查表明,大多数预测是句子的有效延续,但不是有效的最后一个词。这表明语言模型没有利用额外有用的约束,即该词必须是句子的最后一个词。增加一个停用词过滤器作为对此的近似,将准确率进一步提高到63.24%,在这项任务上将整体技术水平提高了4%。之前的技术水平(Hoang等人,2018)采用了不同的限制预测设置,其中模型的输出仅限于上下文中出现的单词。对于GPT-2来说,这种限制是有害的,而不是有益的,因为19%的答案不符合上下文。我们使用没有预处理的数据集版本。

3.4 Winograd Schema challenge

图3.Winograd模式挑战赛的成绩与模型容量的函数关系。
图3.Winograd模式挑战赛的成绩与模型容量的函数关系。
Winograd Schema challenge(Leveque et al.,2012)旨在通过衡量系统解决文本歧义的能力来衡量系统执行常识推理的能力。最近,Trinh&Le(2018)使用语言模型在这个挑战上展示了显著进步,通过更高概率预测歧义的解决。我们遵循他们的问题表述,并在图3中展示了我们的模型使用完整和部分评分技术的表现。GPT-2将最先进的准确率提高了7%,达到了70.70%。该数据集相当小,只有273个例子,所以我们建议阅读 Trichelair 等人(2018)的工作来帮助理解这个结果。

3.5 阅读理解

对话问答数据集(CoQA)(Reddy等人,2018)由来自7个不同领域的文档组成,与询问者和回答者之间关于该文档的自然语言对话配对。CoQA测试阅读理解能力以及模型回答依赖于对话历史(如“为什么?”)的问题的能力。
当将GPT-2条件化在一个文档上,关联对话的历史以及最终标记A:在开发集上取得了55F1的成绩。在没有使用127000多个手动收集的问答对(这些基线是在这些问答对上进行训练的)的情况下,这匹配或超过了4个基线系统中的3个系统的性能。有监督的SOTA,一个基于BERT的系统(Devlin等人,2018),接近于人类的89F1表现。虽然GPT-2的表现对于一个没有任何监督训练的系统来说是令人兴奋的,但一些对其回答和错误的检查表明GPT-2经常使用简单的基于检索的启发式方法,例如针对一个谁的问题用文档中的一个名字回答。

3.6 文本摘要

表 4.CNN 和《每日邮报》数据集上用ROUGEF1指标衡量的摘要性能。Bottom-Up Sum是SOTA模型(Gehrmann et al.,2018)
表 4.CNN 和《每日邮报》数据集上用ROUGEF1指标衡量的摘要性能。Bottom-Up Sum是SOTA模型(Gehrmann et al.,2018)
论文测试了GPT-2在CNN和每日邮报数据集上进行摘要的能力(Nallapati等人,2016)。为了引导摘要行为,我们在文章后添加了文本 TL;DR:然后使用Top-k 随机采样(Fan 等人,2018)生成100个标记,其中k=2,这减少了重复并鼓励了比贪婪解码更抽象的摘要。
我们使用这100个标记中生成的前三个句子作为摘要。正如表14所示,虽然在质量上类似于总结。但它们经常聚焦于文章的近期内容,或者混淆了具体细节,比如事故中涉及了多少辆车,或者标志是在帽子上还是衬衫上。在常用的ROUGE 1,2,L 指标上,生成的总结性能仅刚刚开始接近经典神经基线的性能,仅略高于从文章中随机选取3个句子。当任务提示被删除时,GPT-2在聚合指标上的性能下降了6.4分,这展示了用自然语言在语言模型中调用特定任务行为的能力。

3.7 机器翻译

我们测试GPT-2是否开始学会了从一种语言翻译到另一种语言。为了帮助它推断出这是预期的任务,我们将语言模型置于格式为“英语句子=法语句子”的示例对的上下文中,然后在最终的提示“英语句子=”之后,我们采用贪心解码从模型中抽取,并使用第一个生成的句子作为翻译。在WMT-14英法测试集上,GPT-2获得了5个BLEU分数,略差于先前工作中基于无监督单词翻译推断出的双语词典的逐词替换(Conneau等人,2017b)。在WMT-14法英测试集上,GPT-2能够利用其非常强大的英语语言模型显著提升性能,达到了11.5 BLEU 分数。这超过了来自(Artetxe 等人,2017)和(Lample等人,2017)的几个无监督机器翻译基线,但仍远低于当前最佳无监督机器翻译方法的33.5 BLEU (Artetxe等人,2019)。这项任务的性能令我们惊讶,因为我们故意从WebText中移除了非英语网页作为筛选步骤。为了确认这一点,我们在WebText上运行了一个字节级语言检测器,检测到只有10MB的法语数据,比之前无监督机器翻译研究中常见的单语法语语料库大约小500倍。

3.8 问答系统

表5.GPT-2对自然问题开发集生成的30个最有把握的答案,根据GPT-2按概率排序。
表5.GPT-2对自然问题开发集生成的30个最有把握的答案,根据GPT-2按概率排序。
测试语言模型中包含哪些信息的一种潜在方式,是评估它生成正确答案的频率对于事实样式的问题。之前的神经系统示例,所有信息都存储在参数中,例如《ANeural Conversational Model》(Vinyals&Le,2015),因为缺乏高质量的评估数据集,所以只报告了定性结果。最近引入的自然问题数据集(Kwiatkowski等人,2019)是一个很有前景的数据源,他可以更定量测试这一点。与翻译类似,语言模型的上下文中植入了示例问答对,这有助于模型推断数据集的简短答案样式。在常用于阅读理解数据集(如SQUAD)的精确匹配度量标准评估时,GPT-2正确回答了4.1%的问题。作为比较,最小的模型不超过一个极其简单的基线的1.0%准确度,该基线返回了每种问题类型(谁、什么、哪里等)的最常见答案。GPT-2正确回答了5.3倍以上的问题,这表明模型容量是到目前为止神经系统在这类任务上表现不佳的主要因素。GPT-2对其生成答案的概率校准得很好,对于它最有把握的1%的问题,GPT-2的准确度为63.1%。在开发集问题上,GPT-2生成的30个最有信心的答案在表5中显示。GPT-2的表现仍然远远不及30%到50%范围的开放域问答系统,这些系统将信息检索与文档问题答案提取混合起来(Alberti等人,2019)。

4 概括与记忆

计算机视觉领域最近的工作表明,常见图像数据集中包含了大量近似重复的图像。例如,CIFAR-10在训练和测试图像之间有3.3%的重叠(Barz&Denzler,2019)。这导致了对机器学习的泛化性能被过度高估。随着数据集大小的增加,这个问题变得越来越可能出现,这表明WebText可能也会发生类似现象。因此分析测试集中有多少数据在训练集中非常重要。
为了研究这个问题,我们创建了Bloom filters,这是一个采用8-grams的方法在WebText训练集上训练的。为了提高召回率,对字符串进行了标准化,使其仅包含小写字母数字单词,以单个空格为分隔符。Bloom过滤器的构造使得假阳性率的上限为 。我们进一步通过生成100万个字符串来验证了假阳性率的下界,最终确定为0。
通过Bloom filters让我们能够计算,给定一个数据集,该数据集中有多少百分比的8-gram 也出现在WebText 训练集中。表6显示了常见LM基准测试集的这种重叠分析。常见LM数据集的测试集和WebText训练集有1-6%的重叠,平均重叠率为3.2%。有点令人惊讶的是,许多数据集与它们自己的训练分割有更大的重叠,平均重叠率为5.9%。
表6:测试集与训练集8-grams重叠的百分比
表6:测试集与训练集8-grams重叠的百分比
我们的方法对召回率做了优化,当显示有很多相同的片段,则说明有很多重复的数据。这并不是WebText才有的问题,例如,我们发现WikiText-103 的测试集中有一篇文章也存在于训练数据集中。因为测试集中只有60篇文章,所以至少有1.6%的重叠,潜在的问题更严重,我们发现1BW有自己的训练集有超过13.2%的重叠率。
在Winograd Schema Challenge上,我们只发现了10个重叠的部分,其中有2个部分并不是严格的匹配,剩余的8个,只有一个出现在泄露答案的上下文中。
CoQA的上下文中,新闻域中大约15%的文档已经在WebText中,模型在这些文件上的表现比其他的好大约3个F1分数。CoQA的开发集评估了5个不同领域的平均表现,由于各个领域的重叠,我们测量的F1的值提升了0.5-1。然而,WebText中没有实际的训练问题或答案,因为CoQA是在WebText之后发布的。
总的来说,我们的分析表明在WebText训练集与验证集上重复的数据,对结果的确有一点点的影响,然而,对于大多数的数据集来说,论文没有注意到比标准训练集和测试集之间已经存在的重叠更大的重叠,如表6所示。
理解和量化相似文本对性能的影响是一个重要的研究问题。更好的去重技术,例如可扩展的模糊匹配,也可以帮助更好地回答这个问题,目前,我们推荐采用n-gram 的值来作为重复率的验证步骤,并在在创建新NLP数据集的训练和测试拆分期间进行完整性检查。目前,我们推荐采用n-gram的值来作为重复率的验证步骤,并在在创建新NLP数据集的训练和测试拆分期间进行完整性检查。
确定WebText语言模型的表现是否归因于记忆的另一个潜在方法是检查它们在保留的测试集上的表现。如图4所示,WebText的训练集和测试集上的表现相似,并且随着模型大小的增加而一起提高。这表明GPT-2在WebText的许多方面还是存在一定的欠拟合。
GPT-2也能够写出关于发现会说话的独角兽的新闻文章。表13提供了一个例子。

5 相关工作

这项工作的相当一部分测量了在更大数据集上训练的更大语言模型的性能。这与Jozefowicz等人(2016年)的工作类似,他们在10亿单词的基准上扩展了基于RNN的语言模型。Bajgar等人(2016年)之前也通过在古腾堡项目中创建更大的训练数据集来补充标准训练数据集,从而改进了儿童读物测试的结果。Hestness等人(2017年)对各种深度学习模型的性能如何随模型容量和数据集大小而变化进行了深入分析。我们的实验表明,尽管在任务间有很多噪音,也暗示了类似的趋势持续存在于特定子任务中,并延续到10亿以上参数级别。
图4:在WebText 上训练的LM的性能与模型大小的函数关系。
图4:在WebText 上训练的LM的性能与模型大小的函数关系。
之前已经有文献记录了在生成模型中发现了有趣的学习功能,例如RNN语言模型中的神经元执行线宽跟踪和引用/评论检测Karpathy等人(2015)。Liu等人(2018)的观察结果更能启发我们的工作,他们发现,一个被训练用来生成维基百科文章的模型也学会了在不同语言间翻译姓名。
之前的工作探索了过滤和构建大型网页文本语料库的替代方法,如iWeb语料库(Davies,2018)。
在语言任务的预训练方法方面已经做了大量的工作。除了引言中提到的内容外,GloVe(Pennington et al.,2014)还将单词向量表示学习扩展到所有Common Crawl。早期关于文本深度表征学习的一项有影响力的工作是跳过思维向量(Kiros et al.,2015)。McCann等人(2017)探索了机器翻译模型中表示的使用,Howard&Ruder(2018)改进了基于RNN的微调方法(Dai&Le,2015)。(Conneau等人,2017a)研究了通过自然语言推理模型学习的表征的迁移性能,并(Subramanian等人,2018)探索了大规模多任务训练。
(Ramachandran等人,2016)证明,seq2seq模型可以通过使用预训练过的语言模型作为编码器和解码器进行初始化而获益。最近的研究表明,如果对聊天对话和基于对话的问答系统等困难的生成任务进行微调,LM预训练也会很有帮助(Wolf等人,2019年)(Dinan等人,2018年)。

6 讨论

许多研究致力于学习(Hill等人,2016年)、理解(Levy&Goldberg,2014年)和批判性评估(Wieting&Kiela,2019年)有监督和无监督的预训练方法。论文的研究结果表明,无监督任务学习是另一个有希望探索的研究领域。
这些发现可能有助于解释预训练技术在下游NLP任务中广泛成功的原因,正如我们所展示的,在极限情况下,这些预训练技术开始学习直接执行任务,而不需要显式的监督适应或修改。
在阅读理解方面,GPT-2的表现与zero-shot环境下的有监督基线不相上下。然而,在诸如摘要之类的其他任务中,虽然它在定性地执行任务,但根据定量指标,它的性能仍然只是初步的。虽然研究结果具有启发性,但就实际应用而言,GPT-2的zero-shot性能仍远不能使用。
论文已经研究了WebText LMs在许多标准NLP任务上的zero-shot性能,但还有许多其他任务可以评估。毫无疑问,在许多实际任务中,GPT-2的性能仍然不比random好。即使在我们评估的常见任务上,如问答和翻译,语言模型只有在充足容量的情况下才开始优于微不足道的基线。
虽然zero-shot性能为GPT-2在许多任务上的潜在性能建立了基线,但尚不清楚微调的上限在哪里。在某些任务中,GPT-2完全概括的输出与当前在许多问答和阅读理解数据集上处于最先进水平的基于抽取式指针网络(Vinyals等人,2015)输出有显著偏离。鉴于之前GPT微调取得的成功,论文计划研究decaNLP和GLUE等基准的微调,尤其是因为尚不清楚GPT-2的额外训练数据和能力是否足以克服BERT证明的单向表示的低效性(Devlin et al.,2018)。

7 总结

当一个大的语言模型被训练在一个足够大和不同的数据集上时,它能够在许多领域和数据集上表现良好。GPT-2在测试的8个数据集中有7个数据集,该模型能够在zero-shot的情况下取得最好成绩,经过训练的高容量模型能够最大限度地提高文本语料库多样性的可能性,从而在不需要做监督学习的情况下执行数量惊人的任务。

8 附录

8.1 模型容量

为了补充图4中关于更大的LM在WebText上的困惑度收益报告,表格7至11并排展示了最小的WebTextLM和GPT-2在随机未见过的WebText测试集文章上的完成情况。

8.2 文本记忆

我们观察到GPT-2在长字符串上表现出一些记忆行为,这些长字符串在数据集中重复多次,如著名引语或演讲。例如,当基于葛底斯堡演说的第一句话和后半句进行条件设定时(在WebText中大约出现了40次),GPT-2的argmax解码可以恢复演讲。即使在没有截断的情况下进行抽样,我们发现模型会复制演讲一段时间,然后才开始漂移,尽管风格相似。它通常在100-200个token内开始漂移,并且一旦漂移,多样性就会增加。
为了量化样本中准确记忆出现的频率,我们从基于WebText测试集文章的GPT-2生成样本,并比较了GPT-2生成的重复率与保留文章的基线重复率。以下分析结果表明,GPT-2从训练集中重复文本的频率比保留文章的基线率低。
图 5.WebText 测试集和样本(以 WebText 测试集为条件,采用k=40的top-k 截断随机抽样)与WebText 训练集的8个词组重叠百分比的CDF:大多数样本的重叠率低于1%,其中30%以上的样本没有重叠,而测试集的重叠率中位数为2.6%。
图 5.WebText 测试集和样本(以 WebText 测试集为条件,采用k=40的top-k 截断随机抽样)与WebText 训练集的8个词组重叠百分比的CDF:大多数样本的重叠率低于1%,其中30%以上的样本没有重叠,而测试集的重叠率中位数为2.6%。

8.3 多样性

表格12展示了同一随机WebText测试集上下文的多种完成情况,显示了标准抽样设置下完成情况的多样性。

8.4 鲁棒性

表格13展示了之前提到的关于说话的独角兽新闻文章。我们发现模型能够处理分布外的上下文,但这些样本的质量通常较低。
上下文(WebText测试)
装束1:典型当我买鞋的时候,这是我想到的第一套装束。它就像是这套Jake Grantham 装束的夏日版;实际上,我的鞋颜色和他的Nike Racers很接近!换掉沉重的哈里斯粗花呢外套和牛仔衬衫,我穿了一件棉质DB外套和亚麻衬衫。这两种面料(这些颜色)都是夏季的绝对必需品,因为它们既能搭配深色也能搭配浅色裤子!正如你所见,它们与深色牛仔裤和鞋子搭配得很好。这是一种伪男士/预ppy 风格的装束。
总的来说,这是一套非常休闲的装束,这就是为什么我会把我的运动鞋与它搭配在一起。我不像GQ经常展示的那样穿着全毛料西装搭配运动鞋,但我绝对愿意保持休闲风格,就像这件棉质DB。休闲面料是穿着运动鞋搭配休闲男士装束的关键。我甚至建议搭配卡其色斜纹软呢西装或白色亚麻西装穿这些运动鞋。只需要放弃领带,或者穿T恤或Polo衫;搭配领带穿运动鞋就有点过头了。
小型模型完成
装束2:高端这套装束正处于风暴之眼。它是ASICS与街头服饰(如J.Crew)以及J.Crew用稍微传统一些的休闲单品所做的混搭。同样,正如我之前提到的,这是一个低成本单品,它们可能非常昂贵。如果你打算以休闲鞋匠工作,这肯定会成为一个问题,并且这是可以接受的,但如果你想尝试他们衣服的低价版本,就不要犹豫!
这个版本具有非常低的剪裁领口(这不是坏事),稍长的腿部,并且为了保持事物的美观添加了一双长腿。我首选的这些物品颜色是蓝灰色(这是我的第一个颜色,因为它们是浅白色),或者黑色(这是我最喜欢的设计)。一如既往,我从这家商店挑选的颜色与其他东西无关,只是设计而已。对于高端产品,我向每个人推荐这个!
装束3:聚光我有机会增添一些色彩,这是一个“聚光”造型。我认为这个颜色是基于我的选择!
GPT-2完成
装束2:休闲夹克
我知道有些人可能反对在穿高领衫时搭配运动鞋,但我想要忠于自己。因此,我选择了贴身高领衫,颜色与我当天最喜欢的颜色更为相近。总的来说,这是一款经典款式的高领衫,没有太花哨的地方。我确实换掉了我的鞋子,穿上了这双亚瑟士Tiger Killshots,我希望我没这么做。鞋子本身非常舒适,然而,我发现穿它们的时候,我的脚看起来有点大。我会搭配牛仔裤、斜纹软呢裤穿着,但绝不会独自穿着它们。有太多变数。
装束3:裙装
这是我穿亚瑟士Tiger Killshots的最后一套装束。这个版本的亚瑟士比较现代且线条流畅。我认为鞋子拥有最现代和最简约的设计!搭配大量黑色,这双运动鞋看起来非常酷。它们在夏季定会非常舒服。
在我看来,与西装搭配穿着是最简单的方式,有一双好的运动鞋。差不多就是这样。如果在穆斯林统治时期,西班牙的一些最辉煌的历史景点,包括作为哥多哈大清真寺而建造的Mezquita,以及同样位于哥多哈的现已成为废墟但仍可作为此类遗迹参观的梅地那阿何扎哈拉(即 Madinat al-Zahra,即al-Andalus 宫殿);还有格拉纳达的阿尔罕布拉宫,一座保存完好的宫殿。在穆斯林西班牙时期,还建有两座至今仍然矗立的犹太会堂:托莱多的Santa Maria la Blanca和哥多哈旧城的Córdoba会堂。
《雷科语》和帝国时代[编辑]
小型模型完成
穆斯林西班牙时代与世界其他地区非常不同,拥有相当广泛的中世纪历史。虽然西班牙帝国在公元前9世纪下半叶存在,但它在1150年以前缓慢地转变为一个较小的、世俗化的帝国,在一个更繁荣多样的状态下。在公元1050年时,那不勒斯的皇帝至少部分上因为一系列从西北海岸到该地区西海岸的战争和入侵(例如,在直布罗陀到西班牙南部的多瑙河上)被称为那不勒斯皇帝。他在过去几十年对恢复和维护帝国做出了巨大贡献,这是第一个向西传播的帝国。他的继承者是费迪南德,他在1148年从教皇宝座上夺取了权力,而第一个帝国继承人是瑞典的阿尔弗雷德二世国王。帝国再次成为欧洲大陆上少数独立国家之一,尽管在此期间领土上居住的人口不超过2亿,但人们对皇帝有很多话要说。从1720年起,穆斯林占据了西班牙人口的一半。
GPT-2完成
“复国运动”(字面意思是“回归国家”)的1092年和1095年见证了在伊比利亚半岛上建立了一个统一王国,包括卡斯蒂利亚和阿拉贡,穆斯林王朝将在其中存在。这是最后一次在欧洲,穆斯林统治被视为“本土”,也是基督教煽动和组织的冲突在欧洲显露头角的最后一次。
西班牙穆斯林摩尔人的统治,尤其是在非穆斯林中经常被称为“格拉纳达的征服”,有时西班牙也被称为“格拉纳达的西班牙”。穆斯林统治的最后几年,接着发生了西班牙复国运动,穆斯林被赶出或被迫离开伊比利亚半岛。在1189年3月的普瓦捷战役中费迪南德九世获胜后,和1187年由萨拉丁征服耶路撒冷之后。
当摩尔人北退时,西班牙的复国运动期结束。但是,直到复国运动时代恢复,当时从1229年至1492年复国运动持续时,摩尔人的统治才被基督教统治完全取代。
西班牙最后一个穆斯林国家格拉纳达,被粉红色幽灵的AI被设计为与红色幽灵的行为相反。粉红色幽灵实际上试图在吃豆人前方出现。这是通过将目标设置为吃豆人当前位置之前的4个图块来实现的,取决于吃豆人的移动方向。唯一的例外是当吃豆人向上移动时。由于代码中的溢出错误,计算包含了一个等于预期向上偏移量的向左偏移量。
采用吃豆人预期位置允许玩家利用粉红色幽灵的导航代码。这通常在吃豆人和粉红色幽灵距离很近时看到。例如,如果他们正对着对方移动,一旦他们相隔不到4个图块,目标图块现在就在粉红色幽灵后面。如果他在这种配置下遇到路口,他会尝试做一个“掉头”动作(通过转弯)来达到目标图块。
玩家会经常进行所谓的“欺骗性转向”,在粉红色幽灵接近路口时快速改变方向。通过在粉红色幽灵即将到达左侧时,他们会得到“正确”的方向。
如果位置实际上比吃豆人所在的位置更远,玩家不会响应幽灵的移动,而幽灵将返回到玩家当前的位置。这是因为吃豆人的移动不是靠转身完成的。
幽灵将不得不去另一个地方某种类型的地点以返回它开始的地方,这可以通过多种方式实现。它通常只是离开那个位置,比如如果吃豆人跳下悬崖,他将返回到他消失进太空之前的地点。这些幽灵路径可能的情况很多,但最明显的情况是如果玩家想避免在游戏中被抓住,目标就像是让吃豆人在游戏中待得尽可能长,比他原来时间的三分之一。
追逐
在吃豆人的情况下,这类似于吃豆人在战斗中“追赶”的方式。幽灵可以穿过敌人进行追逐。这对于吃豆人和他的AI都有多方面的用处。与大多数幽灵游戏不同的是,这个幽灵只是简单地朝着
正当要穿过路口时,吃豆人就能躲避幽灵的投掷物,并返回到安全屋的安全位置。
巴斯特
黄色幽灵的AI特别设计为试图避免吃豆人离开安全屋。玩家必须按空格键来揭示安全屋的门,然后进入其中找到躲在下一个房间的黄色幽灵。
玩家还必须注意,如果幽灵看到吃豆人已经在那里,幽灵不会试图离开安全屋。实际上,除非它们已经在安全屋里,否则幽灵根本不会尝试出去。这两种行为都是基于玩家并不总是在吃豆人(或闪烁)到达之前试图到达安全屋这个事实。
如果一个幽灵(或另一个玩家)已经在安全屋里并尝试在吃豆人或闪烁不在时尽快出去,玩家也必须警惕这个漏洞。这时,幽灵会试图以与“追逐”模式类似的方式离开安全屋。
吃豆人
有一些幽灵会跟随吃豆人。这些幽灵是内涵(WebText测试)
军士迈克尔•P•戈尔丁在1860年11月加入A连的时候,还是一位来自爱尔兰的未熟练劳工。戈尔丁幸存下来,度过了战争。同样来自爱尔兰的军士帕特里克·奥尼尔最初在1854年入伍,并在俄勒冈州的工连,第三美国炮兵团服役。他回到东海岸,并于1860年再次加入该连。奥尼尔一直服役到1874年,当时他被任命为纽约威利茨角国家公墓的管理员。军士本杰明•布朗是来自纽约州奥兰治县的鞋匠。1862年8月,他在新组建的第124纽约志愿兵团入伍,在当年10月,他是转入A连的六十一名男子之一。布朗于1864年2月在布兰迪站扎营时再次加入连队。完成役期后,他于1867年返回了平民生活。
1864年6月10日,技师威廉·柯林斯被提升为军士,这可能是为了填补詹姆斯河渡过战斗的领导空缺。柯林斯的服役记录并没有反映出他为获得这次晋升所展示的品质,但他显然克服了一些严重的问题。柯林斯出生于纽约的塞克茨港,1853年12月在22岁时加入了该连,并于1858年12月再次入伍。就在1861年4月战争爆发前的一个月,柯林斯“越过山丘”,直到三年后才被抓到。在1864年3月22日回到连队后,他因军事指控接受了审判,并从美国军队被释放。他回到连队,并在内战期间被分配到内政部门。
作为一名工程师,柯林斯还接受了他家乡纽约的工程培训。在联合工程学院研究生学习结束后,他在美国陆军工作了两年。在那里,他在丹尼尔。普费费尔上尉手下工作,并在1870年5月,即普费费尔上尉入伍三年后被提升为上校。柯林斯在第一师完成了第一年的工作后回到英国,接下来的两年在工兵团服役,并在第二年开始感受到了他的服役责任。
莫斯科,7月5日(路透社)-英国总部的俄罗斯国家媒体、政府消息来源和专家们表示,莫斯科试图淡化叙利亚反对派的“军事建设”,同时继续支持唐纳德•特朗普总统在美国-墨西哥边界建墙的计划,称之为“军事政变”。
美国领导的叙利亚战争老兵和叙利亚特使迈克尔·弗林(右),右边,与美国驻叙利亚政治分析家艾哈迈德·科里亚特在同一年的6月进行手势交流。因擅离职守被判枪决,但他仍在现役。
詹姆斯·J·达尔上尉1829年在弗吉尼亚州出生于革命时期,并于1836年加入了他父亲的军队。他一直在第二弗吉尼亚步兵团服役,直到1845年,然后他加入了西部预备役团;退伍后,他又与第25纽约志愿兵团的【连(该团在1845年约有4500名士兵)再次入伍。他的一个兄弟詹姆斯,也是以同样的身份在同一个旅中与他的连队服役。当团队在1846年留在康涅狄格时,达尔上尉在不同时间与I连一起服役。作为墨西哥战争的老兵,他曾在圣安东尼奥的约翰·J一沙利文准将手下服役两年。在1863年的半岛战役中,他指挥了一个由二十三人组成的连队,并负责五十四个重型追击炮的炮兵和炮舰平塔号的炮舰,以及其他几艘船。1865年秋,达尔上尉与I连在现役。两年后,他被晋升为二等尉。
上下文(WebText测试)
Xmonad、Xresources和字体
Xresources可能是一个非常头疼的问题(对我来说确实如此)。所以,这里有一些帮助:
首先,Xmonad中字体通常是通过 XFPT 处理的。Xf是XFreeType接口库,是一个处理 Xmonad/urxvt 中字体实际渲染的库(Xresources指定了一堆资源给那些在X窗口管理器下启动的东西。各个程序的设置在Xresources 里是这样指定的:Urxvt.background:background设置在这里)。
无论如何,使用Xresources中这种语法设置字体:
urxvt*font:xft:你的字体名字在这:size=字体大小在这,xf:备用字体1在这里
所以,这是urxvt通过Xresources 指定字体的最基本部分。
修复Cygwin中/.ssh/权限
我在Windows的Cygwin中发现,我无法将我的/.ssh/文件夹的权限设置为0600,这是ssh允许你使用密钥所必需的。我遇到的问题是,无论我做什么,它总是修改了所有者和组的权限被设置为/.ssh/,这就是当时的情况。这个问题不能完全解决。我发现,只要用鼠标键入用户名,然后试图将组的权限设为“0600”就更可行了,这就是我现在的系统配置。
不过,自Cygwin7在Linux上以来,我发现这样做对我的系统来说现在是“不必要的”!我还安装了一个叫做chroot的包。它通过允许你安装/升级到系统目录来实现这一点。
所以,从Windows8起,安装它可能需要chroot,所以我尝试了一番,发现在Linux 上安装包然后卸载它时,并不是那么糟糕。在我关于Cygwin的最后一篇写作中,只需运行脚本即可(sudo命令会完成剩下的工作),如果你尝试,你将不得不记录变更。
如果这还不够混乱,这就是我尝试的并且又回到了我的/.ssh/目录和chroot脚本。我发现我终于完全用完了权限(因为我忘记创建从文件系统到ssh的符号链接,使这些文件为只读。我尝试启动ssh,并使用passwd等程序来修改所有者/组的权限为0644,但没有用。这令人烦恼,但没有想象中那么糟糕,只是必须要调整权限才令人不安。
所以我决定反其道而行之:
对于你的Cygwin目录中的每一个.ssh文件夹,将每个文件和目录的权限设置为2644。然后启动ssh:ssh-add /.ssh/
你第一次连接时,你刚在Cygwin中拥有的/.ssh/文件夹的权限将被设置为0600。然后每次再次连接时,你的权限将更改为0644。
制作X资源文件的Makefile,如同在/.xsessionrc中使用的那样。在我的.xsessionrc中创建了以下内容:
.xprofile: .xsession-errors: color=""
例如:
.xprofile: color=blue
由于颜色存储在一个独立的文件中,所以在你的/.xsession-errors中的颜色会看起来像青色而不是蓝色。
这主要是因为,就目前而言,只有颜色被分配到了你的
环境(WebText测试)
亚伦非常喜欢薄荷巧克力蛋糕,但他要求必须搭配迷你巧克力碎片,所以我在夹层中撒了一些。我手头还有一些Peppermint Jo Jos,所以我也碾碎了一些,连同碾碎的蛋白饼干一起撒进去,因为,为什么不呢?这是一个薄荷巧克力碎片饼干脆皮的大杂烩。我没有称量我使用的每一种配料的量,但尝了成品后,我希望我当初加的更多。你可以加入任何你想要的东西——碎糖果手杖、薄荷糖皮等。而且不要怕多用一些。质地=好。
如果你没有7英寸的蛋糕模,你可以用这个
食谱来制作三层较矮的8英寸蛋糕。我制作了更长的版本,然后用模具上了一层奶油糖霜,把三分之一放进冰箱做顶层糖霜。只需确保你在做这个蛋糕前早点准备好所有的糖霜,这样你的蛋白就不用一直放在搅拌碗的底部等着了。
你想把蛋白打到硬性发泡吗?那么就把你的蛋糕盘放在一锅沸水上方,加热至刚刚温热。这不需要超过3-5分钟;只需要足够启动一下
食谱:如果你这样做了,而且你知道如何制作那个蛋糕,那么你的生活将永远改变。
当涉及到曲奇碎片或巧克力碎片时,我有两个非常简单的规则。1)当我买原糖时,我不会使用它,直到它冷却下来,并且至少有半茶匙的糖在上面。那是我的规则。2)如果我有一个食谱要求某种东西,而且我想在食谱中使用它,我不会在网上用其他东西替代它。就像这样。
我找到了这张非常可爱的卡片,上面有可爱的小猫咪
食谱:这很可能会产生相同数量的蛋糕。巧克力白脱牛奶蛋糕打印 巧克力蛋糕块,涂上白脱牛奶,在上面撒上碎巧克力,淋上巧克力酱。简单但和普通巧克力蛋糕有所变化!作者:Momma Made 配料对于巧克力白脱牛奶蛋糕11/2杯无盐黄油,室温
11/2杯细砂糖
3个大鸡蛋加1个蛋黄 对于巧克力浇头 1/3杯可可粉
1 3/4杯糖粉
6盎司半
食谱:蛋白饼干
1 3/4杯黄油,软化
1 杯糖
1个蛋黄
3汤匙重奶油
3 1/2-4杯面粉
少量盐
Peppermint-Jojo 顶层
1 1/4杯糖粉
1杯切碎的山核桃
1/2杯切碎的薄荷叶
1/2杯切碎的新鲜薄荷(约1/2张)
1茶匙薄荷提取物
1/4茶匙海盐
少量海盐
食谱:
我在圣诞节早晨的两次失败并不是因为糖霜技巧不好。那是另一个成功的故事。蛋糕湿润得漂亮,而且,说实话,就是一块漂亮的蛋糕。它几乎没有空气或湿气,但所有的巧克力和薄荷都混合得非常好。
有一件事让我有点不舒服,那就是所有这些成分一—蛋黄、糖、融化的黄油、巧克力碎片、融化的巧克力和薄荷——都必须直接混入蛋糕面糊中,这非常耗时。一位朋友建议,如果我把面糊放在另一个碗里,这将提供大约6-9份美味的巧克力蛋糕。为了防止你的蛋糕层粘在一起,我用了我的8英寸圆形塔特锅,用羊皮纸铺好,然后从中切出4个7英寸圆形蛋糕,并将层间隔开(这对于1层巧克力蛋糕也效果不错)。当你准备烘烤这个蛋糕时,取出羊皮纸,预热烤箱至350度,烘烤约30-40分钟,直到顶部呈金黄色且测试棒可以清洁取出。
巧克力白脱牛奶层蛋糕配 PeppermintJo
上下文(人类撰写):在一项令人震惊的发现中,科学家在安第斯山脉一个偏远且以前未被探索的山谷中发现了一群独角兽。对研究者们来说更加惊讶的是,独角兽们说一口完美的英语。
GPT-2:科学家根据它们独特的角,将这个群体命名为奥维德的独角兽。这些四角、银白色的独角兽此前为科学所未知。
现在,经过将近两个世纪,这一奇异现象的起因终于得到了揭晓。
来自拉巴斯大学的进化生物学家豪尔赫·佩雷斯博士和几位同伴在探索安第斯山脉时发现了一个小山谷,那里没有其他动物或人类。佩雷斯注意到山谷里似乎有一个天然泉水,被两座岩石和银白色的雪峰所环绕。
佩雷斯和他的同伴们随后深入山谷。佩雷斯表示:“当我们到达其中一个山峰的顶端时,水看起来是蓝色的,上面还有一些晶体。”
佩雷斯和他的朋友们惊奇地看到了独角兽群。这些生物可以从空中看到,而不必移动太多即可看到它们一—它们如此之近,以至于可以触碰它们的角。
在检查这些奇异生物时,科学家们发现,这些生物还能说相当标准的英语。佩雷斯说:“我们可以看到,例如,它们具有一种共同的‘语言’,有点像方言或辩证法。”
佩雷斯博士认为,独角兽可能起源于阿根廷,那里的动物被认为是在人类到达南美洲那些地区之前,那里居住的失落民族的后裔。
虽然它们的起源仍然不清楚,但有些人相信,或许这些生物是在人类文明之前,一个人类与一头独角兽相遇时创造出来的。按照佩雷斯的说法,在南美,这样的事件似乎相当常见。
然而,佩雷斯也指出,确切知道独角兽是否真的是失落外星种族的后代,唯一的方法可能是通过DNA。“但他们似乎能够相当流利地用英语交流,我相信这是进化的标志,或者至少是社会组织变化的标志。”科学家说。
文章:旧石器时代的人在今天的法国境内的一个洞穴里,在粗糙的石灰岩壁上素描了一系列史前野兽,那是36000年前的事了。
如今,在尖端技术的帮助下,那些在夏维缇瀑布洞穴(Chauvet-Pont-d’Arc Cave)中的艺术作品被复制,创造了世界上最大的复制洞穴。
这个名为Caverne du Pont-d' Arc的人造洞窟距原址不远,位于法国南部的瓦隆-庞特达尔克,内部包含了1000张经过精心复制的图画以及大约450块骨头和其他特征.….
洞穴男女在36000年前的粗糙石灰岩洞壁上绘制了一系列令人惊叹的史前野兽,如今已被复制出来(如图所示)
GPT-2:原位于法国南部瓦隆-庞特达尔克的洞穴是一个联合国教科文组织世界遗产,并且是人类已知的最古老且保存最好的有装饰的洞穴。复制洞穴建造在原址不远处的瓦隆-庞特达尔克。洞穴内有14种不同种类动物的图像,包括长毛犀、猛犸象和大型猫科动物
英语参考:
通过视频链接参加在伦敦举行的一个开放政府会议时,克里先生说:“毫无疑问,总统、我和政府中的其他人实际上已经得知了一些自动执行的事情,因为自二战以及冷战的非常艰难岁月,当然还有9/11事件后,能力一直都在那里。”
法语参考:在通过视频连线参加伦敦一场政府间会议时,克里先生声明:“不可否认的是,总统、我自己以及政府内的其他成员已经了解到了一些正在自动驾驶模式下发生的事情,因为自二战以及至冷战的艰难年代,以及显然是911事件,我们就有这种能力。”
GPT-2英语翻译:
在美国和伦敦之间的会议上,国务卿约翰·克里说:“毫无疑问,总统、我以及政府中的其他人已经意识到某些事情在过去被自动化地做出了选择,以便我们能够以更自动化的方式做某些事情。”
上下文(章节和之前的问题/答案对):
2008年夏季奥运会火炬接力赛从2008年3月24日持续到8月8日,在2008年夏季奥运会之前,主题为“同一个世界,同一个梦想”。火炬接力计划于2007年4月26日在中国北京公布。这次接力赛也被组织者称为“和谐之旅”,持续了129天,火炬距离达到137,000公里(85,000英里)——这是自1936年夏季奥运会开始传统以来,任何奥运火炬接力赛的最长距离。
火炬在3月24日于奥林匹亚点燃,这是奥运会的发源地,在希腊,火炬随后前往雅典的帕纳辛纳科体育场,然后于3月31日到达北京。从北京开始,火炬沿着穿越六大洲的路线传递。火炬访问了丝绸之路沿线的城市,象征着中国与世界其他地区的古老联系。接力赛还包括了一次用火炬登顶珠穆朗玛峰的活动,这是在尼泊尔和中国西藏交界处的中方一侧,特地为此活动关闭。
Q:主题是什么?
A:“同一个世界,同一个梦想”。
Q:比赛的长度是多少?
A:137,000公里
Q:它比以前的更长吗?
A:不是
Q:比赛从哪里开始?
A:奥林匹亚,希腊
Q:那个地方有什么值得注意的吗?
A:奥运会的发源地
Q:他们之后去了哪里?
A:雅典
Q:比赛持续了多少天?
A:七天
Q:他们参观了哪些值得注意的地标?
A:帕纳辛纳科体育场
Q:他们爬过山吗?
A:
模型答案:珠穆朗玛峰
土耳其答案:未知,是的,是的,是的
上下文(章节和之前的问题/答案对):
汤姆随处陪伴着54岁的秘书凯瑟琳•格林。他在工作时在她办公室里走动,陪她购物。凯瑟琳说:“大多数人似乎并不介意汤姆,”她认为他很棒。“他是我的第四个孩子,”她这样说。她可能会这样看待他并把他当作儿子。他会四处走动买食物,支付健康账单和税费,但实际上汤姆是一只狗。
凯瑟琳和汤姆生活在瑞典,这是一个国家,每个人都按照政府制定的规则有序地生活,政府也为人民提供高水平的照顾。这种照顾需要金钱。
瑞典人对所有东西都要纳税,所以当他们发现拥有一只狗意味着要交更多的税时并不惊讶。有些人每年为了养狗的权利花费多达500瑞典克朗的税,这些税收被政府花费在狗医院上,有时还用于治疗生病的狗。然而,大多数这种治疗都很昂贵,因此主人常常决定为他们的狗提供健康甚至生命。
在瑞典,狗主人必须为自己的狗造成的任何损害付费。瑞典养狗俱乐部的官员解释说这意味着什么:如果你的狗闯到路上被经过的车撞到,你作为主人,必须支付对车造成的任何损害,即使你的狗在事故中被撞死了。
Q:凯瑟琳多大了?
A:54岁
Q:她住在哪里?
A:
模型答案:斯德哥尔摩
土耳其答案:瑞典,瑞典,瑞典,瑞典。
 
图5:对于WebText测试集和样本(以WebText测试集为条件,k=40的top-k截断随机抽样),CDF与WebText训练集的重叠百分比为8-gram。大多数样本的重叠小于1%,包括30%以上没有重叠的样本,而测试集的中位数为2.6%重叠
表 7.最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 7.最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 8.最小(左)和最大(右)模型的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 8.最小(左)和最大(右)模型的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表9.最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表9.最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 10:最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 10:最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 11.最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 11.最小(左)和最大(右)模型中的随机未见上下文(上)和非樱桃挑选的补全。上下文为768个词组,其中显示了约256个词组的段落。
表 12:GPT-2中从同一上下文(WebText 测试)中生成的非樱桃选取的完形填空,上下文为384个词组(截断显示),各代为128个词组。
表 12:GPT-2中从同一上下文(WebText 测试)中生成的非樱桃选取的完形填空,上下文为384个词组(截断显示),各代为128个词组。
表 13:GPT-2.Cherry 选取 10个k=40的样本,对超出分布范围的情况进行条件生成。
表 13:GPT-2.Cherry 选取 10个k=40的样本,对超出分布范围的情况进行条件生成。
表14.GPT-2 生成的摘要以及CNN 和《每日邮报》数据集测试集上的参考摘要。
表14.GPT-2 生成的摘要以及CNN 和《每日邮报》数据集测试集上的参考摘要。
表15:GPT-2生成的英语到法语和法语到英语的翻译
表15:GPT-2生成的英语到法语和法语到英语的翻译
表16:选定的CoQA完成
表16:选定的CoQA完成
表17:选定的CoQA完成
表17:选定的CoQA完成
 
  • 工具
  • ubuntu git log 中文乱码残差网络ResNet论文翻译
    Loading...
    目录