彩神提现多久到账官方技惊四座的BERT全靠数据集?大模型霸榜或许是学界的灾难

  • 时间:
  • 浏览:2

作为 2018 年自然彩神提现多久到账官方语言解决领域的新秀彩神提现多久到账官方,BERT 是过去几年自然语言解决(NLP)领域的集大成者,一经出场就技惊四座,碾压所有算法,刷新了 11 项 NLP 测试的最高纪录,甚至有「超越人类」的表现,它被认为是未来 NLP 研究和工业应用最为主流的语言模型之一。

然而最近台湾国立成功大学的一篇论文却给亲戚亲戚朋友泼了冷水。许多研究认为,BERT 要花费彩神提现多久到账官方在 ARCT 任务上利用了不正常的统计线索。正是哪几种统计线索,BERT 也能获得极好的效果,不可能 在不改变原数据的清况 下去除不正常的线索,BERT 甚至不如随机猜测。

此言一出,立即引发了机器学习社区的强烈反响,在研究社区包含人评价道:「我非常喜欢这篇论文,它用简单有效的方法表明哪几种模型这么被正确地『理解』,假若只使用了简单的(错误的)统计线索。我认为大多数人(不可能 除了伊隆·马斯克)都很清楚,这过后 BERT 模型所做的事情。然而,目前有关 BERT 在少量标签清况 下的改进版仍层出不穷。」

毫无问提,BERT 的研究很有价值,但目前的许多基准测试不可能 已被证明并这么效果。当亲戚亲戚朋友看完 BERT「解决」了许多任务的消息时,看起来就像亲戚亲戚朋友不可能 解决了 NLP 问提,哪几种事件不可能 形成了浮夸的风气,值得亲戚亲戚朋友担忧。

首先,是事先 重新审视一下当今的 NLP Benchmark 现状了。

NLP 是这么活跃的一一另一个 开发领域,其热度的不断增加离不开各种排行榜:哪几种排行榜是多个共享任务、基准系统的核心,如 GLUE 基准以及 SQUAD、AllenAI 等单独的数据集。哪几种排行榜激发了工程团队之间的竞争,帮助其开发出更好的模型来解决人类自然语言解决问提。但事实真的是另一一另一个吗?麻省大学博士后 Anna Rogers 就许多问提表达了她的观点。

排行榜有哪几种错?

通常来讲,NLP 领域的排行榜都是下图许多样子:

网上和学术论文中的排行榜(将所提出的模型和基准模型进行对比)都遵循以上许多格式。

如今,用模型的测试性能来评估其算不算新颖或有趣是远远地处问题的,但排行榜恰恰展示的也能许多点。不可能 厚度学习的范围这么之广,充满各种不同的架构,假若好难找出标准方法来衡量模型参数、训练数据等额外信息。在论文中,哪几种细节有时写在方法累积,有时总出 在附录或 GitHub repo 的评论里,不可能 直接就这么提。在哪几种在线排行榜中,每个系统的细节过都可否 从论文链接(若有励志的话 )或 repo 的代码中找到。

在许多越发忙碌的世界里,不可能 都是为了评审和复现,亲戚亲戚朋友包含几次人会真正去找哪几种细节呢?哪几种简单的排行榜不可能 提供了亲戚亲戚朋友最关心的信息,即哪几种是最新的 SOTA。亲戚亲戚朋友通常懒得思考,不用去批判性地接收哪几种信息,即使在提醒快一点 总出 的事先 也会取舍忽略。不可能 亲戚亲戚朋友不得不积极地去找到哪几种警示信号……好吧,根本不用可能 。冠军模型在 twitter 上爆红,不可能 都是在盲审中得到许多好处。

许多 SOTA 至上方法的危害也引发了这么来越多这么来越多 讨论。不可能 读者眼里也能排行榜,那研究者就会认为:也能击败 SOTA 才是有价值的研究。另一一另一个的想法带来了一大批水论文,它们的性能提升非常有限,假若这么来越多这么来越多 无法复现(Crane, 2018)。这也给哪几种做同样任务的研究者带来了许多问提,亲戚亲戚朋友的模型这么达到 SOTA,假若会着实 连论文都没必要写。

GLUE 基准当前排名,上面每一一另一个 模型成本都非常大,基本都是一般研究者能复现的。

本文旨在探讨排行榜最近带来的另一一另一个问提。其成因非常简单:从根本上来说,模型性能的提升不可能 基于多个原应 ,要么是从可用的数据中构建了更好的表征,要么过后用了更多的数据或更深的网络。问提是,不可能 一一另一个 模型用了更多的数据/计算,亲戚亲戚朋友就好难找出其性能提升的真正原应 。

最流行的排行榜现在由基于 Transformer 的模型地处。在横扫各大排行榜数月事先 ,BERT 在 NAACL 2019 大会上获得了最佳论文奖。最近,XLNet 又过后者居上,在 20 项任务上碾压 BERT,成为新的预训练模型 SOTA。许多的 Transformers 模型还包括 GPT-2、ERNIE 等。

问提在于:哪几种模型都很大。着实 代码是开源的,但复现哪几种结果或创造可与之匹敌的模型所需的算力都是一般实验室都需要承担的。相似,XLNet 的训练 token 达到了 32B,需要使用 128 个 Cloud TPU 训练 2 天,费用超过 6.14 万美元。单单过后微调模型也非常昂贵。

另一一另一个的排行榜真的还 OK?

但一方面,许多趋势看起来又是可预测,甚至是必然的:拥有较多资源的用户会想法设法利用更多资源来实现更好的性能。他们甚至认为大模型证明了自身的可扩展性,并实现了厚度学习跟生俱来的潜力,即也能基于更多信息学习到更简化的模式。这么人知道解决特定 NLP 任务时到底需要几次数据,但数据这么来越多应该效果越好,假若限制数据似乎会适得其反。

从此观点来看——从现在事先 刚结速,似乎也能业界也能做顶层 NLP 研究。学者们也能通过获得更多资助或与高性能计算中心合作来提升他们的参与度。此外,亲戚亲戚朋友还都需要转向分析,在业界提供的大模型之上构建许多东西不可能 创建数据集。

假若,就 NLP 的整体进展而言,这或许都是最好的取舍。

为哪几种「大模型+排行榜=灾难」?

简单来讲,大模型的主要问提在于:「更多数据和计算带来的 SOTA 结果」并都是真正的研究进展(「More data & compute = SOTA」is NOT research news)。

排行榜的目的在于显示真正的进步,这么亲戚亲戚朋友需要着眼于提出新架构。很明显,大型预训练模型是珍贵的,假若除非作者证明亲戚亲戚朋友的系统在使用同等规模数据和算力时性能优于许多模型,假若好难判断亲戚亲戚朋友展示的是模型还是资源。

此外,该研究相当程度上是不可复现的:这么会花 6.14 万美元复现 XLNet 训练。其控制变量测试表明 XLNet 在 3 个数据集上的性能仅比 BERT 高出 1-2%,假若亲戚亲戚朋友实际上这么来越多清楚其 masking 策略算不算比 BERT 更成功。

一并,学习器模型的开发并未被推动,不可能 其面临的基础任务更难,而看重排行榜的社区只关注 SOTA。这最都是让学术团队付出代价,学生毕业时不可能 无法成为更好的工程师。

最后,大型厚度学习模型通常过参数化。相似,BERT 的较小版本在少量语法测试实验中的得分高于大型版本。厚度学习模型需要少量算力这件事五种这么来越多一定是坏事,但浪费算力对环境是这么益处的。

BERT 不过是统计拟合

除了对数据与算力的质疑,台湾国立成功大学的研究者近日发表了一篇新论文,亲戚亲戚朋友重新探讨了神经网络在理解自然语言中的作用。研究者首先发现 BERT 在 Argument Reasoning Comprehension Task 中性能极好,且只比人类基线水平低 3 个百分点。假若进一步研究却发现,该结果过后利用数据集中的统计线索得出。这么来越多这么来越多 不可能 针对哪几种线索做个对抗数据集,这么模型的效果不用比随机猜强几次。

  • 论文:Probing Neural Network Comprehension of Natural Language Arguments

  • 论文地址:https://arxiv.org/pdf/1907.07355.pdf

这项研究是在论证推理理解(ARCT)许多任务上测试的,许多任务还是挺难的,相似简单的论证「今天会下雨,这么来越多这么来越多 要带伞。」,它潜在的前提即「淋湿是不好的」。而 ARCT 解决直接理解潜在前提,并将重心放上了推断上,如下所示为 ARCT 任务的一一另一个 数据点:

ARCT 测试集中的一一另一个 样本,模型需要从 Reason 和 Warrant 推断出 Claim。相似「亲戚亲戚朋友都需要取舍不使用谷歌,且其它搜索引擎过都可否 重定向到谷歌,这么谷歌就都是寡头垄断」。

BERT 另一一另一个的预训练模型能在该数据集上获得 77% 的准确率,只比正常人类基线水平低一一另一个 百分点。不可能 这么足够的通用知识,它能获得这么好的效果是不科学的,假若研究者继续探索 BERT 在该任务中学到了哪几种。

许多探索也都是这篇论文开启的,先前不可能 有这么来越多这么来越多 研究试图探索 BERT 的决策过程。但研究者发现 BERT 会搜索 warrant 中的线索词,相似 not 等。这也就表明,BERT 这么优秀的性能都将归功于探索许多「伪」统计线索。

不可能 亲戚亲戚朋友取推论的逆否命题,这么都是不可能 去除哪几种不正常的统计线索,也就能构建对抗样本了。在另一一另一个的的对抗数据集上,BERT 也能实现 53% 的准确率,差这么来越多是随机猜测的概率了。此外,不可能 这么来越多这么来越多 模型实际上也都是发现另一一另一个的不正常统计线索,该对抗数据集能作为更多的度量方法。如下所示为上面 ARCT 案例的对抗样本:

亲戚亲戚朋友只需要按照逻辑改变「Not」相似的词,模型就解决不了了。BERT 在另一一另一个的对抗数据集也能获得如下效果:

从另一一另一个的实验结果都需要看出,BERT 相似模型很大程度上都是拟合许多不正常的统计线索。但毋庸置疑的是,BERT 的拟合建模能力还是非常强的,远远超过了 BiLSTM 相似的模型。研究者在最后表示,除了 GLUE 另一一另一个的基准,对抗数据集也应该被采用为标准的度量方法,并为模型性能提供更鲁棒的评估标准。

不可能 的解决方案

对 NLP 排行榜的追捧正将亲戚亲戚朋友置于危险的境地,它让亲戚亲戚朋友放弃了可复现性的目标,只看完谷歌的某个模型在几次月事先 超越了另一一另一个模型。为了解决许多清况 再次地处,排行榜需要做出改变。

大体上有五种不可能 的解决方案:

对于某一特定任务而言,亲戚亲戚朋友应该都需要提供一一另一个 标准的训练语料库,并将计算量限制在强大基线模型所使用的范围内。不可能 基线相似于 BERT,这将激励研究者进一步开发也能更好利用资源的模型。不可能 一一另一个 系统利用预训练表征(词嵌入、BERT 等),则最后得分应该将预训练数据的大小考虑进来。

对于像 GLUE 另一一另一个的一整组任务而言,亲戚亲戚朋友都需要令参与者使用亲戚亲戚朋友我我想要的所有数据和计算,但需要将它们考虑进最后得分之中。排行榜不应只体现模型相对于基线的性能提升,还应列出其利用的资源量。

这五种方法都需要五种可靠的方法来估测算力消耗,要花费都需过后任务组织者估计的推理时间。Aleksandr Drozd(RIKEN CCS)认为方法是仅报告 FLOP 计数,这在 PyTorch 和 TensorFlow 等框架中不可能 都需要实现。亲戚亲戚朋友或许也都需要为接收厚度学习模型的共享任务建立通用的服务,在一批数据上训练一一另一个 epoch,为研究人员提供估测数字。

评估训练数据也都是一一另一个 简单的任务:纯文本语料库的价值应该低于带注释的语料库或 Freebase。这或许是都需要进行测量的。相似,非型态化数据应该可被估测为原始 token 计数 N、aN 另一一另一个的增强/解析数据和 N^2 另一一另一个的型态化数据作为索引。

与上述相反的一一另一个 论点是,许多模型五种不可能 需要比许多模型更多的数据,且也能在大规模实验中也能获得合理的评估。但即使在许多清况 下,一篇令人信服的论文也需要展示新模型也能比许多模型更好地利用少量数据,亲戚亲戚朋友也需要对所有模型在相同的数据上做多轮训练。

近几次月来,亲戚亲戚朋友不断看完 NLP 领域的新进展,每隔几次月都是总出 更新、更强大的模型,实现不切实际的结果。但每当亲戚亲戚朋友事先 刚结速检视数据集的事先 就会发现:着实 哪几种模型根本这么学到任何知识。亲戚亲戚朋友是事先 从模型优化的工作上后退一步,仔细研究哪几种数据集,以及它们的真正意义了。

【编辑推荐】

【责任编辑:

张燕妮

TEL:(010)68476306】



点赞 0