本站公告

  • 版权说明:网站所有内容均来自互联网用户共享内容,不代表小新棋牌登录立场,若侵犯您的权益,请与我们联系。

  • 投诉/建议:欢迎与小新棋牌登录合作、投诉、建议,意见可以发送详细内容至邮件:67801662@qq.com

集合啦,NLP数据增强技术!超全资源汇总

白交 发自 凹非寺

量子位 报道 | 公众号 QbitAI

@AnsonB@SEO@数据增强技术已经是CV领域的标配,比如对图像的旋转、镜像、高斯白噪声等等。

但在NLP领域,针对文本的数据增强,却是不那么多见。

@AnsonB@SEO@于是,就有一位机器学习T型工程师,在现有的文献中,汇总一些NLP数据增强技术。

@AnsonA@SEO@妥妥干货,在此放送。

文本替代

@AnsonC@SEO@文本替代主要是针对在不改变句子含义的情况下,替换文本中的单词,比如,同义词替换、词嵌入替换等等。

接着,我们就来好好介绍一下。

同义词替换

顾名思义,就是在文本中随机抽取一个单词,然后再同义词库里将其替换为同义词。

比如,使用 WordNet数据库,将「awesome」替换为「amazing」。

这个技术比较常见,在以往的论文中有很多都使用了这个技术,比如,

Zhang et al.「Character-level Convolutional Networks for Text Classification」

论文链接:https://arxiv.org/abs/1509.01626

Wei et al. 「EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks」

论文链接:https://arxiv.org/abs/1901.11196

要实现这项技术,可通过NLTK对WordNet进行访问,还可以使用TextBlob API。

此外,还有一个 PPDB数据库,包含着百万个单词的词库。

词嵌入替换

这种方法是,采取已经预训练好的单词嵌入,如Word2Vec、GloVe、FastText、Sent2Vec等,并将嵌入空间中最近的邻接词作为句子中某些单词的替换。

比如:

这样,就可以将单词替换成临近的3个单词,获得文本的3种变体形式。

掩码语言模型(MLM)

类似于BERT、ROBERTA、ALBERT,Transformer模型已经在大量的文本训练过,使用掩码语言模型的前置任务。

在这个任务中,模型必须依照上下文来预测掩码的单词。此外,还可以利用这一点,对文本进行扩容。

跟之前的方法相比,生成的文本在语法上会更加连贯。

但是,需要注意的是,决定掩盖哪一个单词并非易事,它决定了效果的最终呈现。

基于TF-IDF的单词替换

这一方法最初是出现在Xie et al.「Unsupervised Data Augmentation for Consistency Training」。

论文链接:https://arxiv.org/abs/1904.12848

基本思路在于TF-IDF得分低的单词是没有信息量的的词,因此可以替换,而不影响句子的原本含义。

通过计算整个文档中单词的 TF - IDF得分并取最低得分来选择替换原始单词的单词。

反向翻译

反向翻译,就是先将句子翻译成另一种语言,比如,英语翻译成法语。

然后再翻译回原来的语言,也就是将法语翻译回英语。

(责任编辑:小新棋牌登录)