中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享-白红宇的个人博客

中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享

发布日期：2021-06-30 22:43:40 浏览次数：2 分类：技术文章

本文共 2628 字，大约阅读时间需要 8 分钟。

本资源整理了中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。本文选择一系列有一定代表性的任务对应的数据集，做为测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

本资源整理自网络，源地址：https://github.com/brightmart/ChineseGLUE

ChineseGLUE的定位

为更好的服务中文语言理解、任务和产业界，做为通用语音模型测评的补充，通过完善中文语言理解基础设施的方式来促进中文语言模型的发展

为什么我们需要一个中文任务的基准测试？

首先，中文是一个大语种，有其自身的特定、大量的应用。

如中文使用人数近14亿，是联合国官方语言之一，产业界有大量的的朋友在做中文的任务。

中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游任务。

其次，相对于英文的数据集，中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的；多数的论文描述的模型是在英文数据集上做的测试和评估，那么对于中文效果如何？不得而知。

再次，语言理解发展到当前阶段，预训练模型极大的促进了自然语言理解。

不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同任务上的公开测试，

导致技术的发展和应用还有不少距离，或者说技术应用上的滞后。

那么，如果有一个中文任务的基准测试，包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展，

能缓解当前中文任务的一些问题，并促进相关应用的发展。

中文任务的基准测试-内容体系

1）中文任务的基准测试，覆盖多个不同程度的语言任务

2）公开的排行榜

3）基线模型，包含开始的代码、预训练模型

4）语料库，用于语言建模、预训练或生成型任务

数据集介绍与下载

1. LCQMC 口语化描述的语义相似度任务

输入是两个句子，输出是0或1。其中0代表语义不相似，1代表语义相似。

数据量：训练集(238,766)，验证集(8,802)，测试集(12,500)

    例子：
     1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
     2.飞行员没钱买房怎么办？[分隔符] 父母没钱买房子 [分隔符] 0

2. XNLI 语言推断任务

跨语言理解的数据集，给定一个前提和假设，判断这个假设与前提是否具有蕴涵、对立、中性关系。

数据量：训练集(392,703)，验证集(？)，测试集(？)

    例子：
     1.从概念上看 , 奶油收入有两个基本方面产品和地理 .[分隔符] 产品和地理是什么使奶油抹霜工作 . [分隔符]     neutral
     2.我们的一个号码会非常详细地执行你的指示 [分隔符] 我团队的一个成员将非常精确地执行你的命令   [分隔符] entailment
    原始的XNLI覆盖15种语言（含低资源语言）。我们选取其中的中文，并将做格式转换，使得非常容易进入训练和测试阶段。

3.TNEWS 今日头条中文新闻（短文本）分类

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)

    例子：
     6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
    每行为一条数据，以_!_分割的个字段，从前往后分别是新闻ID，分类code，分类名称，新闻字符串（仅含标题），新闻关键词

4. 更多数据集添加中，Comming soon!

更多数据集添加中，目标是8个覆盖不同任务的有代表性的数据集。

数据集下载

或使用命令：

wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

基准测评-排行榜

TODO 此处将会被指向到一个排行榜的网站地址

语料库：语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等，数据量超过10G，主要部分来自于nlp_chinese_corpus项目

当前语料库按照【预训练格式】处理，内含有多个文件夹；每个文件夹有许多不超过4M大小的小文件，文件格式符合预训练格式：每句话一行，文档间空行隔开。

包含如下子语料库（总共14G语料）：

1、新闻语料: 8G语料，分成两个上下两部分，总共有2000个小文件。

2、社区互动语料：3G语料，包含3G文本，总共有900多个小文件。

3、维基百科：1.1G左右文本，包含300左右小文件。

4、评论数据：2.3G左右文本，含有811个小文件，合并ChineseNLPCorpus的多个评论数据，清洗、格式转换、拆分成小文件。

这些语料，你可以通过上面这两个项目，清洗数据并做格式转换获得；

你也可以通过邮件申请（chineseGLUE#163.com）获得单个项目的语料，告知单位或学校、姓名、语料用途；

如需获得ChineseGLUE项目下的所有语料，需成为ChineseGLUE组织成员，并完成一个（小）任务。

参考文献

1、GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

2、SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

3、LCQMC: A Large-scale Chinese Question Matching Corpus

4、XNLI: Evaluating Cross-lingual Sentence Representations

5、TNES: toutiao-text-classfication-dataset

6、nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP</>

7、ChineseNLPCorpus</>

往期精品内容推荐

转载地址：https://lqfarmer.blog.csdn.net/article/details/102873107 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：概率->机器学习->文本挖掘->NLP技术路线图进阶路线规划

下一篇：互联网技术面试最后反问面试官思路及问题整理分享

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章