中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享
发布日期:2021-06-30 22:43:40 浏览次数:2 分类:技术文章

本文共 2628 字,大约阅读时间需要 8 分钟。

    本资源整理了中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。本文选择一系列有一定代表性的任务对应的数据集,做为测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

    本资源整理自网络,源地址:https://github.com/brightmart/ChineseGLUE

 

ChineseGLUE的定位

    为更好的服务中文语言理解、任务和产业界,做为通用语音模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展

 

为什么我们需要一个中文任务的基准测试?

    首先,中文是一个大语种,有其自身的特定、大量的应用。

    如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。

    中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。

    其次,相对于英文的数据集,中文的公开可用的数据集还比较少。

     很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。

    再次,语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。

     不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,

导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。

    那么,如果有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展,

     能缓解当前中文任务的一些问题,并促进相关应用的发展。

 

中文任务的基准测试-内容体系

    1)中文任务的基准测试,覆盖多个不同程度的语言任务

    2)公开的排行榜

    3)基线模型,包含开始的代码、预训练模型

    4)语料库,用于语言建模、预训练或生成型任务

 

数据集介绍与下载

    1. LCQMC 口语化描述的语义相似度任务

    输入是两个句子,输出是0或1。其中0代表语义不相似,1代表语义相似。

        数据量:训练集(238,766),验证集(8,802),测试集(12,500)

    例子:
     1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
     2.飞行员没钱买房怎么办?[分隔符] 父母没钱买房子 [分隔符] 0

 

    2. XNLI 语言推断任务

    跨语言理解的数据集,给定一个前提和假设,判断这个假设与前提是否具有蕴涵、对立、中性关系。

        数据量:训练集(392,703),验证集(?),测试集(?)

    例子:
     1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符]     neutral
     2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令   [分隔符] entailment
    原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。

 

    3.TNEWS 今日头条中文新闻(短文本)分类

        数据量:训练集(266,000),验证集(57,000),测试集(57,000)

    例子:
     6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
    每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词

 

    4. 更多数据集添加中,Comming soon!

    更多数据集添加中,目标是8个覆盖不同任务的有代表性的数据集。

 

数据集下载

    或使用命令:

    wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

 

基准测评-排行榜

    TODO 此处将会被指向到一个排行榜的网站地址

 

语料库:语言建模、预训练或生成型任务

    可用于语言建模、预训练或生成型任务等,数据量超过10G,主要部分来自于nlp_chinese_corpus项目

    当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。

    包含如下子语料库(总共14G语料):

    1、新闻语料: 8G语料,分成两个上下两部分,总共有2000个小文件。

    2、社区互动语料:3G语料,包含3G文本,总共有900多个小文件。

    3、维基百科:1.1G左右文本,包含300左右小文件。

    4、评论数据:2.3G左右文本,含有811个小文件,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。

    这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;

    你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;

    如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。

   

参考文献

    1、GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

    2、SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

    3、LCQMC: A Large-scale Chinese Question Matching Corpus

    4、XNLI: Evaluating Cross-lingual Sentence Representations

    5、TNES: toutiao-text-classfication-dataset

    6、nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP</>

    7、ChineseNLPCorpus</>

往期精品内容推荐

转载地址:https://lqfarmer.blog.csdn.net/article/details/102873107 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:概率->机器学习->文本挖掘->NLP技术路线图进阶路线规划
下一篇:互联网技术面试最后反问面试官思路及问题整理分享

发表评论

最新留言

留言是一种美德,欢迎回访!
[***.207.175.100]2024年04月06日 04时09分19秒