十六、大话自然语言处理中的囊中取物
发布日期:2021-10-02 10:16:31 浏览次数:9 分类:技术文章

本文共 1338 字,大约阅读时间需要 4 分钟。


大数据风靡的今天,不从里面挖出点有用的信息都不好意思见人,人工智能号称跨过奇点,统霸世界,从一句话里都识别不出一个命名实体?不会的,让我们大话自然语言处理的囊中取物,看看怎么样能让计算机像人一样看出一句话里哪个像人、哪个像物

请尊重原创,转载请注明来源网站以及原始链接地址

本篇故事纯属酒后性情大作,如有巧合,纯属雷同

话说天下大事,分久必合,合久必分。

 

之前谈到中文分词把文本切分成一个一个词语,现在我们要反过来,把该拼一起的词再拼到一起,找到一个命名实体,比如:“亚太经合组织”

 

条件随机场的用武之地

上回书说到,概率图模型中的条件随机场适用于在一定观测值条件下决定的随机变量有有限个取值的情况,它特殊就特殊在给定观察序列X时某个特定的标记序列Y的概率是一个指数函数exp(∑λt+∑μs),这也正符合最大熵原理。基于条件随机场的命名实体识别方法属于有监督的学习方法,需要利用已经标注好的大规模语料库进行训练,那么已经标注好的语料里面有什么样的特征能够让模型得以学习呢?

 

谈命名实体的放射性

为什么说命名实体是有放射性的呢?举个栗子:“中国积极参与亚太经合组织的活动”,这里面的“亚太经合组织”是一个命名实体,定睛一瞧,这个实体着实不凡啊,有“组织”两个字,这么说来这个实体是一种组织或机构,记住,下一次当你看到“组织”的时候和前面几个字组成的一定是一个命名实体。继续观察,在它之前辐射出了“参与”一次,经过大规模语料训练后能发现,才“参与”后面有较大概率跟着一个命名实体。继续观察,在它之后有“的活动”,那么说明前面很可能是一个组织者,组织者多半是一个命名实体。这就是基于条件随机场做命名实体识别的奥秘,这就是命名实体的放射性

 

特征模板

前面讲了放射性,那么设计特征模板就比较容易了,我们采用当前位置的前后n个位置上的字/词/字母/数字/标点等作为特征,因为是基于已经标注好的语料,所以这些特征是什么样的词性、词形都是已知的。

特征模板的选择是和具体我们要识别的实体类别有关系的,识别人名和识别机构名用的特征模板是不一样的,因为他们的特点就不一样,事实上识别中文人名和识别英文人名用的特征模板也是不一样的,因为他们的特点就不一样

 

且说命名实体

前面讲了一揽子原理,回过头来讲讲命名实体是什么,命名实体包括:人名(政治家、艺人等)、地名(城市、州、国家、建筑等)、组织机构名、时间、数字、专有名词(电影名、书名、项目名、电话号码等)、……。其实领域很多,不同人需求不一样,关注的范围也不一样。总之不外乎命名性指称、名词性指称和代词性指称

 

自古英雄周围总有谋士

基于条件随机场的命名实体方法虽好,但如何利用好还是需要各路谋士献计献策。有的人提出通过词形上下文训练模型,也就是给定词形上下文语境中产生实体的概率;有的人提出通过词性上下文训练模型,也就是给定词性上下文语境中产生实体的概率;有的人提出通过给定实体的词形串作为实体的概率;有的人提出通过给定实体的词性串作为实体的概率;当大家发现这四点总有不足时,有谋士提出:把四个结合起来!这真是:英雄代有人才出,能摆几出摆几出啊

 

语料训练那些事儿

语料训练那些事儿,且看我机器学习教程相关文章《》,预知后事如何,下回我也不分解了

转载地址:https://blog.csdn.net/jiangjingxuan/article/details/54729134 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:十七、让机器做词性自动标注的具体方法
下一篇:十五、一篇文章读懂拿了图灵奖和诺贝尔奖的概率图模型

发表评论

最新留言

不错!
[***.144.177.141]2024年03月21日 02时34分00秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

Java EE实用教程( 第 3 版 )独立完成教材第86页实例3.14 2019-04-26
Java EE实用教程( 第 3 版 )使用Struts2标签设计一个电子商务网站用户注册界面 2019-04-26
2019 ACM训练计划——( 每天5题 ) 训练计划19【博弈:可以排序的字符串回文问题 + 贪心:最小二进制和 +几乎素数】 2019-04-26
Codeforces Round #300, problem: (B) Quasi Binary 【贪心+二进制位数上升】 2019-04-26
Codeforces Round #169 (Div. 2), problem: (B) Little Girl and Game【久违的博弈题:可以排序的字符串回文问题】 2019-04-26
Codeforces Beta Round #26 (Codeforces format), problem: (A) Almost Prime 【数组判断几乎素数】 2019-04-26
2019 ACM训练计划——( 每天5题 ) 训练计划20 【gcd求等差数列公差 + strstr函数判断字符串子串】 2019-04-26
Codeforces Round #595 (Div. 3), problem: (A) Yet Another Dividing into Teams 【math + 贪心排序 +要么1 要么2】 2019-04-26
2020 零基础 Vue快速入门 Vue2.0使用ES6语法的箭头函数=> 对this作用域的理解 【整理】 2019-04-26
2020 零基础 Vue快速入门 Vue项目中引入外部css以及js文件的方法 【整理】 2019-04-26
2020 零基础 Vue快速入门 教开发天气查询网页—天知道(激发编程乐趣)【整理+源码】 2019-04-26
2020 零基础 Vue综合应用 教开发音乐播放器—悦听(激发编程乐趣)【整理+源码】 2019-04-26
2020 零基础 Vue快速入门 内置组件 component 的用法 2019-04-26
2020 零基础 Vue快速入门 npm和cnpm安装指令大全 2019-04-26
2020 零基础到快速开发 Vue全家桶开发电商管理系统(Element-UI)【目录】 2019-04-26
2020 零基础到快速开发 Vue全家桶开发电商管理系统(Element-UI)项目概述篇 2019-04-26
2020 零基础到快速开发 Vue全家桶开发电商管理系统(Element-UI)项目初始化篇 2019-04-26
2020 零基础到快速开发 Vue全家桶开发电商管理系统(Element-UI)【添加用户】 2019-04-26
2020 零基础到快速开发 Vue全家桶开发电商管理系统(Element-UI)【删除用户】 2019-04-26
2020 零基础教 git指令 关于创建分支与合并到master的指令 【整理】 2019-04-26