基本概念

信息抽取是一个宽泛的概念，指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库，所以可以利用海量的非结构化文本。

信息抽取 => 按照颗粒度从小到大的顺序，分为抽取新词、关键词、关键短语和关键句的无监督学习方法。

新词提取

新词是一个相对的概念，每个人的标准都不一样，所以我们这里定义: 词典之外的词语(OOV)称作新词。

新词的提取对中文分词而言具有重要的意义，因为语料库的标注成本很高。那么如何修订领域词典呢，此时，无监督的新词提取算法就体现了现实意义。

如果文本足够大，再用通用的词典过滤掉“旧词”，就可以得到“新词”。

片段（待检测词）外部左右搭配的丰富程度，可以用 信息熵 来衡量，

而片段内部搭配的固定程度可以用子序列的 互信息 来衡量。

# -*- coding:utf-8 -*-# Author：hankcs# Date: 2018-07-30 21:03# 《自然语言处理入门》9.1 新词提取<

转载地址：https://codingpark.blog.csdn.net/article/details/108204907 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：如何理解输入流输出流？_CodingPark编程公园

下一篇：光纤猫连接路由器_CodingPark编程公园

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！