HMM中文分词_CodingPark编程公园
发布日期:2021-06-29 15:47:13 浏览次数:2 分类:技术文章

本文共 257 字,大约阅读时间需要 1 分钟。

文章介绍

新词识别OVV是中文分词一大难点,为此我们从词语级模型切换到字符级模型,将中文分词任务转换为序列标注问题。

作为新手起步,我们尝试了最简单的序列标注模型----隐马尔可夫模型

HMM中文分词流程

  1. 映射

    1. 标注集:将标注集{B,M,E,S}映射为连续的整形id
    2. 词表:将字符映射为另一套id,
  2. 语料转换

    我们必须把语料库转换为(x,y)二元组才能训练HMM

  3. 训练

    HMMTrainer #train

  4. 预测

    HMMSegmenter #sgment

  5. 评价

    在这里插入图片描述

  6. 误差分析

    一阶HMM
    对比以前算法,对于一阶HMM来说

转载地址:https://codingpark.blog.csdn.net/article/details/107715590 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:感知机的分类与结构化预测_CodingPark编程公园
下一篇:隐马尔可夫模型的样本生成&模型训练&预测_CodingPark编程公园

发表评论

最新留言

能坚持,总会有不一样的收获!
[***.219.124.196]2024年04月03日 22时08分57秒