Ngram中文分词_CodingPark编程公园
发布日期:2021-06-29 15:47:10 浏览次数:3 分类:技术文章

本文共 206 字,大约阅读时间需要 1 分钟。

二元语法与中文分词

语言模型

模型指的是对食物的数学抽象,语言模型指的是对语言现象的数学抽象。

语言模型的构建需要语料库的支撑
语料库建设并不是高不可攀的工程。
手动标注微型语料库
微型语料库
问题:常识告诉我们,一本书中几乎没有两个完全一样的句子 并且 试验中实际遇到的句子大部分都在语料库之外
这意味着它们的概率都将被标记为0 ???
解决办法:
二元语法 或(n元语法)
平滑策略(劫富济贫的策略)

语言模型 - 训练

转载地址:https://codingpark.blog.csdn.net/article/details/107614158 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:隐马尔可夫模型的样本生成&模型训练&预测_CodingPark编程公园
下一篇:数据分析之数据可视化_CodingPark编程公园

发表评论

最新留言

关注你微信了!
[***.104.42.241]2024年04月20日 00时51分22秒