学习语言模型-白红宇的个人博客

学习语言模型

发布日期：2021-06-29 02:31:38 浏览次数：3 分类：技术文章

本文共 756 字，大约阅读时间需要 2 分钟。

文本处理
建立模型需要用到大量的数据，根据要求首先需要先对数据格式先进行处理，Python提供了许多的简便操作供使用，比如去空格，去符号，大小写切换等，根据学习资料了解到，处理数据时自己调用函数处理可能会出现一些没有注意到的问题，如学习资料里提到的，它至少有以下几个缺点:
标点符号通常可以提供语义信息，但是我们的方法直接将其丢弃了类似“shouldn’t", “doesn’t"这样的词会被错误地处理类似"Mr.”, "Dr."这样的词会被错误地处理。通过调用专业的包，处理数据就会变得很容易且合理，工具有spaCy和NLTK。

一段自然语言文本可以看作是一个离散时间序列，给定一个长度为 T 的词的序列 w1,w2,…,wT，语言模型的目标就是评估该序列是否合理，即计算该序列的概率： P(w1,w2,…,wT).

建立语言模型即对文件建立数据库，文本在这个数据库中出现的概率可以认为是P^(w1)=n(w1)/n，其中n（w1)是以w1开头的文本的数量，n为数据库中文本的总量，序列长度增加，计算和存储多个词共同出现的概率的复杂度会呈指数级增加。 n 元语法通过马尔可夫假设简化模型，马尔科夫假设是指一个词的出现只与前面 n 个词相关，即 n 阶马尔可夫链（Markov chain of order n ），如果 n=1 ，那么有P(w3∣w1,w2)=P(w3∣w2) 。基于 n−1 阶马尔可夫链，我们可以将语言模型改写为P(w1,w2,…,wT)=∏t=1TP(wt∣wt−(n−1),…,wt−1).当 n 较小时， n 元语法往往并不准确。例如，在一元语法中，由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而，当 n 较大时， n 元语法需要计算并存储大量的词频和多词相邻频率。

转载地址：https://blog.csdn.net/YYYYYJY/article/details/104318722 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：cv基础组队学习

下一篇：线性回归

发表评论

最新留言

逛到本站，mark一下

[***.202.152.39]2024年04月08日 23时56分50秒

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

京东web登录测试用例编写 2021-07-02

常用算法4：二叉树--Leetcode 2021-07-02

接口测试2——jmeter 2021-07-02

软件测试大佬求职过程是怎样的 2021-07-02

软件缺陷基础 2021-07-02

软件测试-面试13问 2021-07-02

记一次django项目的部署 2021-07-02

测试项目调研 2021-07-02

接手软件测试新项目的流程 2021-07-02

jmeter-性能测试2-脚本录制开发 2021-07-02

jmeter-性能测试3-参数化 2021-07-02

期货基础知识 2021-07-02

期权基础 2021-07-02

jmeter-性能测试6-性能基础扫盲 2021-07-02

pytest+allure生成测试报告 2021-07-02

接口测试用例 2021-07-02

vnc安装配置 2021-07-02

Allure 测试报告：allure.title 去掉后方的参数化显示 2021-07-02

appium起源-环境配置 2021-07-02

appium初识-firstdemo 2021-07-02

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 309310575 位访客

访问时间: 2024-04-30 10:01:39 访问IP: 52.14.130.13 Copyright © 2020 - 2023 blog.css8.cn 京ICP备2021015314号-1 手机版