Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词-白红宇的个人博客

发布日期：2021-06-29 18:16:18 浏览次数：2 分类：技术文章

本文共 1075 字，大约阅读时间需要 3 分钟。

思路

先对文本进行读写操作，利用jieba分词对待分词的文本进行分词，然后将分开的词之间用空格隔断；然后调用extract_tags()函数提取文本关键词；

代码

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time    : 2019/5/19 19:10# @Author  : cunyu# @Site    : cunyu1943.github.io# @File    : Seg.py# @Software: PyCharmimport jiebaimport jieba.analyse# 待分词的文本路径sourceTxt = './source.txt'# 分好词后的文本路径targetTxt = './target.txt'# 对文本进行操作with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:    for line in sourceFile:        seg = jieba.cut(line.strip(), cut_all = False)        # 分好词之后之间用空格隔断        output = ' '.join(seg)        targetFile.write(output)        targetFile.write('\n')    prinf('写入成功！')# 提取关键词with open(targetTxt, 'r', encoding = 'utf-8') as file:    text = file.readlines()    """    几个参数解释：        * text : 待提取的字符串类型文本        * topK : 返回TF-IDF权重最大的关键词的个数，默认为20个        * withWeight : 是否返回关键词的权重值，默认为False        * allowPOS : 包含指定词性的词，默认为空    """    keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())    print(keywords)	print('提取完毕！')

转载地址：https://cunyu1943.blog.csdn.net/article/details/90346045 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：解决AS3.x无法新建Module:Project needs to be converted to androidx.* dependencies

下一篇：多层感知机

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

思路

代码

发表评论

最新留言

关于作者

推荐文章