Python实现文本分词并写入新的文本文件,然后提取出文本中的关键词
发布日期:2021-06-29 18:16:18 浏览次数:2 分类:技术文章

本文共 1075 字,大约阅读时间需要 3 分钟。

思路

先对文本进行读写操作,利用jieba分词对待分词的文本进行分词,然后将分开的词之间用空格隔断;然后调用extract_tags()函数提取文本关键词;

代码

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time    : 2019/5/19 19:10# @Author  : cunyu# @Site    : cunyu1943.github.io# @File    : Seg.py# @Software: PyCharmimport jiebaimport jieba.analyse# 待分词的文本路径sourceTxt = './source.txt'# 分好词后的文本路径targetTxt = './target.txt'# 对文本进行操作with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:    for line in sourceFile:        seg = jieba.cut(line.strip(), cut_all = False)        # 分好词之后之间用空格隔断        output = ' '.join(seg)        targetFile.write(output)        targetFile.write('\n')    prinf('写入成功!')# 提取关键词with open(targetTxt, 'r', encoding = 'utf-8') as file:    text = file.readlines()    """    几个参数解释:        * text : 待提取的字符串类型文本        * topK : 返回TF-IDF权重最大的关键词的个数,默认为20个        * withWeight : 是否返回关键词的权重值,默认为False        * allowPOS : 包含指定词性的词,默认为空    """    keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())    print(keywords)	print('提取完毕!')

转载地址:https://cunyu1943.blog.csdn.net/article/details/90346045 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:解决AS3.x无法新建Module:Project needs to be converted to androidx.* dependencies
下一篇:多层感知机

发表评论

最新留言

网站不错 人气很旺了 加油
[***.192.178.218]2024年04月03日 15时36分22秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章