Python实现文本分词并写入新的文本文件,然后提取出文本中的关键词
发布日期:2021-06-29 18:16:18
浏览次数:2
分类:技术文章
本文共 1075 字,大约阅读时间需要 3 分钟。
思路
先对文本进行读写操作,利用jieba分词对待分词的文本进行分词,然后将分开的词之间用空格隔断;然后调用extract_tags()函数提取文本关键词;
代码
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2019/5/19 19:10# @Author : cunyu# @Site : cunyu1943.github.io# @File : Seg.py# @Software: PyCharmimport jiebaimport jieba.analyse# 待分词的文本路径sourceTxt = './source.txt'# 分好词后的文本路径targetTxt = './target.txt'# 对文本进行操作with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile: for line in sourceFile: seg = jieba.cut(line.strip(), cut_all = False) # 分好词之后之间用空格隔断 output = ' '.join(seg) targetFile.write(output) targetFile.write('\n') prinf('写入成功!')# 提取关键词with open(targetTxt, 'r', encoding = 'utf-8') as file: text = file.readlines() """ 几个参数解释: * text : 待提取的字符串类型文本 * topK : 返回TF-IDF权重最大的关键词的个数,默认为20个 * withWeight : 是否返回关键词的权重值,默认为False * allowPOS : 包含指定词性的词,默认为空 """ keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=()) print(keywords) print('提取完毕!')
转载地址:https://cunyu1943.blog.csdn.net/article/details/90346045 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
网站不错 人气很旺了 加油
[***.192.178.218]2024年04月03日 15时36分22秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
[debug]-vim编写g++编译出现报错/usr/bin/ld: cannot open output file test: Is a directory,collect2: error: ld
2019-04-30
[环境管理]-anaconda环境的导出与导入,保存为列表
2019-04-30
在测试自动化领域,要做测试界的张小龙而不是码农
2019-04-30
看完App违法违规认定方法有感分享
2019-04-30
梯度/索贝尔/拉普拉斯算子实现图像锐化(Matlab)
2019-04-30
图像的均值滤波与中值滤波处理(Matlab)
2019-04-30
Stackoverflow热门问题(十四)-改变Markdown图片的大小的方式
2019-04-30
Opencv学习笔记 主成分分析(PCA)
2019-04-30
机器学习笔记 - 深度学习面试必备的25个问题
2019-04-30
316. 去除重复字母
2019-04-30
PyCharm中编写ipynb文件
2019-04-30
387. 字符串中的第一个唯一字符
2019-04-30
135. 分发糖果
2019-04-30
2020年windows配置LaTex
2019-04-30
455. 分发饼干
2019-04-30
力扣第 221 场周赛
2019-04-30