说说如何使用 python-docx 读取 word 文档
发布日期:2021-06-29 21:01:35
浏览次数:2
分类:技术文章
本文共 1602 字,大约阅读时间需要 5 分钟。
1 基本用法
import docxdoc = docx.Document('示例文档.docx')print('段落数:')print(len(doc.paragraphs))print('第一段内容文本=' + doc.paragraphs[0].text)print('第一段内容中的 Run 对象个数:')print(len(doc.paragraphs[0].runs))print('遍历第一段内容中的 Run 对象:')for i in range(0, len(doc.paragraphs[0].runs)): print(doc.paragraphs[0].runs[i].text)
运行结果:
段落数:
2 第一段内容文本=概要设计说明书又可称系统设计说明书。 第一段内容中的 Run 对象个数: 3 遍历第一段内容中的 Run 对象: 概要设计说明书又可称 系统设计说明书 。
- 调用 docx.Document() 会加载整个 docx 文档,放入返回的 Document 对象中。
- Document 对象拥有 paragraphs 属性,对其调用 len(),就会返回 docx 中的段落总数。
- 每个 Paragraph 对象都有 text 属性,存放的是段落中的字符串信息,注意: 这里不包括样式。
- 每个 Paragraph 对象也有一个 runs 属性,它是存放 Run 对象的列表。 Run 对象也有 text 属性,这个属性包含其内部的字符串信息。
2 读取整篇文档
我们可以利用上述方法,写一个读取整篇文档的通用方法:
import docxdef get_text(file_path, indent_size=0): ''' :param file_path: 文件路径 :param indent_size: 段落缩进空格宽度 :return:获取文档中的所有内容 ''' doc = docx.Document(file_path) texts = [] indent = '' for i in range(0, indent_size): indent = indent + ' ' for paragraph in doc.paragraphs: texts.append(indent + paragraph.text) return '\n'.join(texts)
这样使用它:
from read_docx import get_text...print('----读取整篇文档内容(纯文本)----')print(get_text('示例文档.docx'))print()print('----加上段落缩进空格宽度-----')print(get_text('示例文档.docx',4))
运行结果:
----读取整篇文档内容(纯文本)----概要设计说明书又可称系统设计说明书。概要设计是一个设计师根据用户交互过程和用户需求来形成交互框架和视觉框架的过程,其结果往往以反映交互控件布置、界面元素分组以及界面整体板式的页面框架图的形式来呈现。这是一个在用户研究和设计之间架起桥梁,使用户研究和设计无缝结合,将对用户目标与需求转换成具体界面设计解决方案的重要阶段。----加上段落缩进空格宽度----- 概要设计说明书又可称系统设计说明书。 概要设计是一个设计师根据用户交互过程和用户需求来形成交互框架和视觉框架的过程,其结果往往以反映交互控件布置、界面元素分组以及界面整体板式的页面框架图的形式来呈现。这是一个在用户研究和设计之间架起桥梁,使用户研究和设计无缝结合,将对用户目标与需求转换成具体界面设计解决方案的重要阶段。
转载地址:https://deniro.blog.csdn.net/article/details/100061608 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
很好
[***.229.124.182]2024年04月17日 11时48分07秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
eslint warnings 与 error
2021-07-03
eslint - for-direction 循环
2021-07-03
eslint - getter-return
2021-07-03
css ===== text-transform
2021-07-03
javascript - 数据处理
2021-07-03
css ===== text-decoration
2021-07-03
css ===== white-space
2021-07-03
uniApp - 商城项目 - 1 项目搭建
2021-07-03
uniApp - 商城项目 2 - 底部导航
2021-07-03
three.js 3D室内设计 - 1
2021-07-03
threeJS 根据户型图绘制 3D模型 1
2021-07-03
vue移动端项目vant组件库之tag
2021-07-03
vant组件库之tag渐变色不起作用的原因
2019-04-30
vue移动端项目vant组件库之icon
2019-04-30
vue移动端项目vant组件库之image
2019-04-30
vue移动端项目vant组件库之layout
2019-04-30
vue移动端项目vant组件库之popup
2019-04-30
vue移动端项目vant组件库之style内置样式
2019-04-30
vue 爬坑 sass-loader 报错
2019-04-30