之前介绍了一个Python包 openpyxl ,用于处理 Excel ;而对于 Word 文本时同样也有对应的 Python库 Python-docx,在日常办公中,如果需要处理多个 word 文本,且操作步骤都是重复单调的,我想这个库就可以帮到你
在了解 Python-docx 常用函数之前,需要知道 在 Python-docx 各命令所对应 word 各部件,下图所示,
- Document 指的是 word 文档;
- paragraph 对应段落;
- run 对应 一句话中的各个字段,样式调整时,一般面向的操作对象都是逐字段进行;
1,安装 Python-docx
通过 pip 工具即可进行安装,在命令行中输入 pip install Python-docx 即可
2,创建或打开 Document
Python-docx 导入包时是以 docx 命令存在的,与 Opencv 的 Python 版本导入方法相似;创建文件、打开文件以 Document() 命令操作,这里操作时需要注意几个点:
1,Document() 命令是基于默认”模板“创建一个空白文档,随后可对文档进行编辑操作,最后没有用 save() 函数存储的话,文档将伴随程序结束同内存一起
2,Document(path) 命令表示打开一个本地已经存在的 docx 文件,path 表示存放目录若不存在则程序报错;
下面代码中,创建了一个空白 docx,赋值给 document
from docx import Document
document = Document()
3,加入一段落
段落作为 docx 文档正文的主要成分,那怎样在创建好的 Document 中加入一段话呢?官方给出了两种方式
1,在文档后面插入
这种方法是比较常见且简单的,命令如下
paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
方法中将创建好的段落引用指向 paragraph ,表明了光标的位置,后面的一些操作可以借助 paragraph 引用变量来作为定位操作
2,在指定地方的前面插入
文档编辑正常顺序是在末尾进行编辑,但有时在编辑时可能失误少输入一段话或文字,这时就用到 在指定位置前面 进行插入操作
prior_paragraph = paragraph.insert_paragraph_before('Lorem ipsum')
此命令常用于 修正文档 ,当需要在一段话前面添加一些别的文字时。
4,标题
docx 中 会用一、二、三级标题将正文分为几部分,让文本主次感更强;Python-docx 有对应的内置函数供我们使用,内置函数中标题分为主标题和子标题
创建标题的函数方法中,有一个参数 level 可进行修改,若不设定时默认为 主标题(leve = 0);
document.add_heading('The REAL meaning of the universe')
子标题分为 1-9 九个等级,修改参数 level 即可
document.add_heading('The role of dolphins', level=2)
5,分页符
在 Word 中进行文本编辑,想在单独的一个新页面编写文本时,就需要加入一个 强制分页符,命令如下
document.add_page_break()
这里需要注意下,加入分页符之后,新页面上编辑的段落样式属性与之前页面段落属性是分隔开的
6,表格
在文档中创建一个 2*2 的 表格
table = document.add_table(rows=2, cols=2)
表格中每个单元格可进行文本编辑,颜色填充;对于特定表格而言可通过 row、column 索引来进行定位,这里借助了操作 Excel 表格的思想
cell = table.cell(0, 1)
赋值其文本内容
cell.text = 'parrot, possibly dead'
对一个一个单元格修改操作太麻烦了,可以一次选中指定列,对其单元格数据进行逐个修改
row = table.rows[1]
row.cells[0].text = 'Foo bar to you.'
row.cells[1].text = 'And a hearty foo bar to you too sir!'
table.rows[index] 返回索引为 index 的指定行,根据 .rows和.cols 表示 表格的全部行或列是可迭代的,因此可通过 for 循环来访问每一个单元格
for row in table.rows:
for cell in row.cells:
print(cell.text)
因为 .rows 和 .cols 是可迭代的,通过 len() 命令来获取行、列数
row_count = len(table.rows)
col_count = len(table.columns)
除了以上操作之外,还可以向 table 中逐渐添加行、列命令
row = table.add_row()
col = table.add_col()
上面提到了 创建表格,单元格修改,创建新行/列,逐行/列迭代,下面用个实例做个简单总结,代码中完成功能如下:
- 1,item 创建一个 3*3 的元组数据;
- 2,在 word 中新建一个 table,一行三列;
- 3,创建好的 table 的表头依次设置为 Qty,SKU,Description;
- 4,将 item 中的元素,以 table 逐行 3 个的方式创建;
# get table data ------------- items = ( (7, '1024', 'Plush kittens'), (3, '2042', 'Furbees'), (1, '1288', 'French Poodle Collars, Deluxe'), ) # add table ------------------ table = document.add_table(1, 3) # populate header row -------- heading_cells = table.rows[0].cells heading_cells[0].text = 'Qty' heading_cells[1].text = 'SKU' heading_cells[2].text = 'Description' # add a data row for each item for item in items: cells = table.add_row().cells cells[0].text = str(item.qty) cells[1].text = item.sku cells[2].text = item.desc
此外,还可修改 表格的样式,word 文档中的表格样式这里都可以设定(样式名称可以通过word 文档自有的样式,将鼠标放到样式的缩略图上即可查看),但需要注意的是,使用样式时需要去掉word软件中样式名字中的空格,例如下面 Office 原样式名字为 Light Shading-Accent1,这里直接把中间空格去掉
table.style = 'LightShading-Accent1'
7,图片
在 python-docx 中添加图片用下面命令即可完成
document.add_picture('image-filename.png')
上面加入的是本地文件 path ,除此之外还可以使用 file-like object,这种格式对于数据库或者网络上的图片读取时时非常方便的
修改图片大小
python-docx 加入图像默认表示的是 native size,正常图片加入时会出现相同图片的一侧出现 4.167 inches 的空白处,大概占比纸张宽度的一半;在获取想要图像大小时,可以指定宽度或高度设为较为方便的单位
from docx.shared import Inches
document.add_picture('image-filename.png', width=Inches(1.0))
8, 应用段落样式
设定段落样式方法有两种,一种创建时就可以设置
document.add_paragraph('Lorem ipsum dolor sit amet.', style='ListBullet')
另一种是创建完之后再再进行设置(这时不需要去掉样式名称中的空格)
paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
paragraph.style = 'List Bullet'
9,字体加黑并斜体化
对字体做斜体和加黑操作之前, 需要理解在一个段落中都做了什么事情,简单来说两部分:
1,一个段落具有全部 block-level formatting ,比如制表符、行高、tabs 等;
2,Character-level formatting ,例如粗体、斜体,应用的是 run对象,在段落中的所有内容必须是一个 run ,且不仅包含一个,
Run 对象同时包含一个 .bold 和.italic 属性,可让你来对其值进行设置
paragraph = document.add_paragraph('Lorem ipsum ')
run = paragraph.add_run('dolor')
run.bold = True
paragraph.add_run(' sit amet.')
上面代码中最后创建的文本格式形如:Lorem ipsum dolor sit amet.
需要注意的是设置 bold 或 italic 时,可以把 .add_run() 命令直接放在右边
paragraph.add_run('dolor').bold = True
# is equivalent to:
run = paragraph.add_run('dolor')
run.bold = True# except you don't have a reference to `run` afterward
10,字符样式
除了上面加黑、斜体之外、还可定义字符样式( character styles ), 定义时加入一行新的 run 对象;例如
paragraph = document.add_paragraph('Normal text, ')
paragraph.add_run('text with emphasis.', 'Emphasis')
上面创建一个文本 ,结果如下
Normal text,text with emphasis. ;text with emphasis. 部分应用 Emphasis(强调) 的字符格式
上面代码也可改为;
paragraph = document.add_paragraph('Normal text, ')
run = paragraph.add_run('text with emphasis.')
run.style = 'Emphasis'
与段落样式一样,样式名字与 Word UI 里的一样,在 Word 样式管理器中都能找得到!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]