简介
利用业余时间参加了公司的创新项目活动,里面有一个PDF转WORD的功能,分享出来。主要使用了python3版本的pdf2docx包,包的使用也很简单,基于基础功能写写逻辑、封装下页面就可以做出web功能了。
环境
id | name | Version |
---|---|---|
1 | Python | 3.7 |
pdf2docx只支持python3。
安装依赖
1 | docx==0.2.4 |
官方代码
示例一
转换整个文档。1
2
3
4
5
6
7
8
9from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
示例二
转换文档指定页。1
2
3
4
5
6
7
8# convert from the second page to the end (by default)
cv.convert(docx_file, start=1)
# convert from the first page (by default) to the third (end=3, excluded)
cv.convert(docx_file, end=3)
# convert from the second page and the third
cv.convert(docx_file, start=1, end=3)
示例三
多进程转换。1
cv.convert(docx_file, multi_processing=True, cpu_count=4)
示例四
加密文档转换。1
2
3cv = Converter(pdf_file, password)
cv.convert(docx_file)
cv.close()
参考学习
官网:https://dothinking.github.io/pdf2docx/index.html
项目转换代码
1 | #!/usr/bin/python |