Loading... # 引言 这个脚本仅适用于纯文本文件,并且不包含复杂格式。 今天同事发了个docx文件,看看文件大小3.42MB,低估了这个文件了,双击打开,往下拉了拉,这个文章不见底呀 ![image.png](https://www.zunmx.top/usr/uploads/2024/06/781801689.png) 2000页,2500页,3000页....,5995页,最后8201页 ![image.png](https://www.zunmx.top/usr/uploads/2024/06/3416621724.png) 这是啥东西啊,他告诉我是一个SQL,我说直接发文本,就可以直接解析了,docx不是多此一举嘛,哎,没办法。 # 依赖 ```bash pip install python-docx ``` # 脚本内容 ``` from docx import Document ''' 这特么是来捣乱的吧, 发这么大的docx文件''' doc = Document(r'F:\MsgData\WeCom\WXWork\******\Cache\File\2024-06\新建 DOCX 文档.docx') txt = "" process = 0 for para in doc.paragraphs: process += 1 print('\r', '当前:', process, '\t', '共:', len(doc.paragraphs), '\t\t', '百分比:', round((process / len(doc.paragraphs) * 100), 2), end='', sep='') txt += para.text.strip() + "\n" with open('./docx2txt.txt', 'w', encoding='utf-8') as f: f.write(txt) ``` ![image.png](https://www.zunmx.top/usr/uploads/2024/06/3419916886.png) © 允许规范转载 打赏 赞赏作者 支付宝微信 赞 如果觉得我的文章对你有用,请随意赞赏