提交 ae2f8e5c 创建 作者: Administrator's avatar Administrator

Replace statistics.py

上级 6cf7c8a7
......@@ -2,6 +2,7 @@
import docx
import os, zipfile, xml.dom.minidom, sys, getopt
import requests, json
import PyPDF2
# 页数、字符数、表格数、图片数
page_count = 0
......@@ -29,6 +30,19 @@ if not find_character:
character_count = uglyxml.getElementsByTagName('CharactersWithSpaces')[0].childNodes[0].nodeValue
else:
character_count = find_character[0].childNodes[0].nodeValue
# 如果取得的docx文件页数不大于1,那么可能是统计数据有问题,将docx转换成pdf后,再取pdf的页数
if int(page_count) <= 1:
# 执行命令,将文件转换成pdf
convert_pdf = "soffice --headless --convert-to pdf " + "\"" +sys.argv[1] + "\""
os.system(convert_pdf)
filename, ext_name = os.path.splitext(sys.argv[1])
pdf_filename = filename + ".pdf"
if os.path.exists(pdf_filename):
gvn_file = open(pdf_filename, 'rb')
pdf_read = PyPDF2.PdfFileReader(gvn_file)
page_count = pdf_read.numPages
# 取得docx文档的表格数
mydocx = docx.Document(sys.argv[1])
......
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论