Replace statistics.py

ae2f8e5c · Administrator · 6cf7c8a7 · ae2f8e5c
--- a/statistics.py
+++ b/statistics.py
@@ -2,6 +2,7 @@
 import docx
 import os, zipfile, xml.dom.minidom, sys, getopt
 import requests, json
+import PyPDF2

 # 页数、字符数、表格数、图片数
 page_count = 0
@@ -29,6 +30,19 @@ if not find_character:
  character_count = uglyxml.getElementsByTagName('CharactersWithSpaces')[0].childNodes[0].nodeValue
 else:  
  character_count = find_character[0].childNodes[0].nodeValue
+  
+# 如果取得的docx文件页数不大于1，那么可能是统计数据有问题，将docx转换成pdf后，再取pdf的页数
+if int(page_count) <= 1:
+  # 执行命令，将文件转换成pdf
+  convert_pdf = "soffice --headless --convert-to pdf " + "\"" +sys.argv[1] + "\""
+  os.system(convert_pdf)
+  
+  filename, ext_name = os.path.splitext(sys.argv[1])
+  pdf_filename = filename + ".pdf"
+  if os.path.exists(pdf_filename):
+    gvn_file = open(pdf_filename, 'rb')
+    pdf_read = PyPDF2.PdfFileReader(gvn_file)
+    page_count = pdf_read.numPages

 # 取得docx文档的表格数
 mydocx = docx.Document(sys.argv[1])