Skip to content
项目
群组
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
统计
统计docx文档信息
项目
项目
详情
活动
周期分析
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
问题
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
CI / CD
CI / CD
流水线
作业
日程
统计图
静态页
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
系统群组
开源项目
统计docx文档信息
提交
ae2f8e5c
提交
ae2f8e5c
10月 14, 2022
创建
作者:
Administrator
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Replace statistics.py
上级
6cf7c8a7
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
14 行增加
和
0 行删除
+14
-0
statistics.py
statistics.py
+14
-0
没有找到文件。
statistics.py
浏览文件 @
ae2f8e5c
...
...
@@ -2,6 +2,7 @@
import
docx
import
os
,
zipfile
,
xml
.
dom
.
minidom
,
sys
,
getopt
import
requests
,
json
import
PyPDF2
# 页数、字符数、表格数、图片数
page_count
=
0
...
...
@@ -29,6 +30,19 @@ if not find_character:
character_count
=
uglyxml
.
getElementsByTagName
(
'CharactersWithSpaces'
)[
0
]
.
childNodes
[
0
]
.
nodeValue
else
:
character_count
=
find_character
[
0
]
.
childNodes
[
0
]
.
nodeValue
# 如果取得的docx文件页数不大于1,那么可能是统计数据有问题,将docx转换成pdf后,再取pdf的页数
if
int
(
page_count
)
<=
1
:
# 执行命令,将文件转换成pdf
convert_pdf
=
"soffice --headless --convert-to pdf "
+
"
\"
"
+
sys
.
argv
[
1
]
+
"
\"
"
os
.
system
(
convert_pdf
)
filename
,
ext_name
=
os
.
path
.
splitext
(
sys
.
argv
[
1
])
pdf_filename
=
filename
+
".pdf"
if
os
.
path
.
exists
(
pdf_filename
):
gvn_file
=
open
(
pdf_filename
,
'rb'
)
pdf_read
=
PyPDF2
.
PdfFileReader
(
gvn_file
)
page_count
=
pdf_read
.
numPages
# 取得docx文档的表格数
mydocx
=
docx
.
Document
(
sys
.
argv
[
1
])
...
...
编写
预览
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论