亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python計算PDF文件每頁上的每封電子郵件

Python計算PDF文件每頁上的每封電子郵件

慕斯709654 2023-12-12 15:08:14
我正在嘗試計算這個 1537 頁的 pdf 文件中包含 @twitter 或 @facebook 的每個字符串。我初始化了一個計數器,每當頁面找到 @twitter 或 @facebook 時,該計數器就會關閉,但計數器只是計算頁面數量,而不是包含 facebook 或 twitter 的電子郵件數量。我正在使用 python 3 并導入 pdftotext 來讀取文件。這是代碼import pdftotextcount = 0# 1 read the pdfwith open('Users.pdf', 'rb') as f:    pdf = pdftotext.PDF(f)# loop thru pagesfor page in pdf:    if '@facebook' in page or '@twitter' in page:        count += 1print(count)輸出:1537這是文件的頁數
查看完整描述

1 回答

?
哈士奇WWW

TA貢獻1799條經驗 獲得超6個贊

您應該使用正則表達式匹配來實現您想要做的事情。

import pdftotext

import re


count = 0

# 1 read the pdf

with open('Users.pdf', 'rb') as f:

? ? pdf = pdftotext.PDF(f)


# regex pattern

pattern = '@facebook|@twitter'


# loop thru pages

for page in pdf:

? ? count += len(re.findall(pattern, page))


print(count)

要檢查并嘗試您的正則表達式模式,我推薦Regex101。



查看完整回答
反對 回復 2023-12-12
  • 1 回答
  • 0 關注
  • 126 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號