1 回答

TA貢獻1864條經驗 獲得超6個贊
我想你不需要這個。您可以使用標準庫 csv
使其更簡單。pandas
如果您使用的是Python 3.4 +,另一件可以改進的事情是用pathlib
替換。os
下面是一個幾乎完整的示例:
import csv
from pathlib import Path
folder = Path('c:/My/Directory/Path')
csv_file = Path('c:/path/to/output.csv')
with csv_file.open('w', encoding='utf-8') as f:
writer = csv.writer(f, csv.QUOTE_ALL)
writer.writerow(['FileName', 'Text'])
for pdf_file in folder.glob('*.pdf'):
pdf_text = convert_pdf_to_txt(pdf_file).replace('\n', '|')
writer.writerow([pdf_file.name, pdf_text])
要記住的另一件事是確保將是一行,否則您的文件將會損壞。解決此問題的一種方法是選擇任意字符來代替新行標記。例如,如果您選擇管道字符,則可以在以下操作之前執行類似操作:pdf_textcsvwriter.writerow
pdf_text.replace('\n', '|')
它不是一個完整的例子,而是一個起點。我希望它有幫助。
添加回答
舉報