每天我都會收到一封帶有word文檔的電子郵件。文檔中的所有文本都存在于文檔中的一個表格中。我有數百個這樣的word文檔(我每天都會收到一個)。我想用python打開每個文檔,復制我需要的文本,然后粘貼到一個excel文檔中。但是,我被困在第一部分。我無法從word文檔中提取文本。我正在嘗試使用 python-docx 模塊來提取文本,但我不知道如何從表格中讀取文本。我在我正在閱讀的 python 介紹書中修改了一個 getText 模塊,但它似乎不起作用。我什至在正確的軌道上嗎?import docxfullText = []def getText(filename): doc = docx.Document(filename) for table in doc.Tables: for row in table.Rows: for cell in row.Cells: fullText.append(cell.text) return '\n'.join(fullText)好的,在看了另一個問題之后,我意識到我實際上遇到了與我想象的不同的問題。我進行了更改并具有以下代碼:import docxfullText = []doc = docx.Document('c:\\btest\\January18.docx')for table in doc.tables: for row in table.rows: for cell in row.cells: fullText.append(cell.text)'\n'.join(fullText)print(fullText)問題是,word 文檔中的表格不是空白單元格,因此它們不應該返回空白。我究竟做錯了什么?示例輸入文檔在這里我正在嘗試從該文檔中提取某些文本行,并按照我想要的方式粘貼和格式化文本。但是,我什至無法訪問word文檔中的文本...
Word 表格中的文本
慕碼人8056858
2021-09-25 18:30:14