課程
/后端開發
/Python
/python遇見數據采集
如題?
PDF下載好讀取他的意義是什么?
2016-09-15
源自:python遇見數據采集 5-5
正在回答
比如說你想收集所有上市公司歷年來資產負債,資產增長,股份變革等等這些情況,你不可能通過人工的方法來查找,因為單單深滬都有幾千家公司,只能依靠程序來完成,但是這些信息大部分都是以PDF文件保存的,如果不讀取PDF文件還有什么好的方法來完成呢?
而且大部分的文件都是以PDF保存的,如果你想從這些文件里面查找信息,一兩個文件可能還能人工去查找統計,如果是一百個,一萬個文件,依靠人工不知道要到什么時候才能完成,而且還可能會統計錯誤。
有些數據是被嵌套在PDF文檔里面的,這時候就需要把它讀取出來再處理
還有就是將PDF文檔中的內容轉成文字(當然這個在13版的word里面也能做到)
反正不管怎么說,讀取PDF文檔都是件吃力不討好的事情。過程繁瑣而且準確率也不是很高。如果不需要讀取那是最好了
舉報
本教程讓你初步掌握Python進行數據采集,創造屬于你的價值
1 回答老師python還有別的 讀取pdf的庫嗎
3 回答為什么最后用urlopen讀取線上pdf地址時,讀取信息顯示異常
1 回答頁面解釋器讀取出錯
2 回答python能修改雙層pdf中文字透明度嗎
2 回答讀取不了wiki那個url鏈接,求助。。
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號-11 京公網安備11010802030151號
購課補貼聯系客服咨詢優惠詳情
慕課網APP您的移動學習伙伴
掃描二維碼關注慕課網微信公眾號
2016-09-17
比如說你想收集所有上市公司歷年來資產負債,資產增長,股份變革等等這些情況,你不可能通過人工的方法來查找,因為單單深滬都有幾千家公司,只能依靠程序來完成,但是這些信息大部分都是以PDF文件保存的,如果不讀取PDF文件還有什么好的方法來完成呢?
而且大部分的文件都是以PDF保存的,如果你想從這些文件里面查找信息,一兩個文件可能還能人工去查找統計,如果是一百個,一萬個文件,依靠人工不知道要到什么時候才能完成,而且還可能會統計錯誤。
2016-09-15
有些數據是被嵌套在PDF文檔里面的,這時候就需要把它讀取出來再處理
還有就是將PDF文檔中的內容轉成文字(當然這個在13版的word里面也能做到)
反正不管怎么說,讀取PDF文檔都是件吃力不討好的事情。過程繁瑣而且準確率也不是很高。如果不需要讀取那是最好了