首頁猿問 Python -...

Python - 通過代理讀取巨大的在線csv

Python

Qyouu 2022-08-25 16:32:21

我有一個huuuuuge csv在線，我不想逐行閱讀它，下載它。但此文件位于代理后面。我寫了這個代碼：import requestsimport pandas as pdimport iocafile = 'mycert.crt'proxies = {"http":"http://ipproxy:port", "https":"http://ipproxy:port"}auth = HttpNtlmAuth('Username','Password')url = 'http://myurl/ressources.csv'content = requests.get(url, proxies=proxies, auth=auth, verify=cafile).contentcsv_read = pd.read_csv(io.StringIO(content.decode('utf-8')))pattern = 'mypattern'for row in csv_read: if row[0] == pattern: print(row) break上面的這段代碼有效，但“content = requests.get（...”行需要很多時間！由于 csv 文件的大小。所以我的問題是：是否可以通過代理逐行讀取在線csv？以最好的方式，我希望閱讀第一行，檢查它是否等于我的模式，如果是=中斷，如果不是=讀取第二行和依此類推。感謝您的幫助

查看完整描述

3 回答

慕的地8271018

TA貢獻1796條經驗獲得超4個贊

您可以傳遞給，以避免立即獲取整個結果。在這種情況下，您可以通過訪問偽文件對象，您可以基于此構建CSV閱讀器（或者，響應對象具有和方法，但我不知道將其提供給CSV解析器有多容易）。stream=Truerequests.getresponse.rawiter_contentiter_lines

然而，雖然stdlib的模塊只是生成一系列列表或字典，因此很容易懶惰，但pandas返回一個不懶惰的數據幀，所以你需要指定一些特殊參數，然后你得到每個塊的數據幀或它看起來像什么。csv

反對回復 2022-08-25

紅糖糍粑

TA貢獻1815條經驗獲得超6個贊

無論如何，該調用將為您提供整個文件。您需要實現自己的HTTP代碼，直至套接字級別，以便能夠在內容進入時以普通的HTTP Get方法進行處理。requests.get

獲取部分結果并對下載進行切片的唯一方法是添加HTTP“范圍”請求標頭，如果服務器提供文件支持。（可以讓您設置這些標頭）。requests

輸入請求高級用法：

好消息是，請求可以在后臺為您做到這一點 - 您可以在調用請求時設置參數，它甚至可以讓您逐行迭代內容。請查看該部分的文檔。stream=True

以下是或多或少在引擎蓋下的作用，以便您可以逐行獲取內容：requests

它將獲得重新調整大小的數據塊，但肯定不會一次保留一行（想想~80字節與100.000字節），因為否則它需要為每行一個新的HTTP請求，并且每個請求的開銷不是微不足道的，即使通過相同的TCP連接進行。

無論如何，由于CSV是一種文本格式，在相應地設置范圍標題之前，請求或任何其他軟件都無法知道行的大小，甚至不知道要讀取的“下一個”行的確切大小。

因此，要使此功能起作用，必須使用Python代碼才能：

接受對 CSV 的“新行”的請求（如果有緩沖文本行），則生成下一行，
否則，為下一個 100KB 左右的 HTTP 請求
將下載的數據連接到上次下載行的其余部分
在二進制數據中的最后一個換行符處拆分下載的數據，
保存最后一行的其余部分
將二進制緩沖區轉換為文本，（您必須在多字節編碼（如utf-8）中處理多字節字符邊界 - 但是在換行符處剪切可能會節省您）
生成下一個文本行

反對回復 2022-08-25

婷婷同學_

TA貢獻1844條經驗獲得超8個贊

根據Masklinn的答案，我的代碼現在看起來像這樣：

import requests

cafile = 'mycert.crt'

proxies = {"http":"http://ipproxy:port", "https":"http://ipproxy:port"}

auth = HttpNtlmAuth('Username','Password')

url = 'http://myurl/ressources.csv'

pattern = 'mypattern'

r = requests.get(url, stream=True, proxies=proxies, verify=cafile)

if r.encoding is None:

r.encoding = 'ISO-8859-1'

for line in r.iter_lines(decode_unicode=True):

if line.split(';')[0] == pattern:

print(line)

break

反對回復 2022-08-25

3 回答
0 關注
202 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python - 通過代理讀取巨大的在線csv

Python - 通過代理讀取巨大的在線csv

3 回答

輸入請求高級用法：

添加回答