已解決430363個問題，去搜搜看，總會有你想問的

Python 中的加速生成器 -> 列表 -> CSV

首頁猿問 Python 中的加速生成器...

Python 中的加速生成器 -> 列表 -> CSV

Python

GCT1015 2023-09-12 17:54:10

我需要優化寫入從 Elastic Search 中提取的 CSV 文件數據的過程，其中 elasticsearch.helpers.scan 使用 json/dict 數據構建一個生成器函數。results = elasticsearch.helpers.scan(es, query=body, index=index)with io.open(csv_file_name, "w", encoding="utf-8", newline="") as csv_file: writer = csv.DictWriter(csv_file, fieldnames=column_names, delimiter=';') writer.writeheader() writer.writerows([document['_source'] for document in results])我計時了一下，發現罪魁禍首是： “[document['_source'] for document in results]”需要很長很長的時間來通過生成器將其解包到列表中，以便將其寫入 CSV。大約需要 30 秒處理 10k 條記錄，這可能總共需要幾個小時，因為在某些情況下我必須處理數百萬條記錄（每條記錄接近 70 列/功能）。有沒有更有效的方法來做到這一點？我嘗試了不同的方法來迭代數據（例如在生成器上使用“For”和“next”），但沒有明顯更好的結果。我應該以不同的方式從彈性搜索中提取數據嗎？（掃描助手除外，它返回生成器函數）

查看完整描述

1 回答

胡說叔叔

TA貢獻1804條經驗獲得超8個贊

[document['_source']?for?document?in?results]

實際上不是一個生成器，而是一個列表理解，它根據需要分配盡可能多的內存來容納中的所有文檔results。

很可能更快的方法是實際使用生成器：

(document['_source']?for?document?in?results)

共：

results?=?elasticsearch.helpers.scan(es,?query=body,?index=index)
with?io.open(csv_file_name,?"w",?encoding="utf-8",?newline="")?as?csv_file:
????writer?=?csv.DictWriter(csv_file,?fieldnames=column_names,?delimiter=';')
????writer.writeheader()
????writer.writerows((document['_source']?for?document?in?results))

反對回復 2023-09-12

1 回答
0 關注
108 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python 中的加速生成器 -> 列表 -> CSV

Python 中的加速生成器 -> 列表 -> CSV

1 回答

添加回答