我必須讀取多個 csv 文件并將它們按"event_name". 我也可能有一些重復項,所以我需要刪除它們。paths包含csv文件的所有路徑,我的代碼如下:data = []for path in paths: csv_file = pd.read_csv(path) data.append(csv_file)events = pd.concat(data)events = events.drop_duplicates()event_names = events.groupby('event_name')ev2 = []for name, group in event_names: a, b = group.shape ev2.append([name, a])這段代碼將告訴我event_name有多少個唯一的 unique ,以及每個event_name. 它工作得很好,除了 csv 文件太大而且我遇到了內存問題。有沒有辦法使用更少的內存來做同樣的事情?我讀到了有關使用dir()和globals()刪除變量的內容,我當然可以使用它們,因為一旦我有了,我就不再event_names需要 DataFrame 了。events但是,我仍然遇到這些記憶問題。更具體地說,我的問題是:我可以以更節省內存的方式讀取 csv 文件嗎?或者我可以做些什么來減少內存使用?我不介意犧牲性能,只要我可以一次讀取所有 csv 文件,而不是逐塊讀取。
1 回答

飲歌長嘯
TA貢獻1951條經驗 獲得超3個贊
只需保留每行的哈希值即可減少數據大小。
csv_file = pd.read_csv(path)
# compute hash (gives an `uint64` value per row)
csv_file["hash"] = pd.util.hash_pandas_object(csv_file)
# keep only the 2 columns relevant to counting
data.append(csv_file[["event_name", "hash"]])
如果您不能冒哈希沖突的風險(這在天文數字上不太可能發生),只需使用另一個哈希鍵并檢查最終計數結果是否相同。更改哈希鍵的方法如下。
# compute hash using a different hash key
csv_file["hash2"] = pd.util.hash_pandas_object(csv_file, hash_key='stackoverflow')
添加回答
舉報
0/150
提交
取消