有沒有一種方法可以讀取所有 xlsx 文件的表格,然后全部放棄購買行數最多的文件?理想情況下,我想找到字面上包含最多數據的工作表,以字節為單位,但行現在可以工作我還希望能夠通過加載例如文件的頭部來做到這一點,這樣加載時間就會更短,但我可以使用 .columns 和 len 來查找哪個工作表的列最多
1 回答

守候你守候我
TA貢獻1802條經驗 獲得超10個贊
讀取 Excel 文件的所有工作表并將其存儲在dictionary:
xls = pd.ExcelFile('excel_file_path.xls')
sheet_to_df_map = {}
for sheet_name in xls.sheet_names:
sheet_to_df_map[sheet_name] = xls.parse(sheet_name)
現在,您可以遍歷您的字典并創建另一個具有數據幀行數的字典,如下所示:
row_count_dict = {}
for key,val in sheet_to_df_map.items():
row_count_dict[key] = val.shape[0]
然后找到按值的row_count_dict最大值:
df_with_max_rows = max(row_count_dict, key=row_count_dict.get)
然后使用該鍵查找原始字典以獲取具有 max_rows 的數據幀:
df = sheet_to_df_map.get(df_with_max_rows)
這將是您的最終數據框。
添加回答
舉報
0/150
提交
取消