亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

與 Databricks 筆記本中的 Blob 存儲文件交互的過程

與 Databricks 筆記本中的 Blob 存儲文件交互的過程

瀟湘沐 2023-10-31 17:12:11
在 Azure Databricks 筆記本中,我嘗試使用以下命令對 Blob 存儲中的某些 csv 執行轉換:*import os    import glob    import pandas as pd    os.chdir(r'wasbs://dalefactorystorage.blob.core.windows.net/dale')    allFiles = glob.glob("*.csv") # match your csvs    for file in allFiles:       df = pd.read_csv(file)       df = df.iloc[4:,] # read from row 4 onwards.       df.to_csv(file)       print(f"{file} has removed rows 0-3")*不幸的是我收到以下錯誤:*FileNotFoundError: [Errno 2] 沒有這樣的文件或目錄: 'wasbs://dalefactorystorage.blob.core.windows.net/dale'我錯過了什么嗎?(我對此完全陌生)。
查看完整描述

2 回答

?
DIEA

TA貢獻1820條經驗 獲得超2個贊

如果您想使用包pandas從 Azure blob 讀取 CSV 文件,對其進行處理并將此 CSV 文件寫入 Azure Databricks 中的 Azure blob,我建議您將 Azure blob 存儲掛載為 Databricks 文件系統,然后執行此操作。欲了解更多詳情,請參閱此處。


例如


裝載 Azure 斑點

dbutils.fs.mount(

  source = "wasbs://<container-name>@<storage-account-name>.blob.core.windows.net",

  mount_point = "/mnt/<mount-name>",

  extra_configs = {"fs.azure.account.key.<storage-account-name>.blob.core.windows.net":"<account access key>"})

https://img1.sycdn.imooc.com/6540c5080001786606360161.jpg

處理 csv

import os

import glob

import pandas as pd


os.chdir(r'/dbfs/mnt/<mount-name>/<>')

allFiles = glob.glob("*.csv") # match your csvs

for file in allFiles:

    print(f" The old content of  file {file} : ")

    df= pd.read_csv(file, header=None)

    print(df)

    df = df.iloc[4:,]

    df.to_csv(file, index=False,header=False)

    print(f" The new content of  file {file} : ")

    df= pd.read_csv(file,header=None)

    print(df)

    break

https://img1.sycdn.imooc.com/6540c51a0001677f06521116.jpg

查看完整回答
反對 回復 2023-10-31
?
慕雪6442864

TA貢獻1812條經驗 獲得超5個贊

A,替代方法是將 dbfs 文件掛載為 Spark 數據幀,然后將其從 Sparkdf 轉換為 pandas df:


# mount blob storage

spark.conf.set("fs.azure.account.key.storageaccountname.blob.core.windows.net",

"storageaccesskey")


dfspark = spark.read.csv("wasbs://[email protected]

/filename.csv", header="true")


# convert from sparkdf to pandasdf 

df = dfspark.toPandas()


查看完整回答
反對 回復 2023-10-31
  • 2 回答
  • 0 關注
  • 224 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號