亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用 pyspark 從 S3 讀取 parquet 分區表正在從分區列中刪除前導零

使用 pyspark 從 S3 讀取 parquet 分區表正在從分區列中刪除前導零

LEATH 2022-10-06 15:55:06
我已經使用 EMR(pyspark) 將 pyspark 數據幀作為鑲木地板寫入 s3,該數據由列 (A) 分區,即 StringType()在 S3 中,數據看起來像這樣table_path:       A=0003           part-file.parquet       A=C456           part-file.parquet當我使用 pyspark 將其作為數據幀讀回時,我在數據幀的“A”列中丟失了前導零。這是數據的樣子df =  spark.read.parquet(table_path)df.show()| A  | B || 3  | ..||C456| ..|我不想在這里丟失前導零。預期結果是:| A  | B ||0003| ..||C456| ..|
查看完整描述

1 回答

?
MMTTMM

TA貢獻1869條經驗 獲得超4個贊

在 delta 文檔中找到了此問題的解決方案。


Spark 有一個默認啟用的屬性。使用此屬性 spark 嘗試推斷分區列的架構。對于字符串類型的分區列,我們可以輕松地將其關閉。


# Update partition data type infer property

from pyspark.conf import SparkConf

from pyspark.sql import SparkSession, Window

conf = (SparkConf().set("spark.sql.sources.partitionColumnTypeInference.enabled", False))

sc=SparkSession.builder.config(conf=conf).getOrCreate()


查看完整回答
反對 回復 2022-10-06
  • 1 回答
  • 0 關注
  • 152 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號