已解決430363個問題，去搜搜看，總會有你想問的

使用 pyspark 從 S3 讀取 parquet 分區表正在從分區列中刪除前導零

首頁猿問使用 pyspark 從 S3...

使用 pyspark 從 S3 讀取 parquet 分區表正在從分區列中刪除前導零

Python

LEATH 2022-10-06 15:55:06

我已經使用 EMR(pyspark) 將 pyspark 數據幀作為鑲木地板寫入 s3，該數據由列 (A) 分區，即 StringType()在 S3 中，數據看起來像這樣table_path: A=0003 part-file.parquet A=C456 part-file.parquet當我使用 pyspark 將其作為數據幀讀回時，我在數據幀的“A”列中丟失了前導零。這是數據的樣子df = spark.read.parquet(table_path)df.show()| A | B || 3 | ..||C456| ..|我不想在這里丟失前導零。預期結果是：| A | B ||0003| ..||C456| ..|

查看完整描述

1 回答

MMTTMM

TA貢獻1869條經驗獲得超4個贊

在 delta 文檔中找到了此問題的解決方案。

Spark 有一個默認啟用的屬性。使用此屬性 spark 嘗試推斷分區列的架構。對于字符串類型的分區列，我們可以輕松地將其關閉。

# Update partition data type infer property

from pyspark.conf import SparkConf

from pyspark.sql import SparkSession, Window

conf = (SparkConf().set("spark.sql.sources.partitionColumnTypeInference.enabled", False))

sc=SparkSession.builder.config(conf=conf).getOrCreate()

反對回復 2022-10-06

1 回答
0 關注
165 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

使用 pyspark 從 S3 讀取 parquet 分區表正在從分區列中刪除前導零

使用 pyspark 從 S3 讀取 parquet 分區表正在從分區列中刪除前導零

1 回答

添加回答