已解決430363個問題，去搜搜看，總會有你想問的

如何融化火花數據幀？

首頁猿問如何融化火花數據幀？

如何融化火花數據幀？

源碼算法與數據結構

泛舟湖上清波郎朗 2019-06-24 13:12:15

如何融化火花數據幀？是否有相當于PandasMelt功能的PandasMelt函數存在于PySPark或至少在Scala中的ApacheSPark中？到目前為止，我在python中運行了一個示例數據集，現在我想對整個數據集使用SPark。提前謝謝。

查看完整描述

3 回答

catspeake

TA貢獻1111條經驗獲得超0個贊

UPD

最后，我找到了對我來說最有效的實現。在我的紗線配置中，它使用集群的所有資源。

from pyspark.sql.functions import explode
def melt(df):
    sp = df.columns[1:]
    return (df
            .rdd
            .map(lambda x: [str(x[0]), [(str(i[0]), 
                                         float(i[1] if i[1] else 0)) for i in zip(sp, x[1:])]], 
                 preservesPartitioning = True)
            .toDF()
            .withColumn('_2', explode('_2'))
            .rdd.map(lambda x: [str(x[0]), 
                                str(x[1][0]), 
                                float(x[1][1] if x[1][1] else 0)], 
                     preservesPartitioning = True)
            .toDF()
            )

對于非常廣泛的dataframe，從user6910411應答到_vars_和_vals生成時，性能下降了。

通過selectExpr實現熔融是非常有用的。

columns=['a', 'b', 'c', 'd', 'e', 'f']
pd_df = pd.DataFrame([[1,2,3,4,5,6], [4,5,6,7,9,8], [7,8,9,1,2,4], [8,3,9,8,7,4]], columns=columns)
df = spark.createDataFrame(pd_df)
+---+---+---+---+---+---+
|  a|  b|  c|  d|  e|  f|
+---+---+---+---+---+---+
|  1|  2|  3|  4|  5|  6|
|  4|  5|  6|  7|  9|  8|
|  7|  8|  9|  1|  2|  4|
|  8|  3|  9|  8|  7|  4|
+---+---+---+---+---+---+

cols = df.columns[1:]
df.selectExpr('a', "stack({}, {})".format(len(cols), ', '.join(("'{}', {}".format(i, i) for i in cols))))
+---+----+----+
|  a|col0|col1|
+---+----+----+
|  1|   b|   2|
|  1|   c|   3|
|  1|   d|   4|
|  1|   e|   5|
|  1|   f|   6|
|  4|   b|   5|
|  4|   c|   6|
|  4|   d|   7|
|  4|   e|   9|
|  4|   f|   8|
|  7|   b|   8|
|  7|   c|   9|
...

反對回復 2019-06-24

3 回答
0 關注
538 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何融化火花數據幀？

如何融化火花數據幀？

3 回答

UPD

添加回答

如何融化火花數據幀？