亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何制作好的可重現的Apache Spark示例

如何制作好的可重現的Apache Spark示例

慕姐4208626 2019-05-27 13:06:09
如何制作好的可重現的Apache Spark示例我花了相當多的時間閱讀pyspark和spark-dataframe標簽的一些問題,而且我經常發現海報沒有提供足夠的信息來真正理解他們的問題。我經常評論要求他們發布MCVE,但有時讓他們顯示一些樣本輸入/輸出數據就像拔牙一樣。例如:請參閱有關此問題的評論。也許問題的一部分是人們只是不知道如何輕松地為火花數據幀創建MCVE。我認為將這個pandas問題的spark-dataframe版本作為可以鏈接的指南是有用的。那么如何創造一個好的,可重復的例子呢?
查看完整描述

4 回答

?
嚕嚕噠

TA貢獻1784條經驗 獲得超7個贊

提供可輕松重新創建的小樣本數據。

至少,海報應在其數據框和代碼上提供幾行和列,以便輕松創建它。簡單來說,我的意思是剪切和粘貼。盡可能小,以證明您的問題。


我有以下數據幀:


+-----+---+-----+----------+

|index|  X|label|      date|

+-----+---+-----+----------+

|    1|  1|    A|2017-01-01|

|    2|  3|    B|2017-01-02|

|    3|  5|    A|2017-01-03|

|    4|  7|    B|2017-01-04|

+-----+---+-----+----------+

可以使用以下代碼創建:


df = sqlCtx.createDataFrame(

    [

        (1, 1, 'A', '2017-01-01'),

        (2, 3, 'B', '2017-01-02'),

        (3, 5, 'A', '2017-01-03'),

        (4, 7, 'B', '2017-01-04')

    ],

    ('index', 'X', 'label', 'date')

)

顯示所需的輸出。

詢問您的具體問題并向我們展示您想要的輸出。


如何創建一個新列 'is_divisible' 具有價值 'yes' ,如果當月的天 'date' 加7天整除值列'X',并 'no' 以其他方式?


期望的輸出:


+-----+---+-----+----------+------------+

|index|  X|label|      date|is_divisible|

+-----+---+-----+----------+------------+

|    1|  1|    A|2017-01-01|         yes|

|    2|  3|    B|2017-01-02|         yes|

|    3|  5|    A|2017-01-03|         yes|

|    4|  7|    B|2017-01-04|          no|

+-----+---+-----+----------+------------+

解釋如何獲得輸出。

詳細解釋如何獲得所需的輸出。它有助于顯示示例計算。


例如,在第1行中,X = 1,日期= 2017-01-01。添加7天到目前為止2017-01-08。這個月的日期是8,因為8可以被1整除,答案是“是”。


同樣,對于最后一行X = 7和日期= 2017-01-04。將7添加到日期會產生11作為該月的日期。由于11%7不是0,答案是“不”。


分享您現有的代碼。

向我們展示您已完成或嘗試過的內容,包括所有*代碼,即使它不起作用。告訴我們您遇到的問題,如果收到錯誤,請提供錯誤消息。


(*您可以省略代碼來創建spark上下文,但是您應該包括所有導入。)


我知道如何添加一個 加7天的新列,date 但是我無法將整個月的日期作為整數。


from pyspark.sql import functions as f

df.withColumn("next_week", f.date_add("date", 7))

包括版本,導入和使用語法突出顯示


對于性能調優帖子,請包括執行計劃

  • 用戶8371915撰寫的此答案中的完整詳細信息。

  • 它有助于為上下文使用標準化名稱。


解析火花輸出文件

  • MaxU此答案中提供了有用的代碼,以幫助將Spark輸出文件解析為DataFrame。


其他說明。


查看完整回答
反對 回復 2019-05-27
  • 4 回答
  • 0 關注
  • 439 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號