亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

spark UDF 結果可以“顯示”,但不能“過濾”

spark UDF 結果可以“顯示”,但不能“過濾”

翻閱古今 2021-08-24 14:53:04
火花UDF的作品時,我做的show(),但它給了我的錯誤,當我做 filter的UDF結果。udf函數def chkInterPunctuation(sent) :    for char in sent[1:-2] :         if char in ["\"", "'", ".", "!", "?"] :            return True    return Falsecip = udf(chkInterPunctuation, BooleanType())show() 作品df_punct = dfs.withColumn("in_length", length("input")).\withColumn("out_length", length("output")).withColumn("cip", cip(col("input")))df_punct.show()但是當我這樣做時它給了我錯誤 filterdf_punct.where(col("cip") == True).show()我的谷歌搜索表明,py4j當UDF函數沒有返回正確的值或有錯誤時,通常會發生錯誤。但我UDF function總是返回 true 或 false。此外,當我顯示時,spark 查詢會返回正確的值。這對我來說沒有意義。可能的原因是什么?
查看完整描述

3 回答

?
慕工程0101907

TA貢獻1887條經驗 獲得超5個贊

發生這種情況是因為您沒有糾正NULL存在。嘗試:


def chkInterPunctuation(sent) :

    if not sent: return   # In None return

    for char in sent[1:-2] : 

        if char in ["\"", "'", ".", "!", "?"] :

            return True

    return False


查看完整回答
反對 回復 2021-08-24
?
婷婷同學_

TA貢獻1844條經驗 獲得超8個贊

通過更新到 spark2.4.0 解決了問題。(我用的是 2.0.0)


查看完整回答
反對 回復 2021-08-24
  • 3 回答
  • 0 關注
  • 157 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號