3 回答

TA貢獻1880條經驗 獲得超4個贊
F.when(F.col('Name') == None)
None 是 python 中的對象,NoneType
. 它與空字符串或 0 不同。對于這種情況,您可能希望使用
F.when(F.col('Name') is None)
使用==
你正在檢查F.col('Name')
value 是否等于 None 對象,它會把東西扔掉。

TA貢獻1829條經驗 獲得超7個贊

TA貢獻1829條經驗 獲得超7個贊
在數據世界中,兩個Null值(或兩個值None)并不相同。
因此,如果您對兩個值執行==or!=操作None,它總是會產生False. 這是構建功能的isNull()關鍵原因。isNotNull()
請看下面的例子以便更好地理解 -
創建一個dataframe具有少量有效記錄和一個記錄的None
from pyspark.sql.types import *
from pyspark.sql import Row
from pyspark.sql.functions import col
lst = [(1,'sometext'),(2,''),(3, None),(4, 'someothertext')]
myrdd = sc.parallelize(lst).map(lambda x: Row(id=x[0], txt=x[1]))
mydf= sqlContext.createDataFrame(myrdd)
isNull()返回True第 3 行,因此下面的語句返回一行 -
mydf.filter(col("txt").isNull()).show(truncate=False)
+---+----+
|id |txt |
+---+----+
|3 |null|
+---+----+
==運算符返回False第 3 行,因此沒有記錄被過濾掉。
mydf.filter(col("txt") == None).show(truncate=False)
+---+---+
|id |txt|
+---+---+
+---+---+
添加回答
舉報