我只需要從“頁面 URL”列中的 url 字符串中提取整數,并將這些提取的整數附加到新列中。我正在使用 PySpark。我的代碼如下:from pyspark.sql.functions import col, regexp_extractspark_df_url.withColumn("new_column", regexp_extract(col("Page URL"), "\d+", 1).show())我有以下錯誤: TypeError: 'Column' object is not callable。
1 回答

開滿天機
TA貢獻1786條經驗 獲得超13個贊
您可以使用
spark_df_url.withColumn("new_column", regexp_extract("Page URL", "\d+", 0))
將字符串列的名稱指定為第一個參數,regexp_replace
并確保將第三個參數設置為,0
因為您的模式沒有捕獲組,并且您有興趣獲取整個匹配值作為結果。
請注意,當您指定1
為第三個參數時,您會得到空結果:
如果正則表達式不匹配,或者指定的組不匹配,則返回一個空字符串。
添加回答
舉報
0/150
提交
取消