各位同事,大家好。我有一個大數據集(約2.370億行)。有很多列。例如,我需要刪除列名所有重復userId,VTS。userId Vts moreColumn1 moreColumn210 150 2 3 -delete11 160 1 610 150 0 1 -delete我對SQL不好。嘗試了與Internet不同的變體,但不起作用。更新:輸入答案!我忘了說我使用Java。有我針對Java的優化代碼:viewingDataset.groupBy("userId", "VTS") .count() .where("count = 1") .drop("count") .join(viewingDataset, JavaConversions.asScalaBuffer(asList("userId", "VTS")))
添加回答
舉報
0/150
提交
取消