我有一個包含以下列(Accident_Id、Date、Area)和數百行的 CSV 數據集。我想要實現的是按區域列分組到可能的唯一組中并找到每個組的計數。我知道如何用 SQLContext 做到這一點,但我不確定它是如何用 JavaRDD 實現的,它的動作(map、reduce 等......)SparkConf conf = new SparkConf().setAppName("test").setMaster("local[2]");JavaSparkContext sc = new JavaSparkContext(conf);JavaRDD<String> data = sc.textFile(pathToCSV);...sqlContext.sql("SELECT COUNT(Area) FROM my_table GROUP BY Area").show();
JavaRDD 等價于 GROUP BY
慕婉清6462132
2022-05-25 16:44:54