首頁猿問用火花-csv編寫單個csv文件

用火花-csv編寫單個csv文件

.NET 源碼算法與數據結構

尚方寶劍之說 2019-07-11 20:53:33

用火花-csv編寫單個csv文件我在用https://github.com/databricks/spark-csv，我試圖寫一個CSV，但不能，它是一個文件夾。需要一個Scala函數，它將接受像路徑和文件名這樣的參數，并編寫那個CSV文件。

查看完整描述

3 回答

慕森王

TA貢獻1777條經驗獲得超3個贊

它正在創建一個包含多個文件的文件夾，因為每個分區都是單獨保存的。如果需要一個輸出文件(仍在文件夾中)，則可以repartition(如果上游數據很大，但需要洗牌，則首選)：

df   .repartition(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

或coalesce:

df   .coalesce(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

保存前的數據幀：

所有數據將寫入mydata.csv/part-00000..在使用此選項之前確保您了解正在發生的事情，以及將所有數據傳輸給單個員工的成本。..如果使用帶有復制的分布式文件系統，數據將被多次傳輸-首先獲取到單個工作人員，然后通過存儲節點分發。

或者，您可以保留代碼的原樣，并使用通用工具，如cat或HDFSgetmerge然后簡單地合并所有的部分。

反對回復 2019-07-11

HUWWW

TA貢獻1874條經驗獲得超12個贊

如果您正在使用HDFS運行SPark，我一直在通過正常編寫CSV文件和利用HDFS進行合并來解決這個問題。我是在星火(1.6)直接這樣做的：

import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs._def merge(srcPath: String, dstPath: String): Unit =  {
   val hadoopConfig = new Configuration()
   val hdfs = FileSystem.get(hadoopConfig)
   FileUtil.copyMerge(hdfs, new Path(srcPath), hdfs, new Path(dstPath), true, hadoopConfig, null) 
   // the "true" setting deletes the source files once they are merged into the new output}val newData =
    << create your dataframe >>val outputfile = "/user/feeds/project/outputs/subject"  
    var filename = "myinsights"var outputFileName = outputfile + "/temp_" + filename 
var mergedFileName = outputfile + "/merged_" + filenamevar mergeFindGlob  = outputFileName

    newData.write        .format("com.databricks.spark.csv")
        .option("header", "false")
        .mode("overwrite")
        .save(outputFileName)
    merge(mergeFindGlob, mergedFileName )
    newData.unpersist()

我不記得我是從哪里學到這個把戲的，但它可能對你有用。

反對回復 2019-07-11

慕妹3242003

TA貢獻1824條經驗獲得超6個贊

我在這里可能有點晚了，但是.coalesce(1)或repartition(1)可能適用于小數據集，但大型數據集都將被拋到一個節點上的一個分區中。這可能會拋出OOM錯誤，或者充其量只能緩慢地處理。

我強烈建議你使用FileUtil.copyMerge()函數來自HadoopAPI。這將把輸出合并到一個文件中。

編輯-這有效地將數據帶給驅動程序，而不是執行者節點。Coalesce()如果單個執行器具有比驅動程序更多的RAM，就可以了。

編輯2：copyMerge()在Hadoop3.0中被刪除。有關如何使用最新版本的更多信息，請參見下面的堆棧溢出文章：Hadoop如何在Hadoop3.0中實現CopyMerge

反對回復 2019-07-11

3 回答
0 關注
631 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

用火花-csv編寫單個csv文件

用火花-csv編寫單個csv文件

3 回答

添加回答