已解決430363個問題，去搜搜看，總會有你想問的

在 Dataflow 中從 BigQuery 寫入 Cloud Storage 時如何設置文件大小而

首頁猿問在 Dataflow 中從...

在 Dataflow 中從 BigQuery 寫入 Cloud Storage 時如何設置文件大小而

Java

函數式編程 2023-08-09 15:31:28

目前使用 Dataflow 從 BigQuery 讀取表數據，并使用一定數量的分片寫入 Cloud Storage。//Read Main InputPCollection<TableRow> input = pipeline.apply("ReadTableInput", BigQueryIO.readTableRows().from("dataset.table"));// process and write filesinput.apply("ProcessRows", ParDo.of(new Process()) .apply("WriteToFile", TextIO.write() .to(outputFile) .withHeader(HEADER) .withSuffix(".csv") .withNumShards(numShards));為了管理文件大小，我們估計了將文件保持在一定大小所需的分片總數。有沒有辦法代替設置分片數量，設置文件大小并讓分片動態？

查看完整描述

1 回答

MMMHUHU

TA貢獻1834條經驗獲得超8個贊

根據設計，這是不可能的。如果您深入研究 Beam 的核心，您可以通過編程方式定義一個執行圖，然后運行它。ParDo該過程在同一節點或多個節點/VM 上是大規模并行的（意味著“并行執行”）。

這里的分片數量只是并行工作以寫入文件的“寫入器”的數量。然后PCollection將被拆分給所有worker寫入。

大小變化很大（例如消息的大小、文本編碼、壓縮與否以及壓縮因子……），Beam 不能依賴它來構建其圖形。

反對回復 2023-08-09

1 回答
0 關注
116 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

在 Dataflow 中從 BigQuery 寫入 Cloud Storage 時如何設置文件大小而

在 Dataflow 中從 BigQuery 寫入 Cloud Storage 時如何設置文件大小而

1 回答

添加回答