我有一個小的日常計算工作,從 BigQuery 導入數據,使用 Python 數值計算庫(pandas、numpy)來處理然后將結果寫入外部表(另一個項目中的 Firestore 或 MySQL)在 GCP 上部署它的推薦方法是什么?我們的 devops 建議我們不要僅僅為了批處理作業而創建單個 vm。他們不希望自己管理 VM 基礎架構,并且應該有支持批處理作業的服務。他們堅持讓我使用 Dataflow。但我認為 Dataflow 的分布式特性有點矯枉過正。非常感謝,2019 年 10 月 14 日更新:我正在考慮將批處理作業 docker 化并部署到 K8 集群。缺點是集群應該托管多個作業以值得設置和維護工作。有人可以就這種方法的可行性和適用性給我建議嗎?2019 年 10 月 15 日更新:感謝 Alex Titov 在https://googlecloud-community.slack.com/archives/C0G6VB4UE/p1571032864020000發表評論。根據他的建議,我將把我的工作分解成多個小的 Cloud Functions 組件,并通過 Cloud Scheduler 和/或 Cloud Composer 將它們作為管道鏈接在一起。
2 回答

守候你守候我
TA貢獻1802條經驗 獲得超10個贊
Cloud Dataflow完全符合您的要求,因此它比 VM 更容易管理、擴展和構建。事先只問自己幾個問題,如果它們不適用,請使用 Dataflow:
我是否希望僅限于特定的云提供商(在這種情況下為 GCP)
在這個項目中,是否使用了其他云服務,或者它們只是使用來自云的基礎設施(保持一致性)。另外,我們希望項目朝著什么方向發展?(使用自定義或云解決方案)
我想要絕對控制這個批處理軟件處理工具嗎?如果是這樣,您可能沒有 Dataflow
其他考慮因素,例如成本、部署時間、啟動時間
如果所有答案都傾向于云服務,那么就使用它。
添加回答
舉報
0/150
提交
取消