亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

在 GCP 上使用 python numpy 和 pandas 部署小批量作業

在 GCP 上使用 python numpy 和 pandas 部署小批量作業

心有法竹 2022-06-22 17:37:46
我有一個小的日常計算工作,從 BigQuery 導入數據,使用 Python 數值計算庫(pandas、numpy)來處理然后將結果寫入外部表(另一個項目中的 Firestore 或 MySQL)在 GCP 上部署它的推薦方法是什么?我們的 devops 建議我們不要僅僅為了批處理作業而創建單個 vm。他們不希望自己管理 VM 基礎架構,并且應該有支持批處理作業的服務。他們堅持讓我使用 Dataflow。但我認為 Dataflow 的分布式特性有點矯枉過正。非常感謝,2019 年 10 月 14 日更新:我正在考慮將批處理作業 docker 化并部署到 K8 集群。缺點是集群應該托管多個作業以值得設置和維護工作。有人可以就這種方法的可行性和適用性給我建議嗎?2019 年 10 月 15 日更新:感謝 Alex Titov 在https://googlecloud-community.slack.com/archives/C0G6VB4UE/p1571032864020000發表評論。根據他的建議,我將把我的工作分解成多個小的 Cloud Functions 組件,并通過 Cloud Scheduler 和/或 Cloud Composer 將它們作為管道鏈接在一起。
查看完整描述

2 回答

?
守候你守候我

TA貢獻1802條經驗 獲得超10個贊

Cloud Dataflow完全符合您的要求,因此它比 VM 更容易管理、擴展和構建。事先只問自己幾個問題,如果它們不適用,請使用 Dataflow:

  • 我是否希望僅限于特定的云提供商(在這種情況下為 GCP)

  • 在這個項目中,是否使用了其他云服務,或者它們只是使用來自云的基礎設施(保持一致性)。另外,我們希望項目朝著什么方向發展?(使用自定義或云解決方案)

  • 我想要絕對控制這個批處理軟件處理工具嗎?如果是這樣,您可能沒有 Dataflow

  • 其他考慮因素,例如成本、部署時間、啟動時間

如果所有答案都傾向于云服務,那么就使用它。


查看完整回答
反對 回復 2022-06-22
?
千萬里不及你

TA貢獻1784條經驗 獲得超9個贊

如果您將您的工作容器化,則有 2 個無服務器解決方案可以運行它。一天,當 Cloud Run 可以持續超過 15 分鐘時,將提供第三個(在路線圖中,但沒有發布日期)

  1. 使用云構建??紤]正確設置超時。事實上,Cloud Build 是為運行任何容器而設計的。我為此寫了一篇文章

  2. 使用人工智能平臺。一位(偉大的)谷歌員工發表了一篇關于此的文章

這兩種解決方案都很棒,您可以選擇運行容器的底層 VM 的機器類型。多虧了這一點,您不必管理 K8S 集群并在不使用時為其付費。


查看完整回答
反對 回復 2022-06-22
  • 2 回答
  • 0 關注
  • 134 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號