亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用 Azure 機器學習服務訓練大型模型時如何克服 TrainingException?

使用 Azure 機器學習服務訓練大型模型時如何克服 TrainingException?

MMTTMM 2021-12-29 18:18:55
我正在訓練一個大型模型,試圖在 Azure 筆記本中使用Azure 機器學習服務。因此,我創建了一個Estimator在本地進行培訓:from azureml.train.estimator import Estimatorestimator = Estimator(source_directory='./source_dir',                      compute_target='local',                      entry_script='train.py')(我train.py應該從一個大的詞向量文件開始加載和訓練)。運行時run = experiment.submit(config=estimator)我得到訓練異常:====================================================================嘗試拍攝 /data/home/username/notebooks/source_dir 的快照時,您的總快照大小超過 300.0 MB 的限制。請參閱 http://aka.ms/aml-largefiles了解如何處理大文件。====================================================================錯誤中提供的鏈接可能已損壞。我的內容./source_dir確實超過了 300 MB。我該如何解決這個問題?
查看完整描述

2 回答

?
子衿沉夜

TA貢獻1828條經驗 獲得超3個贊

您可以將訓練文件放在外面,source_dir這樣它們就不會作為提交實驗的一部分上傳,然后將它們單獨上傳到數據存儲(基本上使用與您的工作區關聯的 Azure 存儲)。然后您需要做的就是從train.py.

有關如何將數據上傳到數據存儲然后從訓練文件訪問它的示例,請參閱訓練模型教程。


查看完整回答
反對 回復 2021-12-29
?
喵喔喔

TA貢獻1735條經驗 獲得超5個贊

在我閱讀了 GitHub 問題Encounter |total Snapshot size 300MB while start logging和官方文檔Manage and request quotas for Azure resources for Azure ML service 后,我認為這是一個未知問題,需要一些時間等待 Azure 修復。

同時,我建議您可以嘗試將當前工作遷移到其他服務Azure Databricks,上傳您的數據集和代碼,然后在托管在 HDInsight Spark Cluster 上的 Azure Databricks notebook 中運行它,而無需擔心內存或存儲限制。你可以在 Azure Databricks 上參考Azure ML 的這些示例。


查看完整回答
反對 回復 2021-12-29
  • 2 回答
  • 0 關注
  • 211 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號