亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

來自 NLTK、Gensim、Scikit Learn 的 API 調用

來自 NLTK、Gensim、Scikit Learn 的 API 調用

一只名叫tom的貓 2022-07-05 19:06:43
我計劃使用 NLTK、Gensim 和 Scikit Learn 進行一些 NLP/文本挖掘。但我將使用這些庫來處理我的組織數據。問題是在使用這些庫時“他們是否會調用 API 來處理數據”,或者是從 python shell 中取出的數據進行處理。這是一個安全問題,所以想知道是否有人有任何文檔可供參考。
查看完整描述

1 回答

?
慕勒3428872

TA貢獻1848條經驗 獲得超6個贊

通常使用 NLTK、gensim 和 scikit-learn,算法在其源代碼中實現,并在您的數據上本地運行,而無需發送其他數據進行處理。

我從未注意到這些軟件包的任何文檔/功能提到對遠程/云服務的依賴,也沒有看到用戶討論相同的問題。

但是,它們都是大型庫,具有許多我從未審查過的功能,并且許多貢獻者添加了新選項。而且我不知道項目負責人是否明確承諾永遠不依賴外部服務。

因此,一個明確的、永久的答案可能是不可能的。如果您的項目需要考慮這種安全性,您應該仔細查看您正在使用的那些函數/類/方法的文檔,甚至源代碼。(這些項目都不會故意隱藏對外部服務的依賴。)

您還可以在與外部服務聯系的能力受防火墻限制的系統上開發、測試和部署代碼,這樣您就可以檢測并阻止與外部機器的任何未公開或無意的通信。

另請注意,這些庫中的每一個都依賴于其他公共庫。如果您的擔憂還延伸到粗心或故意惡意插入私有數據泄露方法的可能性,您可能希望對這些庫和它們引入的所有其他庫進行更深入的分析。(僅僅信任頂級文檔可能是不夠的。)

此外,這些庫中的每一個都具有實用功能,可根據明確的用戶需求下載示例數據集或共享的非代碼資源(如停用詞或詞典列表)。使用此類功能不會將您的任何數據上傳到其他地方,但可能會泄露您正在使用特定功能。上面提到的基于防火墻的方法可能會干擾此類下載步驟。在高度警惕/偏執的情況下,您可能需要特別注意此類額外下載方法的使用和行為,以確保它們沒有做超出應有的更改本地環境或執行/替換其他庫代碼。

最后,通過堅持使用廣泛使用的包/功能,以及一些仍然持續可用的舊版本,您可能會受益于一點“社區保證”,即一個包的行為是易于理解的,沒有令人驚訝的依賴關系或漏洞。也就是說,許多其他用戶已經對這些代碼路徑給予了一些關注、分析和實際使用——因此任何問題都可能已經被發現、披露和修復。


查看完整回答
反對 回復 2022-07-05
  • 1 回答
  • 0 關注
  • 151 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號