1 回答

TA貢獻1848條經驗 獲得超6個贊
通常使用 NLTK、gensim 和 scikit-learn,算法在其源代碼中實現,并在您的數據上本地運行,而無需發送其他數據進行處理。
我從未注意到這些軟件包的任何文檔/功能提到對遠程/云服務的依賴,也沒有看到用戶討論相同的問題。
但是,它們都是大型庫,具有許多我從未審查過的功能,并且許多貢獻者添加了新選項。而且我不知道項目負責人是否明確承諾永遠不依賴外部服務。
因此,一個明確的、永久的答案可能是不可能的。如果您的項目需要考慮這種安全性,您應該仔細查看您正在使用的那些函數/類/方法的文檔,甚至源代碼。(這些項目都不會故意隱藏對外部服務的依賴。)
您還可以在與外部服務聯系的能力受防火墻限制的系統上開發、測試和部署代碼,這樣您就可以檢測并阻止與外部機器的任何未公開或無意的通信。
另請注意,這些庫中的每一個都依賴于其他公共庫。如果您的擔憂還延伸到粗心或故意惡意插入私有數據泄露方法的可能性,您可能希望對這些庫和它們引入的所有其他庫進行更深入的分析。(僅僅信任頂級文檔可能是不夠的。)
此外,這些庫中的每一個都具有實用功能,可根據明確的用戶需求下載示例數據集或共享的非代碼資源(如停用詞或詞典列表)。使用此類功能不會將您的任何數據上傳到其他地方,但可能會泄露您正在使用特定功能。上面提到的基于防火墻的方法可能會干擾此類下載步驟。在高度警惕/偏執的情況下,您可能需要特別注意此類額外下載方法的使用和行為,以確保它們沒有做超出應有的更改本地環境或執行/替換其他庫代碼。
最后,通過堅持使用廣泛使用的包/功能,以及一些仍然持續可用的舊版本,您可能會受益于一點“社區保證”,即一個包的行為是易于理解的,沒有令人驚訝的依賴關系或漏洞。也就是說,許多其他用戶已經對這些代碼路徑給予了一些關注、分析和實際使用——因此任何問題都可能已經被發現、披露和修復。
添加回答
舉報