Python在大數據領域是怎么來應用的
Python在大數據領域是怎么來應用的?
慕桂英4014372
2018-11-21 10:18:58
TA貢獻1784條經驗 獲得超7個贊
有些辦法。比如使用array, numpy.array。 主要的思路是節約內存的使用,同時提高數據查詢的效率。
如果能夠注意這些內容,處理幾個GB的數據還是輕松的。 接下來就是分布式計算。 按mapreduce的思路。數據盡量在本地處理。所以算法上要優化。主要是分段。
不管怎么說。這幾個方面所有的語言都是相同的。即使你用的是C語言也一樣要考慮到這些。大數據因為量大,算法也需要改進。
對于不能改進的算法(好象還沒有遇到)也只好用python接C的擴展模塊了。 好在python與C有很好的接口。輕松就接上。
最近比較流行的方法是使用cython,一方面可以略略提高速度,另一方面與C有無縫的接口。
java在處理大數據方面速度與易用性略略占優勢。C++也經常會使用在核心算法上。語言本身都不是問題。大部分時候大數據還是在處理算法本身而不是語言。
在原型階段python很方便,快速,靈活。所以大數據處理中python是幾種語言中最適合的。特別是早期探索階段。業務與算法經常變更。到了后期基本上都是C++了。java比較適合工程化階段。
舉報