機器學習是一系列算法。這些算法通常需要大數據,大量的計算 。
hadoop是一種使用多臺服務器穩定的進行大規模數據批量處理的軟件框架。 其核心是hdfs和map reduce。
python是一個通用語言,支持廣泛,上手容易。當然大數據中的機器學習算法也是很早就可以用pyhon來編寫。
python編寫的機器學習算法,可以自己用gearman或者是自己建立的分布式計算 系統完成多臺PC服務器共同計算 。 當然也可以通過hadoop的stream接口,將python程序運行在hadoop的框架里。
這也是一種成功 的商業模式。