? ? 需要廣而深的閱讀世界著名會議論文跟蹤熱點技術。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有數據挖掘相關領域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
? ? 可以嘗試參加數據挖掘比賽培養全方面解決實際問題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
? ? 可以嘗試為一些開源項目貢獻自己的代碼,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體可以在SourceForge或GitHub.上發現更多好玩的項目)。
? ? 經典圖書推薦:《機器學習》 《模式分類》《統計學習理論的本質》《統計學習方法》《數據挖掘實用機器學習技術》《R語言實踐》,英文素質是科研人才必備的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
2016-10-04
2).數據挖掘工程師
? ? 需要理解主流機器學習算法的原理和應用。
? ? 需要熟悉至少一門編程語言如(Python、C、C++、Java、Delphi等)。
? ? 需要理解數據庫原理,能夠熟練操作至少一種數據庫(Mysql、SQL、DB2、Oracle等),能夠明白MapReduce的原理操作以及熟練使用Hadoop系列工具更好。
? ? 經典圖書推薦:《數據挖掘概念與技術》、《機器學習實戰》、《人工智能及其應用》、《數據庫系統概論》、《算法導論》、《Web數據挖掘》、《 Python標準庫》、《thinking in Java》、《Thinking in C++》、《數據結構》等。
(3).科學研究方向
? ? 需要深入學習數據挖掘的理論基礎,包括關聯規則挖掘 (Apriori和FPTree)、分類算法(C4.5、KNN、Logistic Regression、SVM等) 、聚類算法 (Kmeans、Spectral Clustering)。目標可以先吃透數據挖掘10大算法各自的使用情況和優缺點。
? ? 相對SAS、SPSS來說R語言更適合科研人員The R Project for Statistical Computing,因為R軟件是完全免費的,而且開放的社區環境提供多種附加工具包支持,更適合進行統計計算分析研究。雖然目前在國內流行度不高,但是強烈推薦。
? ? 可以嘗試改進一些主流算法使其更加快速高效,例如實現Hadoop平臺下的SVM云算法調用平臺--web 工程調用hadoop集群。
? ? 需要廣而深的閱讀世界著名會議論文跟蹤熱點技術。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有數據挖掘相關領域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
? ? 可以嘗試參加數據挖掘比賽培養全方面解決實際問題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
? ? 可以嘗試為一些開源項目貢獻自己的代碼,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體可以在SourceForge或GitHub.上發現更多好玩的項目)。
? ? 經典圖書推薦:《機器學習》 《模式分類》《統計學習理論的本質》《統計學習方法》《數據挖掘實用機器學習技術》《R語言實踐》,英文素質是科研人才必備的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
數據挖掘涵蓋面很廣,系統的學習個人建議依照以下路線:
? ? 找一本教材,個人推薦李航的《統計機器學習》
? ? 可以去看網易上關于機器學習的公開課,是Standford的Prof. Ng的視頻課程,超級棒。
? ? 結合教材和視頻,將機器學習算法的公式推一遍,然后用Matlab或者python跑一跑數據,找點感覺。
? ? 對于數學也要加強,特別在概率論方面。
上面說的是機器學習,其實已經包括了數據挖掘的大部分,在上面了解的差不多之后 ,可以試著去做一些有意思的項目,比如去分析女神的微博情感,或者參加一些數據挖掘比賽,kaggle上有很多比賽可以去做。
如果你想從事數據挖掘,你必須具備:數據挖掘模型、算法的數學知識以及一些數據分析軟件(SPSS、SAS、matlab、clementine)
一些數據庫相關的知識(oracle、mySQL)了解市場、其它部門需求當然這些都是一點一滴積累起來的,沒必要一蹴而就,特別是對市場、行業的了解以及對公司其它部門的需求的理解非常重要,這決定了你能否從基礎的分析人員上升到產品層、決策層,都是要在實際的工作中積累起來的。。
數據挖掘工程師
崗位描述Job Description
阿里巴巴每天處理上百億次的用戶請求,其中不少服務需要利用海量數據和機器智能來滿足用戶需求。如:營銷推廣、搜索、推薦、翻譯、圖像識別、語音識別等。
在這里,你將和頂尖科學家和大牛工程師們一起分析討論業務場景中的問題,通過建立數學模型,并利用海量數據和底層算法庫,解決各種業務問題。
如何提升點擊率、用戶最喜歡哪個品牌、如何讓商家得到更多轉化成交……一個個實際問題讓你在提升客戶體驗的同時,深刻理解電子商務的方方面面。
通過仔細分析數據分布、鏈接關系以及各種異常檢測,你將能夠通過數據洞悉問題本質,利用海量機器和數據解決各種排序、分類、聚類問題。
崗位要求Qualifications
1、 本科以上學歷、碩士博士優先。具有很強的邏輯分析能力,對數據敏感。
2、 具有一定的數據建模實踐經驗,扎實的編程基礎,精通至少一門編程語言。熟悉R語言優先。
3、 熟悉常用機器學習算法,對信息檢索、自然語言處理、圖像處理、語音處理等相關領域的應用問題有大量實踐經驗者優先。
4、有實際成果并發表在國際頂級會議、期刊者優先。
5、 擁有海量數據處理經驗者、熟悉Map-Reduce模型者優先。
6、擅長與商業伙伴的交流溝通,具有優秀的報告講解能力及溝通能力優先。
7、 能夠積極創新, 樂于面對挑戰, 負責敬業。
8、 優秀的團隊合作精神;誠實, 勤奮, 嚴謹。
數據研發工程師
崗位描述Job Description
如果你想,參與阿里大數據的采集、存儲、處理,通過分布式大數據平臺加工數據,支持業務管理決策。
如果你想,參與阿里大數據體系的設計、開發、維護,通過數據倉庫、元數據、質量體系有效的管理和組織幾百P的數據。
如果你想,參與阿里大數據產品的研發,通過對數據的理解,發揮你的商業sense,發掘數據價值,探索大數據商業化。
如果你想,接觸世界領先的大數據處理與應用的技術和平臺,獲得大數據浪潮之巔的各類大牛的指導。
崗位要求Qualifications
如果你,所學專業是計算機、數學、統計等相關專業。
如果你,有較強的動手能力和學習能力,熟悉一門數據處理語言,如SQL、JAVA、Python、Perl等,熟悉unix或者linux操作。
如果你,具備扎實的專業基礎,良好的溝通能力和團隊合作,主動積極、樂于面對挑戰。
如果你,有參與數據處理、分析、挖掘等相關項目更好。
如果你,對Hadoop、Hive、Hbase等分布式平臺有一定的理解更好。
那么,成為數據研發工程師吧,這里就是你的舞臺。
法工程師
崗位描述Job Description
阿里巴巴對海量數據的處理,需要涉及包括信息檢索、自然語言處理、機器學習、數據挖掘、分布式計算等一系列的專業領域。
在這里,你將與這些領域內的頂尖科學家和大牛工程師們一起分析討論數學模型的各種優劣,結合業務中的實際問題,設計實現各種算法。
從給定優化目標的優化問題求解,到稀疏矩陣的分解;沒解過上億維度空間的問題就不能算是大數據算法工程師。
支持向量機、圖模型、波爾茨曼機……沒試過最新最牛的模型,就不能說已經對上億用戶的體驗負責。
內存壓縮、紅黑樹、并行度,不能把一個好算法用最高效的代碼實現就不是一個好的算法工程師。
崗位要求Qualifications
1、本科以上學歷、碩士博士優先。扎實的統計學、數據挖掘、機器學習理論基礎,能夠利用高等數學知識推演高維數學模型。
2、 具有一定的數據建模實踐經驗,扎實的編程基礎,精通至少一門編程語言。熟悉R語言優先。
3、 熟悉矩陣理論、概率論、凸優化等數學理論模型者或具有較好數學基礎者優先。
4、具有信息檢索、自然語言處理、圖像處理、語音處理、深度學習、知識圖譜、等領域相關經驗,并在模型創新上有所建樹者優先。
5、 擁有海量數據處理經驗者、熟悉Map-Reduce模型者優先。
6、擅長與商業伙伴的交流溝通,具有優秀的報告講解能力及溝通能力優先。
7、 能夠積極創新, 樂于面對挑戰, 負責敬業。
8、 優秀的團隊合作精神;誠實, 勤奮, 嚴謹。?
端開發工程師
崗位描述Job Description
在這里,你將參與交互設計師一起,美化產品線 Web功能的設計;
與視覺設計師一起,參與完成產品線 Web功能的開發與實現;
有機會參與各產品線用戶體驗、性能、架構等方面的改進與優化;
你還將加入到我們業內最前沿Web技術的研究與開發中。
崗位要求Qualifications
我們希望你,可以熟練使用各種 Web 前端技術,包括(X)HTML/CSS/Javascript/JSON 等,并有相關的項目開發經驗或成果;
我們希望你,有基于Ajax 應用的開發經驗;深刻理解 Web 標準,對可用性、可訪問性等相關知識有實際的了解; 對算法、數據結構以及后臺開發(PHP/Java等)有一定了解;
我們希望你,關注新事物、新技術,有較強的學習能力,喜歡挑戰;并且,個性樂觀開朗,邏輯性強,善于和各種背景的人合作。
還等什么呢?快來加入我們的阿里巴巴,期待你的大展身手!我們希望你,可以熟練使用各種 Web 前端技術,包括(X)HTML/CSS/Javascript/JSON 等,并有相關的項目開發經驗或成果;
工作地點Location
成都市(Chengdu),上海市(Shanghai),杭州市(Hangzhou),北京市(Beijing),廣州市(Guangzhou)
參加面試的城市或地區Interview City or Region
杭州市(Hangzhou),上海市(Shanghai),成都市(Chengdu),南京市(Nanjing),北京市(Beijing),天津市(Tianjin),廣州市(Guangzhou),武漢市(Wuhan),哈爾濱市(Haerbin),西安市(Xian)
數據產品經理
崗位描述Job Description
如果你想,了解阿里大數據的來龍去脈,參與解讀大數據背后的業務及商業意義;
如果你想,用數據“說話”,全面及時反映全局運營狀況,打造“業務瞄準器”,把數據轉化成生產力,提升業務運作效率
如果你想,直面業務團隊,管理和分析客戶需求,形成需求分析和產品設計,推動并解決業務問題,保障業務戰略發展和支持管理決策
如果你想,參與大數據建設,搭建阿里大數據底層的統一公共層業務模型架構和面向公司內外客戶的數據產品,提供標準、服務、安全、共享的數據服務平臺
如果你想,直面千百萬商家,深入客戶溝通和了解客戶需求,規劃、設計和落地以商家為目標客戶的數據產品并持續優化,為商家做生意提供數據分析、診斷、建議、優化甚至預測服務
崗位要求Qualifications
如果你,所學專業是計算機、數學、統計、中文、信息管理與科學等相關專業
如果你,了解互聯網特別是電子商務,具備良好的數據敏感度和業務視野,能夠敏銳的捕獲數據價值和產品機會
如果你,有強烈的責任感和ownership,具有積極主動追求產品和幫助客戶成功的意愿和熱情,并且愛好挑戰
如果你,具備很好的文筆和良好的邏輯思維、良好的溝通能力和團隊協作能力、以及很強的學習和動手能力
如果你,熟悉一門數據處理語言,如SQL、JAVA、Python、Perl等,熟悉unix或者linux操作則更好
那么,加入數據產品經理的領域吧,讓我們一起來解讀大數據時代充滿激情挑戰和創新思維的數據產品吧!
工作地點Location
杭州市(Hangzhou),北京市(Beijing),廣州市(Guangzhou)
參加面試的城市或地區Interview City or Region
杭州市(Hangzhou),上海市(Shanghai),成都市(Chengdu),北京市(Beijing),廣州市(Guangzhou),武漢市(Wuhan)