-
說明
聯機分析處理,簡稱OLAP(Online analytical processing),是計算機技術中快速解決多維分析問題的一種方法。
Online analytical processing (OLAP) is?software technology you can use to analyze business data from different points of view.
查看全部 -
NO SQL 一致性弱。適合存行為數據,不適合存交易數據。
CAP:consistency,?availability,?and?partition?
查看全部 -
初級學習:專家學習
查看全部 -
用數據代替專家!
查看全部 -
從數據中尋找規律,人們干了幾十年、上百年了?;A的學科:概率論和數理統計。
統計學問題:因為計算能力有限,往往采樣只采少量數據
查看全部 -
從歷史數據學習的 主題,是 機器 還是 人?
查看全部 -
1
查看全部 -
1
查看全部 -
機器學習常見算法
查看全部 -
機器學習經驗分析查看全部
-
機器學習規律分析是機器學習經驗查看全部
-
機器學習簡單認知
一.什么是機器學習:
1.利用計算機從歷史數據中找到規律,并把這些規律用到對未來不確定場景的決策。
2.不確定事件:例如本年度第三季度業績情況(判斷+決策),(靠規律),而不是例如太陽從東邊升起的確定性事件
3.機器學習和數據分析不同:
?????????????? 主體的不同:計算機--機器學習、人--數據分析。
?????????????? 數據分析是依靠人從歷史數據中找到規,學習效果很大程度以來于人的經驗與知識水平,機器學習就是想要拋棄對人的依賴,靠機器來挖掘規律。
4.
數據:機器學習只是解決問題的框架、算法,需要數據,數據量越大越準確。規律:通過機器學習不同的算法去找規律,不同的算法結果不同。規律=數學函數=數學公式
二.從數據中尋找規律
《概率論》《數據統計》是機器學習的基石
傳統的統計學,抽取一定量的樣本然后 進行概率統計,然后得到結論 之后進行假設檢驗
傳統的統計學受運算能力的限制,所以是用抽樣的方式;
而現在計算能力足夠強,就不需要采用抽樣的方式了。
做數據分析要對數據進行量化,才方便計算、比較。
傳統統計:抽樣-描述統計-結論-假設檢驗-推斷
機器學習不受計算量的限制,直接跳過抽樣
統計學受限于計算能力,依賴于采樣的方法,再反作用于原來的數據。步驟:抽樣-->描述統計-->結論-->假設檢驗。
?
現在無需考慮數據量的問題,無需抽樣技術,直接全樣。可利用可視化技術來觀察數據。要進行數據分析,需要先進行量化,用模型擬合規律,函數-->函數曲線-->擬合。高維度時很難用可視化的方法,只能用數學運算。三.機器學習發展的原動力
1.??? 從歷史數據中找出規律,把這些規律用到對未來自動作出決定。
2.??? 用數據代替expert——業務邏輯
3.??? 經濟驅動,數據
四.業務系統發展歷史
1、基于專家經驗 (運維和產品頭腦風暴,程序員寫邏輯)
2、基于統計---分維度統計。數據分析,受限于數據分析人員的經驗(數據報表,:聯機事務處理OLAPP(on-line transaction processing))
3、機器學習模式
模式①:離線機器學習,每天定時更新,跑算法,生成一個新的模型,循環,生成新的模型。對昨天數據的研究,用算法分析形成一個模型,指導明天的活動。缺點:存在偶然性,沒法給出正確的模型,如雙11的集中購物。
模式②:在線機器學習,實時的數據進行分析,不斷的形成模型對用戶進行指導
五.機器學習的經典應用
(一)購物籃分析
關聯算法,紙尿褲和啤酒
(二)用戶細分精準營銷
聚類:把用戶消費數據拿過來喂給算法,計算機運算,人為設置想要分為幾類。 分完類后,業務人員總結每類人員共同的消費特征。
(三)
樸素貝葉斯的算法:垃圾郵件識別
決策樹:?信用卡欺詐:
?ctr預估:點擊預估,核心為線性邏輯回歸 如:互聯網廣告? 百度搜索的廣告推廣
??? ?推薦系統:協同過濾算法,例如淘寶 買此產品的人同時購買了。
自然語言處理:情感分析(對文本抓關鍵情感詞),實體識別(提取文本主要數據,人名等)
深度學習:圖像識別
更多應用:語音識別,人臉識別,手勢控制,智慧機器人,實時翻譯
六.機器學習和數據分析區別
1:處理的數據不同
數據分析:交易數據、少量數據、采樣分析。對數據一致性要求嚴格,使用關系型數據庫sql serve、mysql、oracle。
機器學習:行為數據、海量數據、全量分析。需要保證數據吞吐量,數據一致性可以打折扣,所以用NoSQL數據庫(MongoDB、nosql)和分布式數據分析平臺(Hadoop、Spark)
交易數據 :電商網站用戶下單、銀行存取款賬單
行為數據:用戶的搜索歷史、瀏覽歷史、點擊歷史、評論
2.解決業務問題不同
數據分析,報告歷史上發生的事情。
機器學習:通過歷史上發生的事情,來預測未來的事情。
3.技術手段不同
數據分析:分析方式是用戶(數據分析師)驅動的,交互式分析。分析能力受限于數據分析師的能力,數據屬性和維度很有限。
機器學習:分析方式是數據驅動的,自動進行知識發現。數據屬性和維度數量級很大。
4.參與者不同
數據分析,分析師能力決定結果,目標用戶是公司高層。
機器學習,數據質量決定結果,目標用戶是個體。
七.機器學習算法分類
算法分類1:根據數據有無標簽Y進行分類
對樣本數據進行一些訓練,得到模型,通過模型判斷X與Y的關系。
有監督學習:訓練數據中已經明確給出了該數據的Y,給數據打上了標簽。如:已對郵件打上了“垃圾郵件”、“正常郵件”的標簽。包括:分類算法、回歸算法。
無監督學習:訓練數據并沒有Y,數據沒有任何標簽。典型算法:聚類。
半監督學習:也叫強化學習,數據越多,模型越好。
算法分類2:根據解決問題進行分類
分類與回歸、聚類、標注
算法分類3(重要,直指本質)
生成模型:用來說明分類問題。返回的是屬于各個類的概率。
判別模型:用來說明分類問題。直接給一個函數,數據輸入到函數中,直接返回類別。
八.機器學習常見算法
1.分類---C4.5使用決策樹算法,可以解決【分類】&【回歸】問題;
2.聚類---K-Means算法,屬于無監督方法,解決電信用戶分類問題;
3.統計學習---SVM(支持向量機)可以解決分類(主)和回歸問題,有很好的表現和深厚的數學理論支撐,曾經被認為是最好的分類算法。現在光芒被【深度學習】掩蓋了。有一定的數學門檻,面試中經常被問。
4.關聯分析---Apriori應用于“尿片和紙尿褲”案例,最早解決了頻繁項集問題。由于需要頻繁訪問數據庫,已被淘汰。取代它的是華人開的【FP-Growth】算法。應用:電商的推薦系統,但目前有更好的替代方法。
5.統計分析---EM算法是一個算法框架,用于解決一系列問題。
6.連接挖掘---PageRank。Google使用的網頁排序算法,很著名。
7.集裝與推進---AdaBoosts算法,應用于人臉識別,本質為改進的決策樹算法,屬于有監督的分類算法。
8.分類---kNN。相對簡單的分類算法,有監督。
9.分類---Naive Bayes樸素貝葉斯算法,用于識別垃圾郵件。
目前不常用的算法:Apriori和CART。
高階算法:
FP-Growth---關聯分析Apriori的改進版,華人發明的。
邏輯回歸---推薦 搜索結果的排序。
RF隨機森林---梯度提升決策樹GBDT,與AdaBoost都屬于對決策樹的改進。
LDA---文本分析,自然語言處理。
Wod2Vector---文本挖掘,最終是一個結果。
HMM---隱馬爾可夫模型,CRF條件隨機場,自然語言處理,文本挖掘。
九.機器學習解決問題的框架
解決問題的框架:
1.??? 確定目標
業務需求:知道要做什么。
數據:學習的基礎(數據可以直接就喂給算法,數據對模型的影響非常大,數據決定了最終的預測結果)
特征工程:數據預處理,提取特征 70%-數據的提取非常重要2.??? 訓練模型(重點)
定義模型:確定算法。
定義損失函數:找出算法的偏差。
優化算法:對算法進行優化,讓損失函數取最小
3.??? 模型評估
交叉驗證:將不同的算法帶入同一類數據中,驗證效果。
效果評估:可以看出幾個算法之間具體的差別、效果
查看全部 -
常見機器學習算法
查看全部 -
NoSQL 行為數據處理。
查看全部 -
利用計算機從歷史數據中尋找規律,并把規律運用于未來的場景決策查看全部
舉報