亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

初識機器學習-理論篇

stonedog 全棧工程師
難度入門
時長 1小時48分
學習人數
綜合評分9.57
290人評價 查看評價
9.5 內容實用
9.6 簡潔易懂
9.6 邏輯清晰


  • 說明

    聯機分析處理,簡稱OLAP(Online analytical processing),是計算機技術中快速解決多維分析問題的一種方法。

    Online analytical processing (OLAP) is?software technology you can use to analyze business data from different points of view.

    查看全部

  • NO SQL 一致性弱。適合存行為數據,不適合存交易數據。


    CAP:consistency,?availability,?and?partition?

    查看全部
  • 初級學習:專家學習

    查看全部
  • 用數據代替專家!

    查看全部
  • 從數據中尋找規律,人們干了幾十年、上百年了?;A的學科:概率論和數理統計。

    統計學問題:因為計算能力有限,往往采樣只采少量數據

    查看全部
  • 從歷史數據學習的 主題,是 機器 還是 人?

    查看全部
  • 1

    查看全部
  • 1

    查看全部
  • 機器學習常見算法

    查看全部
  • 機器學習經驗分析636073e30001501005400960.jpg
    查看全部
    0 采集 收起 來源:典型應用-聚類

    2022-11-01

  • 機器學習規律分析是機器學習經驗
    查看全部
  • 機器學習簡單認知

    一.什么是機器學習:
    1.利用計算機從歷史數據中找到規律,并把這些規律用到對未來不確定場景的決策。
    2.不確定事件:例如本年度第三季度業績情況(判斷+決策),(靠規律),而不是例如太陽從東邊升起的確定性事件
    3.機器學習和數據分析不同:
    ?????????????? 主體的不同:計算機--機器學習、人--數據分析。
    ?????????????? 數據分析是依靠人從歷史數據中找到規,學習效果很大程度以來于人的經驗與知識水平,機器學習就是想要拋棄對人的依賴,靠機器來挖掘規律。
    4.
    數據:機器學習只是解決問題的框架、算法,需要數據,數據量越大越準確。

    規律:通過機器學習不同的算法去找規律,不同的算法結果不同。規律=數學函數=數學公式

    二.從數據中尋找規律

    《概率論》《數據統計》是機器學習的基石
    傳統的統計學,抽取一定量的樣本然后 進行概率統計,然后得到結論 之后進行假設檢驗
    傳統的統計學受運算能力的限制,所以是用抽樣的方式;
    而現在計算能力足夠強,就不需要采用抽樣的方式了。
    做數據分析要對數據進行量化,才方便計算、比較。
    傳統統計:抽樣-描述統計-結論-假設檢驗-推斷
    機器學習不受計算量的限制,直接跳過抽樣
    統計學受限于計算能力,依賴于采樣的方法,再反作用于原來的數據。步驟:抽樣-->描述統計-->結論-->假設檢驗。
    ?
    現在無需考慮數據量的問題,無需抽樣技術,直接全樣。可利用可視化技術來觀察數據。要進行數據分析,需要先進行量化,用模型擬合規律,函數-->函數曲線-->擬合。高維度時很難用可視化的方法,只能用數學運算。

    三.機器學習發展的原動力

    1.??? 從歷史數據中找出規律,把這些規律用到對未來自動作出決定。

    2.??? 用數據代替expert——業務邏輯

    3.??? 經濟驅動,數據

    四.業務系統發展歷史

    1、基于專家經驗 (運維和產品頭腦風暴,程序員寫邏輯)

    2、基于統計---分維度統計。數據分析,受限于數據分析人員的經驗(數據報表,:聯機事務處理OLAPP(on-line transaction processing))

    3、機器學習模式

    模式①:離線機器學習,每天定時更新,跑算法,生成一個新的模型,循環,生成新的模型。對昨天數據的研究,用算法分析形成一個模型,指導明天的活動。缺點:存在偶然性,沒法給出正確的模型,如雙11的集中購物。

    模式②:在線機器學習,實時的數據進行分析,不斷的形成模型對用戶進行指導

    五.機器學習的經典應用

    (一)購物籃分析

    關聯算法,紙尿褲和啤酒

    (二)用戶細分精準營銷

    聚類:把用戶消費數據拿過來喂給算法,計算機運算,人為設置想要分為幾類。 分完類后,業務人員總結每類人員共同的消費特征。

    (三)

    樸素貝葉斯的算法:垃圾郵件識別

    決策樹:?信用卡欺詐:

    ?ctr預估:點擊預估,核心為線性邏輯回歸 如:互聯網廣告? 百度搜索的廣告推廣

    ??? ?推薦系統:協同過濾算法,例如淘寶 買此產品的人同時購買了。

    自然語言處理:情感分析(對文本抓關鍵情感詞),實體識別(提取文本主要數據,人名等)

    深度學習:圖像識別

    更多應用:語音識別,人臉識別,手勢控制,智慧機器人,實時翻譯

    六.機器學習和數據分析區別

    1:處理的數據不同

    數據分析:交易數據、少量數據、采樣分析。對數據一致性要求嚴格,使用關系型數據庫sql serve、mysql、oracle。

    機器學習:行為數據、海量數據、全量分析。需要保證數據吞吐量,數據一致性可以打折扣,所以用NoSQL數據庫(MongoDB、nosql)和分布式數據分析平臺(Hadoop、Spark)

    交易數據 :電商網站用戶下單、銀行存取款賬單

    行為數據:用戶的搜索歷史、瀏覽歷史、點擊歷史、評論

    2.解決業務問題不同

    數據分析,報告歷史上發生的事情。

    機器學習:通過歷史上發生的事情,來預測未來的事情。

    3.技術手段不同

    數據分析:分析方式是用戶(數據分析師)驅動的,交互式分析。分析能力受限于數據分析師的能力,數據屬性和維度很有限。

    機器學習:分析方式是數據驅動的,自動進行知識發現。數據屬性和維度數量級很大。

    4.參與者不同

    數據分析,分析師能力決定結果,目標用戶是公司高層。

    機器學習,數據質量決定結果,目標用戶是個體。

    七.機器學習算法分類

    算法分類1:根據數據有無標簽Y進行分類

    對樣本數據進行一些訓練,得到模型,通過模型判斷X與Y的關系。

    有監督學習:訓練數據中已經明確給出了該數據的Y,給數據打上了標簽。如:已對郵件打上了“垃圾郵件”、“正常郵件”的標簽。包括:分類算法、回歸算法。

    無監督學習:訓練數據并沒有Y,數據沒有任何標簽。典型算法:聚類。

    半監督學習:也叫強化學習,數據越多,模型越好。

    算法分類2:根據解決問題進行分類

    分類與回歸、聚類、標注

    算法分類3(重要,直指本質)

    生成模型:用來說明分類問題。返回的是屬于各個類的概率。

    判別模型:用來說明分類問題。直接給一個函數,數據輸入到函數中,直接返回類別。

    八.機器學習常見算法

    1.分類---C4.5使用決策樹算法,可以解決【分類】&【回歸】問題;

    2.聚類---K-Means算法,屬于無監督方法,解決電信用戶分類問題;

    3.統計學習---SVM(支持向量機)可以解決分類(主)和回歸問題,有很好的表現和深厚的數學理論支撐,曾經被認為是最好的分類算法。現在光芒被【深度學習】掩蓋了。有一定的數學門檻,面試中經常被問。

    4.關聯分析---Apriori應用于“尿片和紙尿褲”案例,最早解決了頻繁項集問題。由于需要頻繁訪問數據庫,已被淘汰。取代它的是華人開的【FP-Growth】算法。應用:電商的推薦系統,但目前有更好的替代方法。

    5.統計分析---EM算法是一個算法框架,用于解決一系列問題。

    6.連接挖掘---PageRank。Google使用的網頁排序算法,很著名。

    7.集裝與推進---AdaBoosts算法,應用于人臉識別,本質為改進的決策樹算法,屬于有監督的分類算法。

    8.分類---kNN。相對簡單的分類算法,有監督。

    9.分類---Naive Bayes樸素貝葉斯算法,用于識別垃圾郵件。

    目前不常用的算法:Apriori和CART。

    高階算法:

    FP-Growth---關聯分析Apriori的改進版,華人發明的。

    邏輯回歸---推薦 搜索結果的排序。

    RF隨機森林---梯度提升決策樹GBDT,與AdaBoost都屬于對決策樹的改進。

    LDA---文本分析,自然語言處理。

    Wod2Vector---文本挖掘,最終是一個結果。

    HMM---隱馬爾可夫模型,CRF條件隨機場,自然語言處理,文本挖掘。

    九.機器學習解決問題的框架

    解決問題的框架:

    1.??? 確定目標

    業務需求:知道要做什么。

    數據:學習的基礎(數據可以直接就喂給算法,數據對模型的影響非常大,數據決定了最終的預測結果)
    特征工程:數據預處理,提取特征 70%-數據的提取非常重要

    2.??? 訓練模型(重點)

    定義模型:確定算法。

    定義損失函數:找出算法的偏差。

    優化算法:對算法進行優化,讓損失函數取最小

    3.??? 模型評估

    交叉驗證:將不同的算法帶入同一類數據中,驗證效果。

    效果評估:可以看出幾個算法之間具體的差別、效果

    查看全部
  • 常見機器學習算法

    630751fd0001f9f707200404.jpg
    查看全部
  • NoSQL 行為數據處理。

    查看全部
  • 利用計算機從歷史數據中尋找規律,并把規律運用于未來的場景決策
    查看全部

舉報

0/150
提交
取消
課程須知
1、有一定數據分析經驗。 2、對機器學習有熱情的同學。
老師告訴你能學到什么?
1.什么是機器學習 2.機器學習的典型行業案例 3.機器學習和傳統數據分析的區別 4.機器學習的經典算法

微信掃碼,參與3人拼團

微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

友情提示:

您好,此課程屬于遷移課程,您已購買該課程,無需重復購買,感謝您對慕課網的支持!