-
重點重點重點重點重點
查看全部 -
1.利用計算機從歷史數據中找出規律,并把這些規律用到對未來不確定場景的決策中。?
2.概率論和數據分析?
3.原動力 自動決定 數據代替專家 經濟驅動?
4..業務系統發展歷史 基于專家經驗 基于統計-分緯度統計 機械學習-在線學習?
5.離線學習 在線學習?
6.購物籃分析 關聯規則 啤酒加尿布?
7.用戶細分精準營銷 聚類?
8.垃圾郵件 樸素貝葉斯算法?
9.信用卡欺詐 決策樹?
10.互聯網廣告 ctr預估?
11.推薦系統 協同過濾?
12.自然語言處理 情感分析 實體識別?
13.圖像識別 深度學習?
14.語音識別 個性化醫療 情感分析 人臉識別 自動駕駛 智慧機械人 私人虛擬助理 手勢控制 視頻內容自動識別 機械實時翻譯?
15.數據分析和機械學習的區別 交易數據VS行為數據 少量數據VS海量數據 采樣分析VS全量分析 歷史VS未來 用戶驅動VS數據驅動目標用戶公司高層VS普通個體?
16.算法分類1 有監督學習 分類算法 回歸算法 無監督學習 聚類 半監督學習 越學越好?
17.算法分類2 分類與回歸 聚類 標注?
18.算法分類3 生成模型 判別模型?
19.常見算法 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN NaiveBayes CART FP-Growth LDA 邏輯回歸 RF GBDT Word2Vector HMM CRF 推薦算法 深度學習?
20.機械學習解決問題的框架 特征工程 損失函數?
21.案例 圖片按照色彩聚類
查看全部 -
1.機器學習就是利用計算機從歷史數據中找規律,把這些規律用到對未來不確定場景的決策?!娟P鍵詞 不確定因素 判斷 決策 依靠的是計算機的歷史數據的規律挖掘】 2.機器學習依靠計算機 ? 數據分析依靠人的經驗 知識水平 3.機器學習發展的原動力是 從歷史數據找規律用到對未來自動做決定 ?用數據代替expert【業務邏輯】 經濟驅動,數據變現 4.業務系統發展的歷史:基于專家經驗->基于統計(離線學習)->機器學習(在線學習) 5.典型應用:關聯規則 算法 【啤酒和紙尿褲】 6.用戶細分精準營銷:聚類 算法 ?【神州大眾卡,全球通,神州行,動感地帶。。?!?7.垃圾郵件:樸素貝葉斯 算法 8.信用卡欺詐:決策樹 9.互聯網廣告:ctr預估【預測點擊率進行排序】 10.推薦系統:協同過濾 11.自然語言處理 ?情感分析,實體識別 12.圖像識別:深度學習 13.更多應用:語音識別,個性化醫療,智慧機器人,私人虛擬助理,手勢控制,人臉識別,自動駕駛,視頻內容自動識別,機器實時翻譯
查看全部 -
機器學習和數據分析的區別 數據特點 ?交易數據【跟錢有關系】【一致性強】 VS 行為數據【用戶的歷史行為】【no SQL數據庫 像mongoDB】 ? ? ? ? ?少量數據 ? ? ? ? ? ? ? VS 海量數據 ?采樣分析 ? ? ? ? ? ? ? VS 全量分析 15.數據分析(OLAP)(報告過去的事情) ? ? ? 機器學習(預測未來的事情) 16.機器學習算法分類 ?有監督學習【已經打上標簽】 無監督學習【聚類 自己推測標簽】 ?半監督學習 ? ? ? ? ?根據內容: ? ? 分類與回歸 ? ?聚類 ? ? ? 標注 ? ? ? ? ?很重要: ? ? ? 生成模型【告訴你樣本屬于哪個類的概率】 ? ? ?判別模型 【告訴你結果】 17.分類 C4.5 ? 聚類 K-Means ? 統計學習 ?SVM ? 關聯分析 ?Apriori 【基本淘汰 代價太大】 ? 統計學習 ?EM ? 鏈接挖掘 ?PageRank ?【谷歌】 ? 集裝與推進 AdaBoost [人臉識別] ? 分類 ?kNN ? ? Naive Bayes ?CART ? 高級算法: FP-Growth ?邏輯回歸 ?RF GBDT 推薦算法 LDA ?Word2Vector ?HMM CRF 深度學習 18.機器學習解決問題 ? ? 確定目標: 業務需求 ?收集數據 ? ? ?特征工程【70%】 ? 訓練模型: 定義模型-產生公式(根據具體要解決的問題) ?定義損失函數(預測的結果與真實的結果之間的偏差最小的函數) ?優化算法(使損失函數取極小值) ? 模型評估: 交叉驗證 ? 效果評估 19.圖片中的每一個像素點是以一個rgb來存的red,green,blue來表示每個成分有多大來存 的,每個圖是一個二進制的文件 20.K-Means聚類的算法,特征工程就是將圖片以向量或是其他的形式來表示的
查看全部 -
機器學習解決問題的框架2:
訓練模型
(1)定義模型:確定模型,訓練出模型的參數
(2)定義損失函數(定義偏差的大小):評價真實結果與模型的預測結果的相似程度和差異度。?機器學習解決的問題,有時不能得到精確解只能尋找近似解。 偏差最小的函數,針對很大的數據集,就是損失函數。 讓損失函數求最小,就是優化算法。對于線性回歸模型,計算預測結果與實際結果的差值;對于分類模型,則需要定義自己的損失函數
(3)優化算法:對算法進行優化,使損失函數取極小值,如梯度下降法......
查看全部 -
監督式學習:分類,回歸 非監督式學習:聚類 標注 邏輯回歸與樸素貝葉斯本質區別:生成模型與判別模型的區別 生成模型->估計的是聯合概率分布 判別模型->估計的是條件概率分布 監督式學習:分類,回歸 分類 C4.5 聚類 K-Means 統計學習SVM 關聯分析fp-growth RF 深度學習 業務需求->數據->特征工程 定義模型->定義損失函數->優化算法->交叉驗證
查看全部 -
利用計算機從歷史數據中找出規律,并把這些規律用到對未來不確定場景的決策。
查看全部 -
邏輯回歸 百度搜索引擎推薦結果的排序
rf 決策樹算法的改進
推薦算法
lda 文本分析自然語言的處理
word2vector文本挖掘
深度學習 圖像識別
查看全部 -
傳統的統計學
查看全部 -
機器學習課程小結
查看全部 -
機器學習解決問題框架
模型評估
????? ? 交叉驗證
????????效果評估
其中訓練模型中的損失函數定義和優化算法是最為困難的。
查看全部 -
機器學習解決問題框架
????訓練模型
????????定義模型
????????定義損失函數
????????優化算法
查看全部 -
機器學習解決問題框架三步走:
1確定目標
????業務需求
????數據
????特征工程
查看全部 -
int?main() { ????good; }
查看全部 -
訓練模型:定義模型、{定義損失函數、優化算法}(難、有趣的地方)
模型評估:交叉評估、效果評估
查看全部
舉報