-
網絡梯度下降
又叫反向傳播
a n為第n層(從最后一層開始)的輸出,該層有自己的參數W n與b n,通過da n求導得出dz n,并依次得到dW n與db n,在得到上一層的輸出的導數da n-1,該過程直到求出第二層的輸出的導數da 1未知,完成整個網絡梯度下降(反向傳播)機制
查看全部 -
對各層而言處理W和b的自身格式不同,其處理過程相似都可以歸納為
注:這里的x可以為輸入,也可以為上一層的輸出a n-1
查看全部 -
可以將上述過程總結為
查看全部 -
各層之間都存在的邏輯回歸關系(線性組合W與b、激活函數g),各層間的W和b需滿足一定格式來實現矩陣維度的變化,如截圖所示
查看全部 -
網絡向量化:
也叫 神經網絡向前傳播/神經網絡的預測
對于一個單隱藏層神經網絡(如圖1),其各層的輸入輸出可以表示為(見截圖),x1、x2、x3表示輸入層的輸入,a11~a41表示隱藏層的4個輸出,a2表示輸出層的輸出
查看全部 -
參數W與b的更新:
“:=”表示參數W與b需要同步更新,等號右邊的W與b是上一次W與b的值,通過對損失函數J(w,b)求導(梯度),α代表學習率,學習率越高下降速度越快,但也有可能會越過最小值
通過不斷找到損失函數的下一個最小值,以找到更優預測值來反向更新W與b的值,直到當前最小值趨于穩定,得出最優的W與b的值
查看全部 -
梯度下降:
在得到線性組合參數W和b的初始值后,通過建立預測值y^與真實值y的損失函數來反向調整參數W和b,每一個損失函數都可表示成一個曲面,在這個曲面上有最大值也有最小值,第一個點(第一次輸出的預測值與真實值的損失函數的值)順著凸面向下不斷找尋下一個更優更小的點(梯度下降),最終得到這個面上的最小值(這個點就是預測值y^與真實值y之間的差異最小值)該過程不斷進行直到參數W和b穩定,這時就得到了一個最優(最接近實際問題)的邏輯回歸方程,也即得到了這個神經網絡訓練出來的最優模型。
查看全部 -
全部訓練損失函數:(見截圖)
對單次損失函數的累加
查看全部 -
損失函數:
反映預測值與真實值直接的差異
單次損失函數:(見截圖)
其中y^代表預測值,y代表真實值
注:這里不直接將預測值與真實值做差(歐幾里得距離)而使用log函數是因為使用激活函數后,數據集學習得到的函數平面不是一個凸函數平面,在做梯度下降的時候(與是否凸函數有關系)如果有多個局部極小值的情況下,學習出來的結果會不準確
查看全部 -
激勵函數:
作用:提供規?;姆蔷€性能力
包括:Sigmoid、tanh、ReLU等
Sigmoid函數適用于結果為判斷是非的場合,但由于其對稱中心在(0, 0.5),還需要進行數據中心化,由此提出了其改進函數tanh
Sigmiod和tanh的缺點是當數值很大或很小時,結果變化比較平緩,由此提出了ReLU函數,ReLU是最常用默認的一種激活函數
查看全部 -
邏輯回歸:
邏輯回歸是一種最簡化的神經結構,輸入單個節點的處理也可以有一個預測輸出,通過選定損失函數對預測結果進行評估,并進行反向學習進一步修改線性組合的參數W和b
查看全部 -
每一個節點(神經元)的處理包括:
(1)將輸入x進行線性組合;
(2)將線性組合的結果通過激活函數g(z)轉化為非線性的結果,以處理非線性問題
查看全部 -
網絡結構:
節點與層,包括:輸入層,隱含層、輸出層
查看全部 -
反向反饋。查看全部
-
就是神經網絡圖形化設計轉化為向量表示的公式化
查看全部
舉報