首頁手記一只菜雞的KNN入門

一只菜雞的KNN入門

標簽：

深度學習

路漫漫其修远兮，希望不要漏洞百出，记录一下。

1、算法核心理论：

欧式距离计算公式 : $d = \sqrt{(xA - xB)^{}2 + (xA_{1} - xB_{1})^{2}}$ ，计算测试样本与训练样本之间的距离，维度越多，根号下的算式越多。
以上算法选取前K个最小值，并按照频次进行从大到小排序，取频次最高值对应标签，即为测试数据对应类别。

def classify0(testsamp,trainsamp,labels,K):
trainsize = trainsamp.shape[0]
diff = tile(testsamp,(trainsize,1)) - trainsamp
sqdiff = diff ** 2
sum = sqdiff.sum(1)
distance = sum ** 0.5
sortdistance = distance.argsort()# 根据值大小排序，返回值对应索引，方便下一步提取marks
classmarks = {}
for i in range(k):
marks = labels[sortdistance[i]]
# dict.get(x1,x2)函数，当x1键存在，获取x1的value，否则取x2；此处，若marks之前出现过，则取对应值，实现频次累加，若无，取0，进行累加
classmarks[marks] = classmarks.get(marks,0) + 1
sortclassm = sorted(classmarks.items(),key=operator.itemgetter(1),reverse=True)
return sortclassm[0][0]

若数据集中部分维度值过大，且实际业务中此维度值与其他维度重要性同等，则会造成距离计算偏差，故需要进行归一化操作：
4、顺便记录一下文本解析到列表，生成数据集和标签：
5、KNN算法优点在于精确度高，对异常值不敏感，无数据输入假定，但缺点同样明显，若数据集及维度均较大，则计算量过大，无法给出数据集的典型样本和平均特征。

def fileParse(filename):
with open(filename) as fl:
lines = fl.readlines()
normSet = zeros((len(lines),k))
labels = []
index = 0 #用于生成新数据集
for line in lines():
newline = line.strip()
normline = newline.split('\t')
normSet[index,:] = normline[0:3]
labels.append(int(normline[-1]))
index += 1
return normSet, labels
# 归一化操作
def transNorm(dataSet):
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals
normSet = zeros(dataSet.shape)
m = dataSet.shape[0]
normSet = dataSet - tile(minVals,(m,1)) / tile(ranges,(m,1))
return nromSet, ranges, minVals

原文出处：https://blog.csdn.net/oldog_1991/article/details/81185066

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

森欄

手記
篇

粉絲

104

獲贊與收藏

477

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32074 358

網絡編程入門教程

20個小節 13213 249

Pandas 入門教程

25個小節 19596 369

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

一只菜雞的KNN入門

閱讀免費教程