首頁手記機器學習實戰⑴之線性回歸預測房價

機器學習實戰⑴之線性回歸預測房價

標簽：

機器學習

机器学习

一般来说，一个学习问题通常会考虑一系列 n 个样本数据，然后尝试预测未知数据的属性。如果每个样本是多个属性的数据，比如说是一个多维记录），就说它有许多“属性”，或称 features(特征) 。

我们可以将学习问题分为几大类:

[监督学习]其中数据带有一个附加属性，即我们想要预测的结果值。这个问题可以是:
> [分类]: 样本属于两个或更多个类，我们想从已经标记的数据中学习如何预测未标记数据的类别。 分类问题的一个例子是手写数字识别，其目的是将每个输入向量分配给有限数目的离散类别之一。 我们通常把分类视作监督学习的一个离散形式（区别于连续形式），从有限的类别中，给每个样本贴上正确的标签。
> [回归]: 如果期望的输出由一个或多个连续变量组成，则该任务称为 *回归* 。 回归问题的一个例子是预测鲑鱼的长度是其年龄和体重的函数。
[无监督学习]其中训练数据由没有任何相应目标值的一组输入向量x组成。这种问题的目标可能是在数据中发现彼此类似的示例所聚成的组，这种问题称为 [聚类], 或者，确定输入空间内的数据分布，称为 [密度估计]，又或从高维数据投影数据空间缩小到二维或三维以进行 可视化 。

训练集和测试集

机器学习是从数据的属性中学习，并将它们应用到新数据的过程。这就是为什么机器学习中评估算法的普遍实践是把数据分割成 训练集 （我们从中学习数据的属性）和 测试集 （我们测试这些性质）。

机器学习实战

第一步：加载相应包和所需的数据集

我们这里选的是sklearn包，此包是python中比较常用的机器学习集成包，可以满足大多数模型需求。

# -*- coding: utf-8 -*-"""
Created on Thu Oct 18 13:43:44 2018

@author: Administrator
"""% reset -f
% clear# In[*]##########第一步  导入包和数据# In[*]from sklearn.model_selection import cross_val_scorefrom sklearn import linear_modelfrom sklearn import metricsimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport seaborn as snsimport os
os.chdir("C:\\Users\\Administrator\\Desktop\\all")# In[*]train = pd.read_csv('train.csv',header = 0,index_col=0)
test  = pd.read_csv('test.csv',header = 0,index_col=0)# In[*]sns.distplot(train["SalePrice"])  
plt.show()

我们可以看到训练集train的房屋售价分布相对均匀

第二步删减和目标变量低相关的属性

# In[*]##########第二步  删减和目标变量低相关的属性# In[*]data = train.corr()
sns.heatmap(data)
plt.show()# In[*]data = train.corr()
data["SalePrice"].sort_values()

KitchenAbvGr    -0.135907EnclosedPorch   -0.128578MSSubClass      -0.084284OverallCond     -0.077856YrSold          -0.028923LowQualFinSF    -0.025606MiscVal         -0.021190BsmtHalfBath    -0.016844BsmtFinSF2      -0.0113783SsnPorch        0.044584MoSold           0.046432PoolArea         0.092404ScreenPorch      0.111447BedroomAbvGr     0.168213BsmtUnfSF        0.214479BsmtFullBath     0.227122LotArea          0.263843HalfBath         0.284108OpenPorchSF      0.3158562ndFlrSF         0.319334WoodDeckSF       0.324413LotFrontage      0.351799BsmtFinSF1       0.386420Fireplaces       0.466929MasVnrArea       0.477493GarageYrBlt      0.486362YearRemodAdd     0.507101YearBuilt        0.522897TotRmsAbvGrd     0.533723FullBath         0.5606641stFlrSF         0.605852TotalBsmtSF      0.613581GarageArea       0.623431GarageCars       0.640409GrLivArea        0.708624OverallQual      0.790982SalePrice        1.000000Name: SalePrice, dtype: float64

该图为属性之间的相关系数，我们需要做的是删除掉与预测目标不相关或者低相关的变量。（一般来说我们同时也应该删除掉用来预测的变量之间高度相关的变量），所以我们删除了BsmtHalfBath，'BsmtFinSF2'， '3SsnPorch', 'MoSold', 'PoolArea', 'ScreenPorch'这几个与预测目标低相关的变量。

  # In[*]train = train.drop(['BsmtHalfBath',                    'BsmtFinSF2',                    '3SsnPorch',                    'MoSold',                    'PoolArea',                    'ScreenPorch',                    'BedroomAbvGr'], axis=1)test = test.drop(['BsmtHalfBath',                    'BsmtFinSF2',                    '3SsnPorch',                    'MoSold',                    'PoolArea',                    'ScreenPorch',                    'BedroomAbvGr'], axis=1)

我们来挑几个变量，看一下变量与目标的相关

    # In[*] sns.lmplot(x="OverallQual", y="SalePrice", 
data=train,fit_reg=False,scatter=True)
plt.show()  
  
     # In[*]
   
   sns.lmplot(x="TotalBsmtSF", y="SalePrice", 
data=train,fit_reg=False,scatter=True)
plt.show()

第三步删减和填充缺失值

# In[*]##########第三步  删减和填充缺失值# In[*]






  # In[*]
 for col in train.columns:     if train[col].isnull().sum() > 0:         print (col, train[col].isnull().sum()) 
 
  # In[*]train = train.drop(["MiscFeature", "PoolQC", "Alley", 
                    "Fence",'FireplaceQu' ], axis=1)test = test.drop(["MiscFeature", "PoolQC", "Alley", 
                    "Fence",'FireplaceQu' ], axis=1)    
    # In[*] print(train.describe())    
    
  # In[*]all_data = pd.concat((train, test)) # In[*]for col in train.columns:    if train[col].isnull().sum() > 0:        if train[col].dtypes == 'object':
            val = all_data[col].dropna().value_counts().idxmax()
            train[col] = train[col].fillna(val)        else:
            val = all_data[col].dropna().mean()
            train[col] = train[col].fillna(val)              # In[*]
 for col in test.columns:     if test[col].isnull().sum() > 0:         if test[col].dtypes == 'object':
             val = all_data[col].dropna().value_counts().idxmax()             test[col] = test[col].fillna(val)         else:
             val = all_data[col].dropna().mean()             test[col] = test[col].fillna(val)  # In[*]

  for col in all_data.select_dtypes(include = [object]).columns:
      train[col] = train[col].astype('category',
           categories = all_data[col].dropna().unique())      
      test[col] = test[col].astype('category', 
          categories = all_data[col].dropna().unique())  # In[*]
  for col in train.columns:      if train[col].dtype.name == 'category':
         tmp = pd.get_dummies(train[col], prefix = col)
         train = train.join(tmp)
         train = train.drop(col, axis=1)  # In[*]
  for col in test.columns:      if test[col].dtype.name == 'category':
           tmp = pd.get_dummies(test[col], prefix = col)           test = test.join(tmp)           test = test.drop(col, axis=1)  # In[*]
  

 for col in train.columns:     if train[col].isnull().sum() > 0:         print (col, train[col].isnull().sum()) 
  # In[*]

这一步的主要工作是删减和填充缺失值，首先是查看数据每一列缺失值的情况，我将其中缺失值大于一半观察值的属性删除掉。然后填充缺失值，填充的时候，数字型属性是用的中位值，而字符串类型的属性用的是最多的值

第四步建立线性回归预测模型

# In[*]##########第四步  建立线性回归预测模型# In[*]
  
   # In[*] 
 lr = linear_model.LinearRegression()
 X = train.drop("SalePrice", axis=1)
 y = np.log(train["SalePrice"])
 score = cross_val_score(lr, X,y, scoring='mean_squared_error')   # In[*]
 
 print(score)   # In[*]lr = lr.fit(X, y)
results = lr.predict(test)
final = np.exp(results)

第五步保存预测结果

     # In[*]##########第五步  保存预测结果     
     
 submission = pd.DataFrame()
 submission['Id'] = test.index
 submission['SalePrice'] = final

 submission.to_csv("submission1.csv", index= False)

作者：夜神moon
链接：https://www.jianshu.com/p/0b66f1c4cc2d

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕碼人8056858

手記
篇

粉絲

351

獲贊與收藏

1325

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32087 358

網絡編程入門教程

20個小節 13213 249

Pandas 入門教程

25個小節 19614 369

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

機器學習實戰⑴之線性回歸預測房價

机器学习

机器学习实战

第一步：加载相应包和所需的数据集

第二步 删减和目标变量低相关的属性

第三步 删减和填充缺失值

第四步 建立线性回归预测模型

第五步 保存预测结果

閱讀免費教程

第二步删减和目标变量低相关的属性

第三步删减和填充缺失值

第四步建立线性回归预测模型

第五步保存预测结果