亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

數據清洗

理想中,我們獲取的數據都是一樣的格式,可是現實中,會有許多臟數據,有時候是數據太冗余,有時候是數據缺失,有時候是同一種類數據擁有不同的數據格式。比如生日,有的人使用阿拉伯數字,有的人使用英文簡寫,有的人則是加入了中文字符。

如果只是簡單的某一列數據問題,我們可以寫一個腳本進行處理,可是,當數據太復雜,數據量太大,我們自己編寫腳步就太浪費時間和精力了。有沒有什么可視化工具,可以像操作Excel表格很方便的對數據進行分類,排序清洗那?有問題,肯定會有解決問題的方案。我們接下來講解的就是數據清洗界的神器 OpenRefine.

OpenRefine 是谷歌一個開源項目,最早這個項目起源于2009年一家叫做Metaweb的公司,后來這個公司被谷歌收購。
OpenRefine 可以方便的清洗數據,并且擁有簡單容易操作的界面,讓即使非計算機科班的人員也可以很方便的使用這個工具進行數據的清洗工作。

1. 安裝 OpenRefine

OpenFine的安裝,就像安裝正常的桌面的軟件一樣,不需要額外設置內容,直接安裝即可。雙擊之后,打開 OpenRefine。

如下圖所示:

從以上的頁面中,我們可以知道,我們可以導入本機的 CSV,JSON 或者 Excel等 文件,也可以直接從互聯網上面進行解析,也可以連接數據庫,以及從黏貼版和 Google Data 中獲取原始數據。

Tips:OpenRefine 默認打開的 IP 為 127.0.0.1:3333。

2. 簡單的數據清洗例子

這里我用一組測試數據進行演示簡單的操作。首先,在導入原始數據之后,點擊 create project 來創建工程。

接下來,我們選擇需要進行清洗數據的列,點擊上面的向下的箭頭,在彈出的菜單中選擇 facet 接下來選擇 Text facet。

在頁面的左邊的浮框中,我們可以看到有許多組不同的數據,這里我們發現 Altbeir 和 Altbier 是同一個數據,其中 Altbeir 是拼寫錯誤的單詞,其實也就是我們常說的臟數據,我們需要將它合并到 Altbier中。

我們在單詞旁邊單詞 edit 按鈕,然后點擊edit進行編輯,接下來點擊apply。

最后,我們看到數據被歸并到一起了,臟數據被清洗掉了。

3. 小結

上面演示的只是清除臟數據的最基本操作步驟,我們還可以對數據進行排序,以及通過正則表達式來篩選數據,也可以讓軟件智能地為我們推薦一些該歸并的單詞??傊?,OpenRefine 已經成為數據清洗方面的主流軟件,大家平時需要的功能都可以通過這款軟件進行操作,方便而又快捷。