亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

用于檢測重復記錄的工具或Python庫

用于檢測重復記錄的工具或Python庫

鳳凰求蠱 2023-09-26 16:37:21
我試圖通過 python 在單個 csv 文件中查找重復項,因此通過搜索,我找到了 dedupe.io,這是一個使用 python 和機器學習算法來檢測重復記錄的平臺,但它不是一個免費工具。但是,我不想使用應指定比較列的傳統方法。我想找到一種高精度檢測重復的方法。因此,是否有任何工具或Python庫可以查找文本數據集的重復項?這是一個可以澄清這一點的示例:  Title, Authors, Venue, Year  1- Clustering validity checking methods: part II, Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis, ACM SIGMOD Record, 2002  2- Cluster validity methods: part I, Yannis Batistakis, Michalis Vazirgiannis, ACM SIGMOD Record, 2002  3- Book reviews, Karl Aberer, ACM SIGMOD Record, 2003  4- Book review column, Karl Aberer, ACM SIGMOD Record, 2003  5- Book reviews, Leonid Libkin, ACM SIGMOD Record, 2003因此,我們可以確定記錄 1 和 2 不重復,即使它們包含幾乎相似的數據,但“標題”列略有不同。記錄 3 和 4 重復,但記錄 5 并不引用同一實體。
查看完整描述

2 回答

?
慕的地10843

TA貢獻1785條經驗 獲得超8個贊

Pandas提供了一種非常簡單的方法來實現pandas.DataFrame.drop_duplicates。

給定以下文件(data.csv)存儲在當前工作目錄中。

name,age,salary

John Doe,25,50000

Jayne Doe,20,80000

Tim Smith,40,100000

John Doe,25,50000

Louise Jones,25,50000


以下腳本可用于刪除重復記錄,將處理后的數據寫入當前工作目錄 ( processed_data.csv) 中的 csv 文件。


import pandas as pd


df = pd.read_csv("data.csv")

df = df.drop_duplicates()

df.to_csv("processed_data.csv", index=False)

此示例中的結果輸出如下所示:


name,age,salary

John Doe,25,50000

Jayne Doe,20,80000

Tim Smith,40,100000

Louise Jones,25,50000


pandas.DataFrame.drop_duplicates還允許從特定列中刪除重復屬性(而不僅僅是整行的重復屬性),列名稱是使用參數指定的subset。


例如


import pandas as pd


df = pd.read_csv("data.csv")

df = df.drop_duplicates(subset=["age"])

df.to_csv("processed_data.csv", index=False)

將從列中刪除所有重復值age,僅保留包含后續記錄字段中重復值的第一條記錄age。


在本例中,輸出將是:


name,age,salary

John Doe,25,50000

Jayne Doe,20,80000

Tim Smith,40,100000


查看完整回答
反對 回復 2023-09-26
?
嚕嚕噠

TA貢獻1784條經驗 獲得超7個贊

一些重復的內容仍然存在并且沒有刪除。我認為這種方法適用于完全相同的副本;如果是這樣的話,那這不是我要找的。我想應用記錄鏈接來識別引用同一實體的記錄,然后可以將其刪除。

查看完整回答
反對 回復 2023-09-26
  • 2 回答
  • 0 關注
  • 145 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號