已解決430363個問題，去搜搜看，總會有你想問的

大數據怎么樣判斷數據唯一性效率高？

首頁猿問大數據怎么樣判斷數據唯一性效率高？

大數據怎么樣判斷數據唯一性效率高？

大數據

吃雞游戲 2018-07-30 17:33:14

我想用python對全網的網站進行掃描記錄，想用mysql建個表記錄每個網站的信息，數據量大后怎么能快速的判斷這個網站已經記錄過呢？基本表結構有：id,url,name,datetime等相關字段，url想有唯一性，是拿到url查詢一下判斷沒有數據再插入還是怎么辦？如果做了唯一性索引直接插入時會報錯，謝謝，或是有沒有別的有效的解決辦法？

查看完整描述

3 回答

慕俠2389804

TA貢獻1719條經驗獲得超6個贊

推薦使用Bloom Filter存儲已經抓取到的url.
Bloom Filter實際上是由一組哈希函數和一個字節列表組成.?

如果使用Python可直接安裝Pybloom包, 這里已經實現了Bloom Filter.

反對回復 2018-08-02

狐的傳說

TA貢獻1804條經驗獲得超3個贊

對url進行hash，就是微博短域名一樣，然后用kv，mysql都行

反對回復 2018-08-02

蕭十郎

TA貢獻1815條經驗獲得超13個贊

分布式kv數據庫
對url分組

反對回復 2018-08-02

3 回答
0 關注
1181 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

大數據怎么樣判斷數據唯一性效率高？

大數據怎么樣判斷數據唯一性效率高？

3 回答

添加回答

大數據怎么樣判斷數據唯一性效率高？

大數據怎么樣判斷數據唯一性效率高？