亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

大數據怎么樣判斷數據唯一性效率高?

大數據怎么樣判斷數據唯一性效率高?

吃雞游戲 2018-07-30 17:33:14
我想用python對全網的網站進行掃描記錄,想用mysql建個表記錄每個網站的信息,數據量大后怎么能快速的判斷這個網站已經記錄過呢?基本表結構有:id,url,name,datetime等相關字段,url想有唯一性,是拿到url查詢一下判斷沒有數據再插入還是怎么辦?如果做了唯一性索引直接插入時會報錯,謝謝,或是有沒有別的有效的解決辦法?
查看完整描述

3 回答

?
慕俠2389804

TA貢獻1719條經驗 獲得超6個贊

推薦使用Bloom Filter存儲已經抓取到的url.
Bloom Filter實際上是由一組哈希函數和一個字節列表組成.?

如果使用Python可直接安裝Pybloom包, 這里已經實現了Bloom Filter.


查看完整回答
反對 回復 2018-08-02
?
狐的傳說

TA貢獻1804條經驗 獲得超3個贊

對url進行hash,就是微博短域名一樣,然后用kv,mysql都行

查看完整回答
反對 回復 2018-08-02
?
蕭十郎

TA貢獻1815條經驗 獲得超13個贊

分布式kv數據庫
對url分組

查看完整回答
反對 回復 2018-08-02
  • 3 回答
  • 0 關注
  • 1172 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號