亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

百度面試題,如何快速找出文件(大文件無法一次性讀取)中的重復項?

百度面試題,如何快速找出文件(大文件無法一次性讀取)中的重復項?

一只名叫tom的貓 2019-05-13 08:52:04
百度面試題,大致意思是說,有個文件,文件很大不能一次性讀?。赡苁遣荒芤淮涡约虞d到內存中),文件中存放的是IP地址,如何快速找出重復的IP地址?求指點思路。文件很大,可以逐行讀取,append到list中,取set,再取差集,不知是否可行?
查看完整描述

2 回答

?
慕容3067478

TA貢獻1773條經驗 獲得超3個贊

不可行。
append到list中,,跟直接一次性讀取沒差,都是要占用所有數據的內存;
取差集只能set-list,不能list-set
                            
查看完整回答
反對 回復 2019-05-13
?
FFIVE

TA貢獻1797條經驗 獲得超6個贊

條件不充分阿。如果有1000萬條記錄地址,只有幾個重復,目前想到的可以先排序,然后map-reduce。如果有1000萬條記錄,其中900萬是重復的,用hashTable就解決了。
                            
查看完整回答
反對 回復 2019-05-13
  • 2 回答
  • 0 關注
  • 597 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號