需求: 挑出大量數據中的重復數據.NET 做數據處理,現在是 把數據一條條addrow 到datatable里,在初始化datatable時設置其 primarykey 字段,如果是重復的數據 會引發ConstraintException,這樣就能抓到重復的記錄。如何實現 對大數據量 數據 重復記錄 篩選出來,有時數據量會上1000W,如果不借助datatable,自己實現,用什么樣的數據結構和算法,能保證效率?如果數據量大到內存無法全部加載呢?
2 回答

波斯汪
TA貢獻1811條經驗 獲得超4個贊
1、算哈希,假設數據變成128位的哈希碼
2、根據128位的前16位分文件存儲
3、每個文件里再找重復
這是分治的思路,至于具體根據幾位分文件,是不是要二級細分都可以修改
- 2 回答
- 0 關注
- 640 瀏覽
添加回答
舉報
0/150
提交
取消