亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

您將如何分析一個太大而無法存儲的文件?

您將如何分析一個太大而無法存儲的文件?

MMMHUHU 2022-12-21 11:52:45
最近,招聘人員在現場編碼面試中問了我這個問題。我不確定如何使用代碼執行此操作。我想到了將文件拆分為多個文件,然后通過多個線程讀取這些塊。但是我無法實現相同的功能。對實施或其他方法的任何幫助將不勝感激!
查看完整描述

3 回答

?
胡說叔叔

TA貢獻1804條經驗 獲得超8個贊

我會回答“這取決于”。在面試場景中,他們可能會故意給你一個模糊的問題,看看你會用它做什么。正如其他人指出的那樣,找出文件的相關信息以及您想從中獲取哪些信息是關鍵,潛在的解決方案可能會因這些因素而有很大差異。


例如,如果文件實際上是 CSV,并且您想對數據進行潛在的復雜分析(排序、計數、聚合等),那么將其推送到關系數據庫表中,比如 H2,可能不是一個壞主意. 如果文件包含更多自由格式的文本,您可能希望使用 Lucene 對其進行索引,或者將其推送到 ElasticSearch 索引中,然后使用 Kibana 對其進行搜索。


不過,這些解決方案都沒有“使用代碼”分析文件,如果文件是一個 100GB 的電影剪輯,它們將完全無效。因為他們問你如何“用代碼”分析文件,我希望他們試圖看看你是否知道如何進行面向字節的 I/O(例如 Java InputStream)與面向字符的(例如 Reader)和/ 或如何使用緩沖區讀取一個可能很大的文件(即不將整個文件加載到內存中)。


這是一個簡單的代碼示例...


import java.io.*;


public class StreamFile {

    /** Stream through a file using a buffer. */

    final static int BUFSIZE = 1024; // Use a 1K buffer.


    public static void main(String[] args) throws Exception {

        BufferedInputStream bis = new BufferedInputStream(new FileInputStream(new File(args[0])));

        long totalBytes = 0;

        byte[] buf = new byte[BUFSIZE];

        while (bis.available() > 0) {

            totalBytes += bis.read(buf, 0, BUFSIZE); // Do something here with the data in buf.

            System.out.println(totalBytes); // Show progress.

        }

        System.out.println("Read " + totalBytes + " bytes");

        bis.close();

    }

}


查看完整回答
反對 回復 2022-12-21
?
尚方寶劍之說

TA貢獻1788條經驗 獲得超4個贊

根據文件類型/內容,您可以將其加載到數據庫表中并通過查詢對其進行分析(例如,如果它是 .csv 文件)。



查看完整回答
反對 回復 2022-12-21
?
阿晨1998

TA貢獻2037條經驗 獲得超6個贊

這是一個廣泛的話題,但通常這些類型的問題都可以使用緩沖區來解決。

緩沖區的大小是您的內存可以容納的大小,您可以從文件中讀取數據并將其加載到緩沖區中以執行任務,然后清空緩沖區并加載下一個塊等等。

例如,如果你想對一些內存太大的數據進行排序,我們使用稱為外部排序的方法。

大多數情況下,當我們在查詢中使用order by子句時,關系數據庫使用這種外部排序方法對數據進行排序。有關這方面的更詳細信息,下面粘貼了視頻鏈接的精彩講座。

https://www.youtube.com/watch?v=YjFI9CJy6x0&t=3506s

我希望它能幫助你理解。


查看完整回答
反對 回復 2022-12-21
  • 3 回答
  • 0 關注
  • 165 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號