3 回答

TA貢獻1804條經驗 獲得超8個贊
我會回答“這取決于”。在面試場景中,他們可能會故意給你一個模糊的問題,看看你會用它做什么。正如其他人指出的那樣,找出文件的相關信息以及您想從中獲取哪些信息是關鍵,潛在的解決方案可能會因這些因素而有很大差異。
例如,如果文件實際上是 CSV,并且您想對數據進行潛在的復雜分析(排序、計數、聚合等),那么將其推送到關系數據庫表中,比如 H2,可能不是一個壞主意. 如果文件包含更多自由格式的文本,您可能希望使用 Lucene 對其進行索引,或者將其推送到 ElasticSearch 索引中,然后使用 Kibana 對其進行搜索。
不過,這些解決方案都沒有“使用代碼”分析文件,如果文件是一個 100GB 的電影剪輯,它們將完全無效。因為他們問你如何“用代碼”分析文件,我希望他們試圖看看你是否知道如何進行面向字節的 I/O(例如 Java InputStream)與面向字符的(例如 Reader)和/ 或如何使用緩沖區讀取一個可能很大的文件(即不將整個文件加載到內存中)。
這是一個簡單的代碼示例...
import java.io.*;
public class StreamFile {
/** Stream through a file using a buffer. */
final static int BUFSIZE = 1024; // Use a 1K buffer.
public static void main(String[] args) throws Exception {
BufferedInputStream bis = new BufferedInputStream(new FileInputStream(new File(args[0])));
long totalBytes = 0;
byte[] buf = new byte[BUFSIZE];
while (bis.available() > 0) {
totalBytes += bis.read(buf, 0, BUFSIZE); // Do something here with the data in buf.
System.out.println(totalBytes); // Show progress.
}
System.out.println("Read " + totalBytes + " bytes");
bis.close();
}
}

TA貢獻2037條經驗 獲得超6個贊
這是一個廣泛的話題,但通常這些類型的問題都可以使用緩沖區來解決。
緩沖區的大小是您的內存可以容納的大小,您可以從文件中讀取數據并將其加載到緩沖區中以執行任務,然后清空緩沖區并加載下一個塊等等。
例如,如果你想對一些內存太大的數據進行排序,我們使用稱為外部排序的方法。
大多數情況下,當我們在查詢中使用order by子句時,關系數據庫使用這種外部排序方法對數據進行排序。有關這方面的更詳細信息,下面粘貼了視頻鏈接的精彩講座。
https://www.youtube.com/watch?v=YjFI9CJy6x0&t=3506s
我希望它能幫助你理解。
添加回答
舉報