首頁猿問您將如何分析一個太大而無法存儲的文件？

您將如何分析一個太大而無法存儲的文件？

Java

MMMHUHU 2022-12-21 11:52:45

最近，招聘人員在現場編碼面試中問了我這個問題。我不確定如何使用代碼執行此操作。我想到了將文件拆分為多個文件，然后通過多個線程讀取這些塊。但是我無法實現相同的功能。對實施或其他方法的任何幫助將不勝感激！

查看完整描述

3 回答

胡說叔叔

TA貢獻1804條經驗獲得超8個贊

我會回答“這取決于”。在面試場景中，他們可能會故意給你一個模糊的問題，看看你會用它做什么。正如其他人指出的那樣，找出文件的相關信息以及您想從中獲取哪些信息是關鍵，潛在的解決方案可能會因這些因素而有很大差異。

例如，如果文件實際上是 CSV，并且您想對數據進行潛在的復雜分析（排序、計數、聚合等），那么將其推送到關系數據庫表中，比如 H2，可能不是一個壞主意. 如果文件包含更多自由格式的文本，您可能希望使用 Lucene 對其進行索引，或者將其推送到 ElasticSearch 索引中，然后使用 Kibana 對其進行搜索。

不過，這些解決方案都沒有“使用代碼”分析文件，如果文件是一個 100GB 的電影剪輯，它們將完全無效。因為他們問你如何“用代碼”分析文件，我希望他們試圖看看你是否知道如何進行面向字節的 I/O（例如 Java InputStream）與面向字符的（例如 Reader）和/ 或如何使用緩沖區讀取一個可能很大的文件（即不將整個文件加載到內存中）。

這是一個簡單的代碼示例...

import java.io.*;

public class StreamFile {

/** Stream through a file using a buffer. */

final static int BUFSIZE = 1024; // Use a 1K buffer.

public static void main(String[] args) throws Exception {

BufferedInputStream bis = new BufferedInputStream(new FileInputStream(new File(args[0])));

long totalBytes = 0;

byte[] buf = new byte[BUFSIZE];

while (bis.available() > 0) {

totalBytes += bis.read(buf, 0, BUFSIZE); // Do something here with the data in buf.

System.out.println(totalBytes); // Show progress.

}

System.out.println("Read " + totalBytes + " bytes");

bis.close();

}

反對回復 2022-12-21

尚方寶劍之說

TA貢獻1788條經驗獲得超4個贊

根據文件類型/內容，您可以將其加載到數據庫表中并通過查詢對其進行分析（例如，如果它是 .csv 文件）。

反對回復 2022-12-21

阿晨1998

TA貢獻2037條經驗獲得超6個贊

這是一個廣泛的話題，但通常這些類型的問題都可以使用緩沖區來解決。

緩沖區的大小是您的內存可以容納的大小，您可以從文件中讀取數據并將其加載到緩沖區中以執行任務，然后清空緩沖區并加載下一個塊等等。

例如，如果你想對一些內存太大的數據進行排序，我們使用稱為外部排序的方法。

大多數情況下，當我們在查詢中使用order by子句時，關系數據庫使用這種外部排序方法對數據進行排序。有關這方面的更詳細信息，下面粘貼了視頻鏈接的精彩講座。

https://www.youtube.com/watch?v=YjFI9CJy6x0&t=3506s

我希望它能幫助你理解。

反對回復 2022-12-21

3 回答
0 關注
165 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

您將如何分析一個太大而無法存儲的文件？

您將如何分析一個太大而無法存儲的文件？

3 回答

添加回答

您將如何分析一個太大而無法存儲的文件？