亚洲伊人影视网,制服丝袜2一区二区三区

因此，我有一個數據文件（以分號分隔），該文件包含很多詳細信息和不完整的行（導致Access和SQL阻塞）。它是40年的縣級數據集，細分為細分，子細分和子細分（共200個因子）。簡而言之，它是巨大的，如果我嘗試簡單地閱讀它，它將不適合內存。所以我的問題是，考慮到我想要所有縣，但是只有一年（并且只有最高級別的細分……最終導致約100,000行），什么是獲得該收入的最佳方法？此匯總到R？目前，我正在嘗試與Python無關的事情，通過一次讀取和操作一行來繞過文件大小限制，但是我更喜歡僅R的解決方案（CRAN包可以）。有沒有類似的方法可以一次在R中讀取文件？任何想法將不勝感激。更新：約束條件需要使用我的機器，所以沒有EC2實例盡可能僅R。在這種情況下，速度和資源不是問題...只要我的機器不爆炸...如下所示，數據包含混合類型，稍后我需要對其進行操作數據數據為3.5GB，約850萬行和17列幾千行（?2k）格式錯誤，只有一列而不是17這些完全不重要，可以刪除我只需要該文件中的約100,000行（見下文）數據示例：County; State; Year; Quarter; Segment; Sub-Segment; Sub-Sub-Segment; GDP; ...Ada County;NC;2009;4;FIRE;Financial;Banks;80.1; ...Ada County;NC;2010;1;FIRE;Financial;Banks;82.5; ...NC [Malformed row][8.5 Mill rows]我想刪掉一些列并從40個可用年份（1980-2020年的2009-2010年）中選擇兩個，以便使數據適合R：County; State; Year; Quarter; Segment; GDP; ...Ada County;NC;2009;4;FIRE;80.1; ...Ada County;NC;2010;1;FIRE;82.5; ...[~200,000 rows]結果：修正所有提出的建議后，我決定由JD和Marek提出的readLines效果最好。我給了Marek支票，因為他提供了一個示例實現。我在這里為我的最終答案復制了Marek實現的稍作改編的版本，使用strsplit和cat僅保留我想要的列。還應當指出，這是MUCH比Python效率較低......在，巨蟒通過要吃掉5分鐘3.5GB文件，而R取約60 ...但如果你只為R，那么這是罰單。## Open a connection separately to hold the cursor positionfile.in <- file('bad_data.txt', 'rt')file.out <- file('chopped_data.txt', 'wt')line <- readLines(file.in, n=1)line.split <- strsplit(line, ';')# Stitching together only the columns we wantcat(line.split[[1]][1:5], line.split[[1]][8], sep = ';', file = file.out, fill = TRUE)## Use a loop to read in the rest of the linesline <- readLines(file.in, n=1)失敗的方法：sqldf如果數據格式正確，這絕對是我以后將使用的此類問題。但是，如果不是，則SQLite會阻塞。MapReduce老實說，文檔使我對此感到有些恐懼，所以我沒有去嘗試它。看起來它也要求該對象也要在內存中，如果是這樣的話，這將使問題無濟于事。大內存這種方法干凈地鏈接到數據，但一次只能處理一種類型。結果，我的所有字符向量在放入big.table時都掉了。但是，如果我需要為將來設計大型數據集，我將考慮僅使用數字只是為了使此選項有效。掃描掃描似乎具有與大內存類似的類型問題，但是具有readLines的所有機制。簡而言之，這一次不符合要求。

查看完整描述

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

修剪巨大的（3.5 GB）CSV文件以讀入R

修剪巨大的（3.5 GB）CSV文件以讀入R

3 回答

添加回答

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

修剪巨大的（3.5 GB）CSV文件以讀入R

修剪巨大的（3.5 GB）CSV文件以讀入R

3 回答

添加回答