現有數據如下(真實情況大概幾十萬行):比如有另個文件p.txt,里面有一列數,如下:“82400041467896108240004356417597……8240004146757344”我需要抽取數據中第四列為p.txt中的數,該有什么快速的方法嗎(方法不限定于pandas)?其實就是個抽樣過程,抽指定的樣本,第四列為指定文件里的數?,F在的想法是在p.txt里循環,然后用pandas讀取原始數據,第四列==循環的數就提取出來,是否有更快捷的方法?
1 回答

肥皂起泡泡
TA貢獻1829條經驗 獲得超6個贊
可以考慮用pandas的apply,減去p.txt循環和后繼矩陣拼接的步驟。
即讀取p.txt里的數據轉成一個list例如P,然后用pandas讀取原始數據,執行:
df[df[<第四列名>].apply(lambda x: x in P)]
添加回答
舉報
0/150
提交
取消