已解決430363個問題，去搜搜看，總會有你想問的

Python Pandas 根據時間從列中選擇值

首頁猿問 Python Pandas...

Python Pandas 根據時間從列中選擇值

Python

有只小跳蛙 2024-01-15 17:21:07

我是 Python 和 ML 的新手，我正在嘗試使用 csv 文件并創建一個模型來預測主機響應的持續時間。我所做的第一件事是使用 Pandas 解析 csv 文件中的日志，現在我有 csv 文件，其中的列按以下順序排列并附有示例： _time host duration202 2020-09-26T10:56:33.630+0200 malcon 850203 2020-09-26T10:56:33.630+0200 malcon2 878703 2020-09-25T21:26:04.651+0200 malcon 973我想做的第一件事是使用一些模型進行異常檢測，但也許有一種更簡單的方法來完成我想要的事情。我希望按時間戳獲取每 3 分鐘間隔高于 800 的持續時間值，并根據我一周內的數據預測這些值。我從代碼開始，該代碼會發現持續時間值高于或等于 800，但不知道如何將它們與時間關聯并定義間隔。到目前為止我的代碼是：import pandas as pddata = pd.read_csv("example_all.csv")df = pd.DataFrame(data,columns=['_time','host','duration'])high = (df.loc[df['duration'] >= 800])print(high) 任何提示和建議將不勝感激！謝謝！更新：我正在嘗試使用滾動功能，但我認為我沒有正確理解它，并且我有點迷失其中。正如此處所建議的，我使用 to_datetime 函數轉換時間戳并按時間對數據進行排序。不幸的是，我找不到一種方法來指定持續時間高于 800 的 3 分鐘時間間隔。我的代碼現在看起來像這樣：import pandas as pddata = pd.read_csv("example_all.csv")data["_time"] = pd.to_datetime(data["_time"], utc='true')df = pd.DataFrame(data,columns=['_time','host','duration'])df.sort_values('_time')high = (df.loc[df['duration'] >= 800])print(high)輸出： _time host duration202 2020-09-26 08:56:33.630000+00:00 malcon 850203 2020-09-26 08:56:33.630000+00:00 malcon2 850702 2020-09-25 19:26:05.573000+00:00 malcon 878703 2020-09-25 19:26:04.651000+00:00 malcon 973704 2020-09-25 19:26:03.667000+00:00 malcon 993...

查看完整描述

1 回答

開心每一天1111

TA貢獻1836條經驗獲得超13個贊

如果您要查找任何 >= 800 的值，并且在前 3 分鐘內未記錄任何 < 800 的值，則此方法將起作用：

import pandas as pd

from pandas.tseries.offsets import Minute

data = pd.read_csv("example_all.csv", parse_dates=[0])

data = data.sort_values('_time')

def all_over_800(values):

return values.map(lambda x: x >= 800).all()

data['over_threshold'] = data[['_time', 'duration']].rolling(

Minute(3), on='_time').apply(lambda win: all_over_800(win))['duration']

請注意，center窗口選項未針對日期時間偏移窗口實現，因此檢查前 3 分鐘（或根據順序后的 3 分鐘）是此方法的唯一選項。如果您不介意對數據幀進行兩次排序，則可以結合前面和后面的結果來檢查樣本的兩側。

反對回復 2024-01-15

1 回答
0 關注
150 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python Pandas 根據時間從列中選擇值

Python Pandas 根據時間從列中選擇值

1 回答

添加回答