我是 Python 和 ML 的新手,我正在嘗試使用 csv 文件并創建一個模型來預測主機響應的持續時間。我所做的第一件事是使用 Pandas 解析 csv 文件中的日志,現在我有 csv 文件,其中的列按以下順序排列并附有示例: _time host duration202 2020-09-26T10:56:33.630+0200 malcon 850203 2020-09-26T10:56:33.630+0200 malcon2 878703 2020-09-25T21:26:04.651+0200 malcon 973我想做的第一件事是使用一些模型進行異常檢測,但也許有一種更簡單的方法來完成我想要的事情。我希望按時間戳獲取每 3 分鐘間隔高于 800 的持續時間值,并根據我一周內的數據預測這些值。我從代碼開始,該代碼會發現持續時間值高于或等于 800,但不知道如何將它們與時間關聯并定義間隔。到目前為止我的代碼是:import pandas as pddata = pd.read_csv("example_all.csv")df = pd.DataFrame(data,columns=['_time','host','duration'])high = (df.loc[df['duration'] >= 800])print(high) 任何提示和建議將不勝感激!謝謝!更新:我正在嘗試使用滾動功能,但我認為我沒有正確理解它,并且我有點迷失其中。正如此處所建議的,我使用 to_datetime 函數轉換時間戳并按時間對數據進行排序。不幸的是,我找不到一種方法來指定持續時間高于 800 的 3 分鐘時間間隔。我的代碼現在看起來像這樣:import pandas as pddata = pd.read_csv("example_all.csv")data["_time"] = pd.to_datetime(data["_time"], utc='true')df = pd.DataFrame(data,columns=['_time','host','duration'])df.sort_values('_time')high = (df.loc[df['duration'] >= 800])print(high)輸出: _time host duration202 2020-09-26 08:56:33.630000+00:00 malcon 850203 2020-09-26 08:56:33.630000+00:00 malcon2 850702 2020-09-25 19:26:05.573000+00:00 malcon 878703 2020-09-25 19:26:04.651000+00:00 malcon 973704 2020-09-25 19:26:03.667000+00:00 malcon 993...
1 回答

開心每一天1111
TA貢獻1836條經驗 獲得超13個贊
如果您要查找任何 >= 800 的值,并且在前 3 分鐘內未記錄任何 < 800 的值,則此方法將起作用:
import pandas as pd
from pandas.tseries.offsets import Minute
data = pd.read_csv("example_all.csv", parse_dates=[0])
data = data.sort_values('_time')
def all_over_800(values):
return values.map(lambda x: x >= 800).all()
data['over_threshold'] = data[['_time', 'duration']].rolling(
Minute(3), on='_time').apply(lambda win: all_over_800(win))['duration']
請注意,center窗口選項未針對日期時間偏移窗口實現,因此檢查前 3 分鐘(或根據順序后的 3 分鐘)是此方法的唯一選項。如果您不介意對數據幀進行兩次排序,則可以結合前面和后面的結果來檢查樣本的兩側。
添加回答
舉報
0/150
提交
取消