亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python Pandas 根據時間從列中選擇值

Python Pandas 根據時間從列中選擇值

有只小跳蛙 2024-01-15 17:21:07
我是 Python 和 ML 的新手,我正在嘗試使用 csv 文件并創建一個模型來預測主機響應的持續時間。我所做的第一件事是使用 Pandas 解析 csv 文件中的日志,現在我有 csv 文件,其中的列按以下順序排列并附有示例:                               _time             host  duration202     2020-09-26T10:56:33.630+0200           malcon       850203     2020-09-26T10:56:33.630+0200          malcon2       878703     2020-09-25T21:26:04.651+0200           malcon       973我想做的第一件事是使用一些模型進行異常檢測,但也許有一種更簡單的方法來完成我想要的事情。我希望按時間戳獲取每 3 分鐘間隔高于 800 的持續時間值,并根據我一周內的數據預測這些值。我從代碼開始,該代碼會發現持續時間值高于或等于 800,但不知道如何將它們與時間關聯并定義間隔。到目前為止我的代碼是:import pandas as pddata = pd.read_csv("example_all.csv")df = pd.DataFrame(data,columns=['_time','host','duration'])high = (df.loc[df['duration'] >= 800])print(high) 任何提示和建議將不勝感激!謝謝!更新:我正在嘗試使用滾動功能,但我認為我沒有正確理解它,并且我有點迷失其中。正如此處所建議的,我使用 to_datetime 函數轉換時間戳并按時間對數據進行排序。不幸的是,我找不到一種方法來指定持續時間高于 800 的 3 分鐘時間間隔。我的代碼現在看起來像這樣:import pandas as pddata = pd.read_csv("example_all.csv")data["_time"] = pd.to_datetime(data["_time"], utc='true')df = pd.DataFrame(data,columns=['_time','host','duration'])df.sort_values('_time')high = (df.loc[df['duration'] >= 800])print(high)輸出:                                  _time             host  duration202    2020-09-26 08:56:33.630000+00:00           malcon       850203    2020-09-26 08:56:33.630000+00:00          malcon2       850702    2020-09-25 19:26:05.573000+00:00           malcon       878703    2020-09-25 19:26:04.651000+00:00           malcon       973704    2020-09-25 19:26:03.667000+00:00           malcon       993...
查看完整描述

1 回答

?
開心每一天1111

TA貢獻1836條經驗 獲得超13個贊

如果您要查找任何 >= 800 的值,并且在前 3 分鐘內未記錄任何 < 800 的值,則此方法將起作用:


import pandas as pd

from pandas.tseries.offsets import Minute


data = pd.read_csv("example_all.csv", parse_dates=[0])


data = data.sort_values('_time')



def all_over_800(values):

    return values.map(lambda x: x >= 800).all()



data['over_threshold'] = data[['_time', 'duration']].rolling(

    Minute(3), on='_time').apply(lambda win: all_over_800(win))['duration']


請注意,center窗口選項未針對日期時間偏移窗口實現,因此檢查前 3 分鐘(或根據順序后的 3 分鐘)是此方法的唯一選項。如果您不介意對數據幀進行兩次排序,則可以結合前面和后面的結果來檢查樣本的兩側。


查看完整回答
反對 回復 2024-01-15
  • 1 回答
  • 0 關注
  • 127 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號