Pandas 時間序列概述
1. 前言
上節我們學習了 Pandas 用于統計描述的常用操作方法,為我們數據分析提供了編輯的操作。我們前面接觸到的數據類型有缺失值、字符串型、數值型,也學習了這些數據的常用的處理和分析方法,除了這些數據類型,我們實際應用中還有一類數據,那就是時間,那在 Pandas 庫中,時間數據又是怎么樣表示的呢?
這節我們就一起來學習 Pandas 庫中一種重要的結構化數據形式 —— 時間序列。
2. 時間序列對比
學習過 python 的同學都應該知道,在原生的 python 語言中,就有關于日期、時間的表示方式,最簡單的就是通過 datetime 日期和時間處理包創建日期時間對象,或者結合第三方的日期時間處理模塊,如 dateutil ,可以方便的對日期和時間數據進行處理分析,雖然他們用起來簡單易懂,但在較為復雜的數據結構中,對于時間的處理功能就不能很好勝任了。
在此基礎上,NumPy 團隊開發優化了時間序列數據,提出了 datetime64 數據類型,因此有效的提升了復雜數據結構在時間序列處理過程中的效率和精度問題,但該數據類型在操作過程中卻沒有那么簡便和靈活。而 Pandas 庫對于時間和日期的處理,正是結合了他們的優點,不僅操作起來簡單便捷,還提供了豐富的操作方法,使得時間序列的處理能力上較為強大。
3.Pandas 中的時間序列
實際數據分析中,時間是我們經常用到的數據量,如具體時間點,某個時間段,不同的應用場景,時間序列的數據表現形式不一樣,比如金融領域股票價格隨時間變化的波動,某個時間點的天氣溫度,化學元素的衰變周期等,Pandas 庫中根據實際應用的時間數據特點,將時間序列主要分為了三種:
時間戳 (Timestamp):表示具體的某個時間點,比如 2021 年 01 月 04 日 12 點 11 分 46 秒;
時間間隔 (Period):由具體的開始和結束時間,比如 2020 年 11 月 1 日 ——2020 年 11 月 28 日;
持續時長 (Timedeltas):是一個特定的時間長度,比如 10 秒鐘。
4. 小結
本節課程我們主要學習了 Pandas 庫中時間序列的優勢,以及認識了 Pandas 庫中的常用的三種序列類型。本節課程的重點如下:
- Pandas 庫中的常用的三種序列類型和他們的特點。