首頁猿問用于多類目標檢測的分層 K 折？

用于多類目標檢測的分層 K 折？

Python

qq_笑_17 2023-09-26 17:09:48

更新我已經上傳了一個虛擬數據集，df.head()：它總共有4 個類df.object.value_counts()：human? ? 23car? ? ? 13cat? ? ? ?5dog? ? ? ?3我想對K-Fold多類對象檢測數據集進行正確的驗證分割。初步方法為了實現正確的 k 倍驗證分割，我考慮了object counts和的數量bounding box。據我了解，K-fold拆分策略主要取決于數據集（元信息）。但現在對于這些數據集，我嘗試了如下操作：skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=101)df_folds = main_df[['image_id']].copy()df_folds.loc[:, 'bbox_count'] = 1df_folds = df_folds.groupby('image_id').count()df_folds.loc[:, 'object_count'] = main_df.groupby('image_id')['object'].nunique()df_folds.loc[:, 'stratify_group'] = np.char.add(? ? df_folds['object_count'].values.astype(str),? ? df_folds['bbox_count'].apply(lambda x: f'_{x // 15}').values.astype(str))df_folds.loc[:, 'fold'] = 0for fold_number, (train_index, val_index) in enumerate(skf.split(X=df_folds.index, y=df_folds['stratify_group'])):? ? df_folds.loc[df_folds.iloc[val_index].index, 'fold'] = fold_number拆分后，我檢查了它是否正常工作。到目前為止看起來還不錯。所有的褶皺都包含分層k-fold樣本，len(df_folds[df_folds['fold'] == fold_number].index)并且彼此之間沒有交集，set(A).intersection(B)其中A和B是兩個褶皺的指數值（image_id）。但問題似乎是這樣的：Fold?0?has?total:?18?+?2?+?3?=?23?bbox Fold?1?has?total:?2?+?11?=?13?bbox Fold?2?has?total:?5?+?3?=?8?bbox憂慮但是，我無法確定這是否是完成此類任務的正確方法。我想要一些建議。上面的方法可以嗎？或者有什么問題嗎？或者有更好的方法！任何形式的建議將不勝感激。謝謝。

查看完整描述

3 回答

三國紛爭

TA貢獻1804條經驗獲得超7個贊

您可以直接使用 StratifiedKFold() 或 StratifiedShuffleSplit() 來根據某些分類列使用分層采樣來分割數據集。

虛擬數據：

import pandas as pd

import numpy as np

np.random.seed(43)

df = pd.DataFrame({'ID': (1,1,2,2,3,3),

'Object': ('bus', 'car', 'bus', 'bus', 'bus', 'car'),

'X' : np.random.randint(0, 10, 6),

'Y' : np.random.randn(6)

})

使用 StratifiedKFold()

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=2)

for train_index, test_index in skf.split(df, df["Object"]):

strat_train_set_1 = df.loc[test_index]

strat_test_set_1 = df.loc[test_index]

print('train_set :', strat_train_set_1, '\n' , 'test_set :', strat_test_set_1)

同樣，如果您選擇使用 StratifiedShuffleSplit()，您可以

from sklearn.model_selection import StratifiedShuffleSplit

sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

# n_splits = Number of re-shuffling & splitting iterations.

for train_index, test_index in sss.split(df, df["Object"]):

# split(X, y[, groups]) Generates indices to split data into training and test set.

strat_train_set = df.loc[train_index]

strat_test_set = df.loc[test_index]

print('train_set :', strat_train_set, '\n' , 'test_set :', strat_test_set)

反對回復 2023-09-26

弒天下

TA貢獻1818條經驗獲得超8個贊

我會簡單地使用KFoldpython 的 scikit-learn 方法來做到這一點

from numpy import array

from sklearn.model_selection import KFold

data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])

kfold = KFold(3, True, 1)

for train, test in kfold.split(data):

? ? print('train: %s, test: %s' % (data[train], data[test]))

反對回復 2023-09-26

繁星coding

TA貢獻1797條經驗獲得超4個贊

創建交叉驗證拆分時，我們關心創建的折疊，這些折疊對數據中遇到的各種“案例”具有良好的分布。

就您而言，您決定根據汽車數量和邊界框數量進行折疊，這是一個不錯但有限的選擇。因此，如果您可以使用數據/元數據識別特定情況，您可以嘗試使用它創建更智能的折疊。

最明顯的選擇是平衡折疊中的對象類型（類），但您可以走得更遠。

這是主要思想，假設您有主要在法國遇到的汽車的圖像，以及主要在美國遇到的其他汽車的圖像，它可以用于創建良好的折疊，每個折疊中法國和美國汽車的數量保持平衡。天氣條件等也可以這樣做。因此，每次折疊都將包含可供學習的代表性數據，以便您的網絡不會對您的任務產生偏見。因此，您的模型對于現實生活中數據的潛在變化將更加穩健。

那么，您可以在交叉驗證策略中添加一些元數據來創建更好的簡歷嗎？如果不是這種情況，您能否使用數據集的 x、y、w、h 列獲取有關潛在極端情況的信息？

然后，您應該嘗試在樣本方面進行平衡折疊，以便在相同的樣本大小上評估您的分數，這將減少方差并最終提供更好的評估。

反對回復 2023-09-26

3 回答
0 關注
130 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

用于多類目標檢測的分層 K 折？

用于多類目標檢測的分層 K 折？

3 回答

添加回答