我需要計算標記為假/非假的文本中大寫字母、特殊標點符號、特定單詞的存在之間的相關性。例如:Text Label Uppercase Special Punctuation Specific Wordtext1 1 1 0 1text2 0 0 0 0text3 1 1 1 1text4 1 1 1 1text5 0 0 0 1大寫字母、特殊標點符號和特定單詞只能取這兩個值之一:1 或 0。我想確定與標簽相關的這些特征之間的相關性(假=1/非假=0)。我想使用皮爾遜相關系數如下import numpy as np# Create correlation matrixcorr_matrix = df.corr().abs()我可以問你這是否是正確的函數,或者Python中是否有不同的相關函數來計算二進制變量之間的相關性?
2 回答

侃侃無極
TA貢獻2051條經驗 獲得超10個贊
該函數是正確的,但我不明白為什么你只使用絕對值。相關性的符號可以為關聯的方向提供信息。我不熟悉你的背景,所以我只是標記這一點,而不做進一步的說明。
相關性可以用略有不同的方式計算,即“pearson”、“kendall”、“spearman”。默認方法是“pearson”。您可以通過指定“method”參數來使用其他方法進行計算。像這樣:
corr_matrix?=?df.corr(method?=?'kendall')

LEATH
TA貢獻1936條經驗 獲得超7個贊
.corr()
如果你有數值,應該可以工作。
如果您的變量是字符串,只需將它們轉換為整數并使用相關性即可。這應該有效:
df[['Uppercase','Special Punctuation', 'Specific Word']].astype(int).corr()
添加回答
舉報
0/150
提交
取消