亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用 numpy 變量之間的相關性

使用 numpy 變量之間的相關性

紫衣仙女 2023-10-31 14:38:07
我需要計算標記為假/非假的文本中大寫字母、特殊標點符號、特定單詞的存在之間的相關性。例如:Text      Label        Uppercase       Special Punctuation    Specific Wordtext1       1                1                       0                   1text2       0                0                       0                   0text3       1                1                       1                   1text4       1                1                       1                   1text5       0                0                       0                   1大寫字母、特殊標點符號和特定單詞只能取這兩個值之一:1 或 0。我想確定與標簽相關的這些特征之間的相關性(假=1/非假=0)。我想使用皮爾遜相關系數如下import numpy as np# Create correlation matrixcorr_matrix = df.corr().abs()我可以問你這是否是正確的函數,或者Python中是否有不同的相關函數來計算二進制變量之間的相關性?
查看完整描述

2 回答

?
侃侃無極

TA貢獻2051條經驗 獲得超10個贊

該函數是正確的,但我不明白為什么你只使用絕對值。相關性的符號可以為關聯的方向提供信息。我不熟悉你的背景,所以我只是標記這一點,而不做進一步的說明。

相關性可以用略有不同的方式計算,即“pearson”、“kendall”、“spearman”。默認方法是“pearson”。您可以通過指定“method”參數來使用其他方法進行計算。像這樣:

corr_matrix?=?df.corr(method?=?'kendall')
查看完整回答
反對 回復 2023-10-31
?
LEATH

TA貢獻1936條經驗 獲得超7個贊

.corr()如果你有數值,應該可以工作。

如果您的變量是字符串,只需將它們轉換為整數并使用相關性即可。這應該有效:

df[['Uppercase','Special Punctuation', 'Specific Word']].astype(int).corr()


查看完整回答
反對 回復 2023-10-31
  • 2 回答
  • 0 關注
  • 170 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號