在自然語言處理中,若有個字典或字庫里有N個單字,則每個單字可以被一個N維的one-hot向量代表。譬如若字庫里僅有apple(蘋果),banana(香蕉),以及pineapple(鳳梨)這三個單字,則他們各自的one-hot向量可以為:
由于電腦無法理解非數字類的數據,One-hot編碼可以將類別性數據轉換成統一的數字格式,方便機器學習的算法進行處理及計算。而轉換成固定維度的向量則方便機器學習算法進行線性代數上的計算。另外由于一個one-hot向量中,絕大部分的數字都是0,所以若使用稀疏矩陣的數據結構,則可以節省電腦內存的使用量
由于電腦無法理解非數字類的數據,One-hot編碼可以將類別性數據轉換成統一的數字格式,方便機器學習的算法進行處理及計算。而轉換成固定維度的向量則方便機器學習算法進行線性代數上的計算。另外由于一個one-hot向量中,絕大部分的數字都是0,所以若使用稀疏矩陣的數據結構,則可以節省電腦內存的使用量
2021-07-24