亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何計算文本中詞頻的最優zipf分布

如何計算文本中詞頻的最優zipf分布

慕森王 2021-12-29 10:26:09
對于家庭作業,我必須繪制文本的詞頻并將其與最佳zipf分布進行比較。根據它們在日志日志圖中的排名繪制文本的計數詞頻似乎工作正常。但是我在計算最佳 zipf 分布時遇到了麻煩。結果應該是這樣的:我不明白計算直線的方程是什么樣的zipf。在zipf法律的德國維基百科頁面上,我發現了一個似乎有效的等式但沒有引用來源,所以我不明白常數1.78來自哪里。#tokenizes the file tokens = word_tokenize(raw)tokensNLTK = Text(tokens)#calculates the FreqDist of all words - all words in lower casefreq_list = FreqDist([w.lower() for w in tokensNLTK]).most_common()#Data for X- and Y-Axis plotvalues=[]for item in (freq_list):    value = (list(item)[1]) / len([w.lower() for w in tokensNLTK])    values.append(value)#graph of counted frequencies gets plottedplt.yscale('log')plt.xscale('log')plt.plot(np.array(list(range(1, (len(values)+1)))), np.array(values))#graph of optimal zipf distribution is plottedoptimal_zipf = 1/(np.array(list(range(1, (len(values)+1))))* np.log(1.78*len(values)))###1.78plt.plot(np.array(list(range(1, (len(values)+1)))), optimal_zipf)plt.show()我使用此腳本的結果如下所示:但我只是不確定最佳zipf分布是否計算正確。如果是這樣,最佳zipf分布不應該在某一點與 X 軸交叉嗎?
查看完整描述

1 回答

?
慕標5832272

TA貢獻1966條經驗 獲得超4個贊

看看Andrew William Chisholm 的這篇研究論文。特別是第 22 頁。

H (N) ≈ ln (N) + γ

其中 γ 是 Euler-Mascheroni 常數,近似值為 0.57721。注意到 exp(γ) ≈ 1.78,方程 <...> 可以重寫為大 N(N 必須大于 1,000 才能精確到千分之一)。

pr 1 / [r*ln(1.78*N)]


查看完整回答
反對 回復 2021-12-29
  • 1 回答
  • 0 關注
  • 247 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號