已解決430363個問題，去搜搜看，總會有你想問的

涉及Intel SnB系列CPU上的微編碼指令的循環分支對齊

首頁猿問涉及Intel...

涉及Intel SnB系列CPU上的微編碼指令的循環分支對齊

C++ 性能測試

鳳凰求蠱 2019-09-03 16:51:37

這與此問題有關，但不一樣：x86-64匯編的性能優化 - 對齊和分支預測與我之前的問題略有關系：無符號64位到雙倍轉換：為什么這個算法來自g ++以下是一個不真實的測試用例。這種素性測試算法是不明智的。我懷疑任何真實世界的算法都不會執行如此多的小內循環（num大概是2 ** 50的大小）。在C ++ 11中：using nt = unsigned long long;bool is_prime_float(nt num){ for (nt n=2; n<=sqrt(num); ++n) { if ( (num%n)==0 ) { return false; } } return true;}然后g++ -std=c++11 -O3 -S生成以下內容，包含RCX n和包含XMM6 sqrt(num)。請參閱我之前發布的剩余代碼（在此示例中從未執行過，因為RCX永遠不會變得足夠大，不能被視為帶符號的否定）。jmp .L20.p2align 4,,10.L37:pxor %xmm0, %xmm0cvtsi2sdq %rcx, %xmm0ucomisd %xmm0, %xmm6jb .L36 // Exit the loop.L20:xorl %edx, %edxmovq %rbx, %raxdivq %rcxtestq %rdx, %rdxje .L30 // Failed divisibility testaddq $1, %rcxjns .L37// Further code to deal with case when ucomisd can't be used我用這個時間std::chrono::steady_clock。我一直在進行奇怪的性能變化：從添加或刪除其他代碼。我最終將其追蹤到一個對齊問題。該命令.p2align 4,,10試圖對齊2 ** 4 = 16字節邊界，但只使用最多10個字節的填充來實現，我想在對齊和代碼大小之間取得平衡。我寫了一個Python腳本，用.p2align 4,,10手動控制的nop指令數替換。下面的散點圖顯示了20次運行中最快的15次，以秒為單位的時間，在x軸上填充的字節數：散點圖從objdump沒有填充，將發生在偏移0x402f5f的PXOR指令。在筆記本電腦上運行，Sandybridge i5-3210m，turboboost 禁用，我發現了對于0字節填充，性能較慢（0.42秒）對于1-4字節填充（偏移0x402f60到0x402f63）稍微好一點（0.41s，在圖上可見）。對于5-20個字節填充（偏移0x402f64到0x402f73）獲得快速性能（0.37s）對于21-32字節填充（偏移0x402f74到0x402f7f）緩慢性能（0.42秒）然后循環一個32字節的樣本因此，16字節對齊不能提供最佳性能 - 它使我們處于稍微好一點（或者從散點圖中稍微變化）的區域。32加4到19的對齊可以提供最佳性能。為什么我看到這種性能差異？為什么這似乎違反了將分支目標與16字節邊界對齊的規則（參見例如英特爾優化手冊）我沒有看到任何分支預測問題。這可能是一個uop緩存怪癖？通過將C ++算法更改為sqrt(num)64位整數緩存然后使循環純粹基于整數，我刪除了問題 - 對齊現在沒有任何區別。

查看完整描述

3 回答

藍山帝景

TA貢獻1843條經驗獲得超7個贊

從我在你的算法中看到的，你肯定沒有太多可以改進它。

你遇到的問題可能不是分支到一個對齊的位置，盡管這仍然有幫助，你當前的問題更可能是管道機制。

當你一個接一個地寫兩條指令時，例如：

mov %eax, %ebx

add 1, %ebx

為了執行第二條指令，必須完成第一條指令。因此，編譯器傾向于混合指令。假設你需要設置%ecx為零，你可以這樣做：

mov %eax, %ebx

xor %ecx, %ecx

add 1, %ebx

在這種情況下，mov和xor都可以并行執行。這使得事情變得更快......并行處理的指令數量在處理器之間變化很大（Xeons通常更好）。

分支添加另一個參數，其中最佳處理器可以同時開始執行分支的兩側（true和false ...）。但實際上大多數處理器都會猜測并希望它們是正確的。

最后，很明顯，轉換sqrt()結果的整數將使事情很多更快，因為你會避免一切無感與SSE2代碼，如果只用于轉換+比較時，這兩個指令可以用做是明確慢整數。

現在......你可能仍然想知道為什么對齊與整數無關。事實是，如果您的代碼適合L1指令緩存，那么對齊并不重要。如果你丟失了L1緩存，那么它必須重新加載代碼，這就是對齊變得非常重要的地方，因為在每個循環上它可能會加載無用的代碼（可能是15個字節的無用代碼......）并且內存訪問仍然死慢。

反對回復 2019-09-03

3 回答
0 關注
947 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

涉及Intel SnB系列CPU上的微編碼指令的循環分支對齊

涉及Intel SnB系列CPU上的微編碼指令的循環分支對齊

3 回答

添加回答