如何為CUDA內核選擇網格和塊尺寸?這是一個關于如何確定CUDA網格、塊和線程大小的問題。這是在這里張貼的問題的另一個問題:https://stackoverflow.com/a/5643838/1292251按照這個鏈接,來自Talonmies的答案包含一個代碼片段(見下文)。我不明白“值通常是由調優和硬件約束選擇的”這句話。我沒有找到一個很好的解釋或澄清,解釋這在數據自動化系統的文件??傊?,我的問題是如何確定最優條形(=線程數)給定以下代碼:const int n = 128 * 1024;int blocksize = 512; // value usually chosen by tuning and hardware constraintsint nblocks = n / nthreads;
// value determine by block size and total workmadd<<<nblocks,blocksize>>>mAdd(A,B,C,n);順便說一下,我從上面的鏈接開始我的問題,因為它部分地回答了我的第一個問題。如果這不是一個正確的方式來問題堆疊溢出,請原諒或建議我。
添加回答
舉報
0/150
提交
取消