已解決430363個問題，去搜搜看，總會有你想問的

似乎達到了CUDA限制，但這有什么限制？

首頁猿問似乎達到了CUDA限制，但這有什么限制？

似乎達到了CUDA限制，但這有什么限制？

源碼算法與數據結構

蕪湖不蕪 2019-08-14 15:53:32

似乎達到了CUDA限制，但這有什么限制？我有一個CUDA程序似乎在某種資源的某種限制，但我無法弄清楚該資源是什么。這是內核函數：__global__ void DoCheck(float2* points, int* segmentToPolylineIndexMap, int segmentCount, int* output){ int segmentIndex = threadIdx.x + blockIdx.x * blockDim.x; int pointCount = segmentCount + 1; if(segmentIndex >= segmentCount) return; int polylineIndex = segmentToPolylineIndexMap[segmentIndex]; int result = 0; if(polylineIndex >= 0) { float2 p1 = points[segmentIndex]; float2 p2 = points[segmentIndex+1]; float2 A = p2; float2 a; a.x = p2.x - p1.x; a.y = p2.y - p1.y; for(int i = segmentIndex+2; i < segmentCount; i++) { int currentPolylineIndex = segmentToPolylineIndexMap[i]; // if not a different segment within out polyline and // not a fake segment bool isLegit = (currentPolylineIndex != polylineIndex && currentPolylineIndex >= 0); float2 p3 = points[i]; float2 p4 = points[i+1]; float2 B = p4; float2 b; b.x = p4.x - p3.x; b.y = p4.y - p3.y; float2 c; c.x = B.x - A.x; c.y = B.y - A.y; float2 b_perp; b_perp.x = -b.y; b_perp.y = b.x; float numerator = dot(b_perp, c); float denominator = dot(b_perp, a); bool isParallel = (denominator == 0.0); output[segmentIndex] = result;}參數的大如下：devicePoints = 22,464 float2s = 179,712字節deviceSegmentsToPolylineIndexMap = 22,463 ints = 89,852字節numSegments = 1 int = 4個字節deviceOutput = 22,463 ints = 89,852字節當我執行這個內核時，它會崩潰視頻卡?？雌饋砦艺谶_到某種限制，因為如果我使用DoCheck<<<300, 32>>>(...);它來執行內核，它就可以工作。需要明確的是，參數是相同的，只是塊數不同。知道為什么一個人崩潰了視頻驅動程序，而另一個沒有？失敗的那個似乎仍然在卡的數量限制內。更新有關我的系統配置的更多信息：視頻卡：nVidia 8800GTCUDA版本：1.1操作系統：Windows Server 2008 R2我也嘗試在具有以下配置的筆記本電腦上，但得到了相同的結果：視頻卡：nVidia Quadro FX 880MCUDA版本：1.2操作系統：Windows 7 64位

查看完整描述

1 回答

繁星點點滴滴

TA貢獻1803條經驗獲得超3個贊

正在耗盡的資源是時間。在所有當前的CUDA平臺上，顯示驅動程序都包含一個看門狗定時器，可以殺死任何需要幾秒鐘才能執行的內核。在運行顯示器的卡上運行代碼受此限制。

在您使用的WDDM Windows平臺上，有三種可能的解決方案/解決方案：

獲取Telsa卡并使用TCC驅動程序，完全消除了這個問題
嘗試修改注冊表設置以增加計時器限制（google for TdrDelay注冊表項以獲取更多信息，但我不是Windows用戶，并且不能比這更具體）
修改您的內核代碼以“重入”并在幾個內核啟動而不是一個內核啟動中處理數據并行工作負載。內核啟動開銷并不是那么大，并且通過幾個內核運行處理工作負載通常很容易實現，具體取決于您使用的算法。

反對回復 2019-08-14

1 回答
0 關注
778 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

似乎達到了CUDA限制，但這有什么限制？

似乎達到了CUDA限制，但這有什么限制？

1 回答

添加回答

似乎達到了CUDA限制，但這有什么限制？

似乎達到了CUDA限制，但這有什么限制？