似乎達到了CUDA限制,但這有什么限制?我有一個CUDA程序似乎在某種資源的某種限制,但我無法弄清楚該資源是什么。這是內核函數:__global__ void DoCheck(float2* points, int* segmentToPolylineIndexMap,
int segmentCount, int* output){
int segmentIndex = threadIdx.x + blockIdx.x * blockDim.x;
int pointCount = segmentCount + 1;
if(segmentIndex >= segmentCount)
return;
int polylineIndex = segmentToPolylineIndexMap[segmentIndex];
int result = 0;
if(polylineIndex >= 0)
{
float2 p1 = points[segmentIndex];
float2 p2 = points[segmentIndex+1];
float2 A = p2;
float2 a;
a.x = p2.x - p1.x;
a.y = p2.y - p1.y;
for(int i = segmentIndex+2; i < segmentCount; i++)
{
int currentPolylineIndex = segmentToPolylineIndexMap[i];
// if not a different segment within out polyline and
// not a fake segment
bool isLegit = (currentPolylineIndex != polylineIndex &&
currentPolylineIndex >= 0);
float2 p3 = points[i];
float2 p4 = points[i+1];
float2 B = p4;
float2 b;
b.x = p4.x - p3.x;
b.y = p4.y - p3.y;
float2 c;
c.x = B.x - A.x;
c.y = B.y - A.y;
float2 b_perp;
b_perp.x = -b.y;
b_perp.y = b.x;
float numerator = dot(b_perp, c);
float denominator = dot(b_perp, a);
bool isParallel = (denominator == 0.0);
output[segmentIndex] = result;}參數的大如下:devicePoints = 22,464 float2s = 179,712字節deviceSegmentsToPolylineIndexMap = 22,463 ints = 89,852字節numSegments = 1 int = 4個字節deviceOutput = 22,463 ints = 89,852字節當我執行這個內核時,它會崩潰視頻卡??雌饋砦艺谶_到某種限制,因為如果我使用DoCheck<<<300, 32>>>(...);它來執行內核,它就可以工作。需要明確的是,參數是相同的,只是塊數不同。知道為什么一個人崩潰了視頻驅動程序,而另一個沒有?失敗的那個似乎仍然在卡的數量限制內。更新 有關我的系統配置的更多信息:視頻卡:nVidia 8800GTCUDA版本:1.1操作系統:Windows Server 2008 R2我也嘗試在具有以下配置的筆記本電腦上,但得到了相同的結果:視頻卡:nVidia Quadro FX 880MCUDA版本:1.2操作系統:Windows 7 64位
1 回答

繁星點點滴滴
TA貢獻1803條經驗 獲得超3個贊
正在耗盡的資源是時間。在所有當前的CUDA平臺上,顯示驅動程序都包含一個看門狗定時器,可以殺死任何需要幾秒鐘才能執行的內核。在運行顯示器的卡上運行代碼受此限制。
在您使用的WDDM Windows平臺上,有三種可能的解決方案/解決方案:
獲取Telsa卡并使用TCC驅動程序,完全消除了這個問題
嘗試修改注冊表設置以增加計時器限制(google for TdrDelay注冊表項以獲取更多信息,但我不是Windows用戶,并且不能比這更具體)
修改您的內核代碼以“重入”并在幾個內核啟動而不是一個內核啟動中處理數據并行工作負載。內核啟動開銷并不是那么大,并且通過幾個內核運行處理工作負載通常很容易實現,具體取決于您使用的算法。
添加回答
舉報
0/150
提交
取消