February 3, 2020February 3, 2020 by vickieGPT

[cuda 编程]优化cuda

一个block 不是最小单元，最好的优化是在warp上调度，warp的步调是一致的。

P.S. 尽量不要写过多的深层的递归，因为在gpu上实现这个是需要开指数级别的线程数，没开一个线程就意味着特定的内存开销，显存很容易被撑满。

用线程调度的方法来达到延时隐藏的效果，对于gpu的warp来说，context switch 的开销几乎为零。在特定的时间点只可能一个warp在执行。

如果warp内部线程沿不同的