sgemm implementation in CAS-PRA
Reference:
- https://github.com/fsword73/SGEMM_on_VEGA/blob/master/sgemm_sqc_test.cpp
- https://github.com/NervanaSystems/maxas/wiki/SGEMM
- https://github.com/ROCm-Developer-Tools/HIP/tree/master/samples/2_Cookbook/10_inline_asm
Device:
https://gist.github.com/victoryang00/cd6324acffc5ac79464d8409f768656a
outher good reference:
https://cas-pra.sugon.com/detail.html?tournament_id=6
- https://s0docs0nvidia0com.icopy.site/cuda/archive/10.0/cublas/index.html#cublas-level-1-function-reference
- https://devblogs.nvidia.com/cublas-strided-batched-matrix-multiply/
- https://ieeexplore.ieee.org/document/7839684
- https://hgpu.org/?p=15361
- https://devblogs.nvidia.com/cutlass-linear-algebra-cuda/
- https://devblogs.nvidia.com/cuda-pro-tip-fast-robust-computation-givens-rotations/
[Parallel Computing] how to optimize sgemm strided
optimize sgemm strided basic theory : https://ieeexplore.ieee.org/document/7839684
[Parallel Computing] MPI消息传递模型
MPI 对于消息传递模型的设计
在开始教程之前,我会先解释一下 MPI 在消息传递模型设计上的一些经典概念。第一个概念是通讯器(communicator)。通讯器定义了一组能够互相发消息的进程。在这组进程中,每个进程会被分配一个序号,称作秩(rank),进程间显性地通过指定秩来进行通信。
通信的基础建立在不同进程间发送和接收操作。一个进程可以通过指定另一个进程的秩以及一个独一无二的消息标签(tag)来发送消息给另一个进程。接受者可以发送一个接收特定标签标记的消息的请求(或者也可以完全不管标签,接收任何消息),然后依次处理接收到的数据。类似这样的涉及一个发送者以及一个接受者的通信被称作点对点(point-to-point)通信。
当然在很多情况下,某个进程可能需要跟所有其他进程通信。比如主进程想发一个广播给所有的从进程。在这种情况下,手动去写一个个进程点对点的信息传递就显得很笨拙。而且事实上这样会导致网络利用率低下。MPI 有专门的接口来帮我们处理这类所有进程间的集体性(collective)通信。