矩阵与向量乘法的优化.ppt

上传人:石*** 文档编号:40936628 上传时间:2022-09-11 格式:PPT 页数:28 大小:2.46MB
返回 下载 相关 举报
矩阵与向量乘法的优化.ppt_第1页
第1页 / 共28页
矩阵与向量乘法的优化.ppt_第2页
第2页 / 共28页
点击查看更多>>
资源描述

《矩阵与向量乘法的优化.ppt》由会员分享,可在线阅读,更多相关《矩阵与向量乘法的优化.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、矩阵与向量乘法的优化现在学习的是第1页,共28页目的 对于CUDA程序开发来说,优化往往是整个开发过程的核心,不同算法,不同存储器组织的程序性能往往差几十倍,本文通过一个简单的例子来展示CUDA开发中一些重要的因素对性能的影响。2现在学习的是第2页,共28页假设读者拥有以下知识l 拥有C语言编程的经验,最好拥有并行编程经验l懂得CUDA,最好用CUDA写过代码3现在学习的是第3页,共28页测试环境Intel xeon 5405 2.0 GHzGeforce GTX 295(只使用单核)Gcc 4.3.3 CUDA toolkit 3.1只测试计算时间,不包括数据传输4现在学习的是第4页,共28

2、页符号说明matrix:矩阵数据指针,以行为主序或者列为主序存储 v|vec:向量指针 r:矩阵和向量乘的结果指针 rowSize:表示矩阵的行数,也是r的长度 columnSize:表示矩阵的列数,也是v的长度所有指向显存的指针加前缀d_5现在学习的是第5页,共28页编译配置矩阵尺寸8192*8192单精度编译选项-O3 funroll-loops msseCPU计时函数采用gettimeofday,clock,GPU计时函数采用CUDA event6现在学习的是第6页,共28页串行C版本算法:遍历矩阵行,每行和向量相乘,最终结果为一向量void mxv(const int rowSize,

3、const int columnSize,void mxv(const int rowSize,const int columnSize,const float const float*matrix,const float matrix,const float*v,float v,float*r)r)for(int i=0;i rowSize;i+)for(int i=0;i rowSize;i+)float re=0.0f;float re=0.0f;for(int j=0;j columnSize;j+)for(int j=0;j columnSize;j+)re+=matrixi re+

4、=matrixi*columnSize+jcolumnSize+j*vj;vj;ri=re;ri=re;7运行时间运行时间120 ms,120 ms,不使用不使用-O3-O3运行耗时运行耗时490 ms490 ms现在学习的是第7页,共28页简单SSE版本算法算法:利用利用ssesse指令计算矩阵每行和向量的乘积指令计算矩阵每行和向量的乘积void mxvSSE(const int rowSize,const int columnSize,const float void mxvSSE(const int rowSize,const int columnSize,const float*mat

5、rix,const float matrix,const float*v,float v,float*r)r)_m128 _m128*mv=(_m128mv=(_m128*)v;)v;_m128 _m128*mm=(_m128mm=(_m128*)matrix;)matrix;for(int i=0;i rowSize;i+)for(int i=0;i rowSize;i+)_m128 re=_mm_set_ps(0.0f,0.0f,0.0f,0.0f);_m128 re=_mm_set_ps(0.0f,0.0f,0.0f,0.0f);for(int j=0;j columnSize/4;j+

6、)for(int j=0;j columnSize/4;j+)re=_mm_add_ps(re,_mm_mul_ps(mmi re=_mm_add_ps(re,_mm_mul_ps(mmi*columnSize/4+j,mvj);columnSize/4+j,mvj);float _attribute(aligned(16)a4;float _attribute(aligned(16)a4;_mm_store_ps(a,re);_mm_store_ps(a,re);ri=a0+a1+a2+a3;ri=a0+a1+a2+a3;运行时间99ms8现在学习的是第8页,共28页SSE+openmp算法

7、算法:使用二线程并行计算行循环使用二线程并行计算行循环void mxvSSEOpenmp(const int rowSize,const int columnSize,float void mxvSSEOpenmp(const int rowSize,const int columnSize,float*matrix,float matrix,float*vec,float vec,float*r)r)_m128 _m128*mv=(_m128mv=(_m128*)v;)v;_m128 _m128*mm=(_m128mm=(_m128*)matrix;)matrix;#pragma omp p

8、arallel for num_threads(2)#pragma omp parallel for num_threads(2)for(int i=0;i rowSize;i+)for(int i=0;i rowSize;i+)_m128 re=_mm_set_ps(0.0f,0.0f,0.0f,0.0f);_m128 re=_mm_set_ps(0.0f,0.0f,0.0f,0.0f);for(int j=0;j columnSize/4;j+)for(int j=0;j columnSize/4;j+)re=_mm_add_ps(re,_mm_mul_ps(mmi re=_mm_add_

9、ps(re,_mm_mul_ps(mmi*columnSize/4+j,mvj);columnSize/4+j,mvj);float _attribute(aligned(16)a4;float _attribute(aligned(16)a4;_mm_store_ps(a,re);_mm_store_ps(a,re);ri=a0+a1+a2+a3;ri=a0+a1+a2+a3;运行时间50ms9现在学习的是第9页,共28页CUDA优化注意事项一、选择好的并行方式选择好的算法,以发掘更多的数据并行性二、保持SM忙碌尽量利用所有的SM参与计算,可以通过加大数据量或减小线程块大小达到目的三、优化存

10、储器利用保证全局存储器合并访问使用速度更快的constant或shared存储器10现在学习的是第10页,共28页CUDA-nave版本算法算法:每个每个CUDACUDA线程计算矩阵的一行与向量乘积线程计算矩阵的一行与向量乘积static void _global_ mxvNaive(int rowSize,int columnSize,int columnPitch,const float static void _global_ mxvNaive(int rowSize,int columnSize,int columnPitch,const float*d_matrix,const fl

11、oat d_matrix,const float*d_vec,float d_vec,float*d_r)d_r)uint id=blockDim.xuint id=blockDim.x*blockIdx.x+threadIdx.x;blockIdx.x+threadIdx.x;if(rowSize=id)return;if(rowSize=id)return;float temp=0.0f;float temp=0.0f;#pragma unroll 4#pragma unroll 4 for(int i=0;i columnSize;i+)for(int i=0;i 串行120ms11现在

12、学习的是第11页,共28页CUDA-nave为什么比串行还慢?为什么比串行还慢?columnPitch columnPitch的作用是什么?的作用是什么?访问访问d_matrixd_matrix没有满足合并访问的要求没有满足合并访问的要求什么是合并访问?什么是合并访问?12现在学习的是第12页,共28页合并访问一句话:相邻线程访问段对齐的相邻地址为什么说访问d_matrix没有满足合并访问要求for(int i=0;i columnSize;i+)temp+=d_matrixid*columnPitch+i*d_veci;假设假设i=0,i=0,线程线程0 0访问访问d_matrix0,d_m

13、atrix0,线程线程1 1访问访问d_matrixcolumnPitch,d_matrixcolumnPitch,线程线程2 2访问访问d_matrix2d_matrix2*columnPitch,columnPitch,这些数据的地址并不相邻,因此没有满足合并访问的要求。这些数据的地址并不相邻,因此没有满足合并访问的要求。columnPitchcolumnPitch由函数由函数cudaMallocPitchcudaMallocPitch返回,保证段对齐。返回,保证段对齐。怎样才能使用访问d_matrix满足合并访问要求?13现在学习的是第13页,共28页矩阵转置转置后访问d_matrix的

14、模式变成了for(int i=0;i rowSize;i+)temp+=d_matrixi*columnPitch+id*d_veci;假设假设i=0,i=0,线程线程0 0访问访问d_matrix0,d_matrix0,线程线程1 1访问访问d_matrixd_matrix,线程线程2 2访问访问d_matrix2,d_matrix2,此时满足合并访问的要求。此时满足合并访问的要求。此时运行时间下降到了此时运行时间下降到了4.65ms4.65ms,性能提高到原来的性能提高到原来的3030多倍多倍,这充分这充分说明了合并访问的重要性。说明了合并访问的重要性。14现在学习的是第14页,共28页更

15、进一步for(int i=0;i rowSize;i+)temp+=d_matrixi*columnPitch+id*d_veci;从上面代码很明显的看到d_vec在计算的过程中不变,而且每个线程都访问相同的地址,故可以考虑将它存放在constant中15现在学习的是第15页,共28页constant优化static void _global_ mxvNaiveTransposeConstant(int rowSize,int columnSize,int columnPitch,const float*d_matrix,const int start,float*d_r)uint id=bl

16、ockDim.x*blockIdx.x+threadIdx.x;if(columnSize rowSize?rowSize:start+CONSTANTSIZE;for(int i=start;i end;i+)temp+=d_matrixi*columnPitch+id*c_vi-start;d_rid+=temp;其中:c_v中constant存储器数组,大小为CONSTANTSIZE。16耗时4.17 ms现在学习的是第16页,共28页constant优化(续)问题:如果d_v的大小超过constant的64KB大小限制,怎么办?解决方法:分批,多次传输和启动内核17现在学习的是第17页

17、,共28页更进一步很明显,对于block内线程来说,向量都是共享的,因此我们可以使用比constant更快的shared memory来存储,此时相比使用constant,我们免掉了在向量比较大时多次数据拷贝和启动kernel的开销,而且没有使用全局变量,代码的可扩展性更好.由于可能因为shared memory大小存储不了向量,因此需要将向量分块,每次传一小块到shared中,计算完这一小块后,再传一小块接着计算.18现在学习的是第18页,共28页shared优化static void _global_ mxvNaiveTransposeShared(int rowSize,int colu

18、mnSize,int columnPitch,const float*d_matrix,const float*d_v,const int sharedSize,float*d_r)uint id=blockDim.x*blockIdx.x+threadIdx.x;float temp=0.0f;extern _shared_ float s_v;for(int start=0;start rowSize;start+=sharedSize)_syncthreads();#pragma unroll 4 for(int i=threadIdx.x;i sharedSize&i+startrow

19、Size;i+=blockDim.x)s_vi=d_vstart+i;_syncthreads();if(columnSize rowSize?rowSize:start+sharedSize;19现在学习的是第19页,共28页shared优化(续)#pragma unroll 8 for(int i=start;i end;i+)temp+=d_matrixi*columnPitch+id*s_vi-start;if(id columnSize)d_rid=temp;20耗时2.62 ms现在学习的是第20页,共28页矩阵转置的性能前面的CUDA代码都是基于转置后的矩阵来计算的,因此矩阵转置

20、的性能非常重要,下面的sdk中的transposeNew转置8192*8192的float在GTX 295上的数据21方法说明方法说明吞吐量吞吐量Kernel运行时间运行时间transposeNew-Outer-fine-grained67.7686 GB/s7.37804 stransposeNew-Inner-fine-grained72.7973 GB/s6.86839 stransposeNew-Outer-diagonal transpose28.4115 GB/s17.59853 stransposeNew-Inner-diagonal transpose33.8458 GB/s1

21、4.77287 stransposeNew-Outer-no bank conflict trans17.2629 GB/s28.96379 stransposeNew-Inner-no bank conflict transs17.0058 GB/s29.40170 由于矩阵转置比较慢,因此在很多情况下,我们要使用不转置矩阵的办法现在学习的是第21页,共28页关于block和warpBlock,CUDA线程以block为单位分发到SM上执行,因此使用block线程为单位来处理数据是一个很nature的选择。Warp,block中的线程会以32个为单位划分,这32个线程称为warp,warp中

22、线程的id是连续的,由于SM调度线程的单位是warp,因此在某些情况下,显式的使用warp可获得更好的性能。22现在学习的是第22页,共28页Block模式算法:一个block处理矩阵的一行和向量乘积,其中block中的每个线程处理该行中的一个与对应向量元素的乘积,然后归约。static void _global_ mxvBlock(int rowSize,int columnSize,int pitchItem,const floatstatic void _global_ mxvBlock(int rowSize,int columnSize,int pitchItem,const flo

23、at*_restrict_ d_matrix,const float_restrict_ d_matrix,const float*_restrict_ d_vec,float _restrict_ d_vec,float*_restrict_ d_r)_restrict_ d_r)unsigned int tid=threadIdx.x;unsigned int tid=threadIdx.x;extern _shared_ float s_r;extern _shared_ float s_r;float temp=0.0f;float temp=0.0f;for(int i=tid;i

24、columnSize;i+=blockDim.x)for(int i=tid;i columnSize;i+=blockDim.x)temp+=d_matrixblockIdx.xtemp+=d_matrixblockIdx.x*pitchItem+ipitchItem+i*d_veci;d_veci;s_rtid=temp;_syncthreads();s_rtid=temp;_syncthreads();/省略归约代码省略归约代码 23耗时5.42 ms现在学习的是第23页,共28页Warp模式耗时4.10 ms24具体的计算和具体的计算和blockblock模式差不多模式差不多,只是使用

25、一个只是使用一个warpwarp线线程计算矩阵的一行与向量的乘积程计算矩阵的一行与向量的乘积,在我的测试中发现在我的测试中发现,这个算这个算法对于行大于列的矩阵效果很好法对于行大于列的矩阵效果很好,很多时候性能是很多时候性能是blockblock的两倍的两倍以上。以上。现在学习的是第24页,共28页cublas函数:cublasSgemv25耗时2.61 ms现在学习的是第25页,共28页总结一下函数名函数名说明说明时间时间/ms加速比加速比mxv串行C120mxvSSE串行C+SSE991.2mxvSSEOpenmp串行C+SSE+openmp502.4mxvNaive1500.8mxvNa

26、iveTranspose矩阵转置4.626.1mxvNaiveTransposeConstant矩阵转置+constant memory4.228.6mxvNaiveTransposeShared矩阵转置+shared memory2.646.2mxvBlockblock模式5.422.2mxvWarpwarp模式4.129.3cublas调用cublasSgemv函数2.646.226现在学习的是第26页,共28页总结一下(续)矩阵转置以满足合并访问 使用常量存储器,共享存储器 使用block模式和warp模式27其它的一些优化方法其它的一些优化方法手动循环展开数据预取指令混合现在学习的是第27页,共28页感谢itpub提供的这次机会,谢谢大家,欢迎提问!28现在学习的是第28页,共28页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁