现在的位置: 首页 > 综合 > 正文

高级语言内的单指令多数据流计算(SIMD)

2013年06月05日 ⁄ 综合 ⁄ 共 3245字 ⁄ 字号 评论关闭

            高级语言内的单指令多数据流计算(SIMD)
             HouSisong@GMail.com   2011.04.14

tag:单指令多数据流计算,SIMD

摘要:
   很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);
然而很容易忽视的是,我们在高级语言内也能进行很多SIMD类计算!

正文:
    单指令多数据流,Single Instruction Multiple Data,简写为SIMD,就是说用
一个指令同一时间处理多个数据; 
    很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);
比如MMX,3DNow!,MMX2,SSE,SSE2,SSE3,SSSE3,SSE4,AVX等等;
    不用借助这些高级指令集和其特殊寄存器,我们在高级语言范围内,也能进行
很多SIMD类似的计算;
   
问题一 : 对一个字节流的每一个数据进行右移1位
   一般的代码:  (当然,输出数组也可以是另外一个数组,下同)


   使用SIMD思路的代码(4路数据流同时计算):

   明白了这里的实现原理,那么对于其他右移位数/左移/双字节数据也能同理处理了;
   其他几个问题也一样可以举一反三;
   提示: 如果软件运行在64位模式,那我们就能一次处理更多的数据!

问题二 : 对一个字节流的每一个数据x,计算255-x
   一般的代码:

   使用SIMD思路的代码(4路数据流同时计算):


问题三 : 求两个字节流的平均字节流
   一般的代码:

   使用SIMD思路的代码(2路数据流同时计算):


    如果允许结果有点小误差,也可以这样写(4路数据流同时计算):
 

 

  一个来源于ffmpeg的算法 (4路数据流同时计算):  (相当精彩啊)

 


 

 

问题四 : 按指定比例混合两个字节流 (alphaBlend混合,线性插值缩放等常用的算法)
   一般的代码:
      //算法为 dst=(a*(255-s)+b*s)/255;
      //如果允许误差,可以改为 dst=((a<<8)+((int)b-a)*s)>>8;(甚至dst=a+(((int)b-a)*s>>8));


  
//如果不能有误差,这里可以用公式(x/255)==(x*32897>>23)==(x+(x>>8)+1)>>8;

   使用SIMD思路的代码(2路数据流同时计算):

 

问题四: 在字节流中查找第一个出现0值位置 (字节流的值域[0..128])   (字符串结束位置查找?)
   一般的代码:

   使用SIMD思路的代码(4路数据流同时计算):

    
  问题扩展: 字节流的值域[0..255]时的0查找;
   一般的代码同上,不用修改;
   使用SIMD思路的代码(4路数据流同时计算):

 

  当然,在有SIMD对应指令可以使用的环境下,直接用其指令一般还是比这里的模拟实现有优势的;
如果没有或者不好动用这些指令的情况下,模拟SIMD的实现还是很有速度优势的;
当你能在高级语言内熟练编写SIMD类算法,那么在真的使用SIMD指令的时候就更能得心应手了;

抱歉!评论已关闭.