但是通过SDK的带宽测试,数值比较奇怪。

host -> device 最高不到3GB/S,  device-> host 最高只有3.2GB/s,这与PCI Express Gen 2.0的5-6GB/s的数据相差比较大。

发现,还有其他人在相同的HP ProLiant DL370 G6的服务器上遇到类似的问题。

http://forums.nvidia.com/index.php?showtopic=104243

结论是主板的芯片的问题,那颗芯片相当于集成了两颗IOH,造成了奇怪的带宽瓶颈。

如果想在那台机器上得到相对高的带宽(h2d: 2.8-2.9GB/s,  d2h: 3.2GB/s),必须进行进程绑定,通过测试,应该绑定到Node 1上,也就是说:

numactl –membind=1  ./运行的程序