IBM CellBE Workshop内容和重点

现在的位置: 首页 > 综合 > 正文

IBM CellBE Workshop内容和重点

2012年01月17日 ⁄ 综合 ⁄ 共 3021字 ⁄ 字号小中大 ⁄ 评论关闭

有幸参加了IBM的这个training，不过由于IBM自己管理的失误，很多人没能知道培训地点，在此特别鄙视一把。为期2天的training我参加了1天半，由2个IBM北京的讲师轮番上阵，嗯，分别是龚大和潘大。废话少说，切入正题。

首先是Cell的架构，应该已经很熟悉了，即使你不鸟IBM，PS3的硬件spec上也写着：PPE+8SPE，9个核，10个硬件thread。PPE是legacy Power5的架构，把它当Power5使没问题，完全兼容，有L1，L2两个cache。8个SPE，包含SPU向量处理器，为了向量处理和SIMD设计的，128个128bit通用寄存器（真多），dual issue channel，非常快，没有硬件cache设计。SPE还包含LS(256K)，用于SPU的本地存储器，latency也非常小、MFC用于DMA控制。EIB作为PPE和SPE之间的高速总线。

然后是开发环境。Cell SDK目前是2.1版本，跑在linux上。龚大说9月份会release 3.0，里面xlc的一些超强优化特性以及FDPR-Pro的SPE版本都会出现。好，不管以后的版本多么fancy，先来看手头有的东西： toolchain和compiler，当然是C/C++的，分别对应PPU的和SPU的有2份，所以会编译出两种executable格式。编译器可以用gcc或者IBM自己的xlc，据说xlc稍后的版本会有auto vectorization之类的功能粉墨登场，敬请期待。其他的工具链的东西可以参考普通x86上linux的那一套，基本用法当然是一模一样的。除此之外，IBM的工程师们还提供了很多profiling工具，比如静态的SPU timing工具，可以生成汇编代码和时序图、还有FDPR-Pro，对二进制代码进行无人工参与的优化，不过目前只对应PPU。为了方便大家发挥Cell的实力，IBM中国的lab也搞了一个叫ALF（Accelerated Library Framework）的东西，据说可以大大简化程序员拆分workload的工作，可以以脚本（还是GUI？忘记了）的方式定义workload，然后可以让程序自动优化处理时机，这个东西在培训中没有讲到，看来要好好关注一把。最后么，还有些Eclipse插件，以及Cell的官方模拟器，这玩意儿将在运行时profiling中起到非常重大的作用，可以在里面看到每个cycle、SPU执行状态以及CPI（Cycle Per Instruction，据说普通程序可以优化到1.0左右，变态计算可以到0.6-0.7）和miss branching、dural issue rate等重要profiling数据，但缺点就是太慢，我在IBM的教室里，P4的老机器，跑win2k，再跑vmware上的fc6，再在fc6里跑simulator，又起来一个linux，即使是fast mode，模拟器工作的都很慢，如果是cycle mode，据说5秒钟的程序可以跑上4个小时。

以上就是IBM目前能提供给Cell开发者的一些东西，当然也可以去alphaworks多逛逛，看看有什么新货。

接下来说说如何使Cell变得更强。基本上，PPE会作为一个程序协调者的身份，用来调度所有SPE的工作、准备SPE的数据等等。而大量的数据密集的计算将落在这8个SPU的身上。SPU不要看它小，小也是小强，前面说了，是个高速向量机，所有的指令都是向量指令，即使是标量的计算也要转换到向量指令做。想起什么来了？GPU是吧。我个人感觉Cell的位置是在传统CPU和GPU之间，对pipelining的要求没那么变态，也不会有什么shader标准来让你束手束脚的做GP，但是又拥有general processor不具备的变态的向量处理能力，比较灵活，但效率可能没有GPU这么高，毕竟人家太专业了（PS3上folding at home还是比不过GPU的版本，但是比PC CPU版本要强多了）。哦，说远了。话说要让SPU发挥能力，主要看2方面。一是PPE能不能对SPE进行有效通信，二是SPE如何利用向量指令并优化自己的算法。那么基本上这俩都是巨大的命题。以下简要谈谈：

PPE和SPE之间通信主要3种方式：mailbox，signal，DMA。感觉mailbox和singal有点类似，都像是信号量一类的同步对象，不过是硬件级的。那么既然分这2个东西，那么一定是有不同的用途，这点需要稍后再作了解。DMA就很直观了，有了mailbox和signal做同步，那么DMA就可以放心的进行数据传输了，由于SPU只能对LS进行操作，所以会有大量的代码涉及到同步和DMA。

至于代码向量化，IBM的best practice是，如果对Cell和待实现的算法不熟悉的话，建议先在PPE上做scalar的版本，然后可以一步步移植到SPE上，比如先做内存对齐，再将scalar操作变为向量操作，最后审查算法的数据无关性，是否可以并行操作，以及可否分开到其他SPE上去完成。当然如果是Cell大师的话，直接写就可以了，不过貌似大师还没有生出来。Rapidmind也提供了很high level的解决方案，号称不用考虑硬件架构来写多核程序，不过貌似IBM的人不鸟之，还是觉得自家的ALF爽。不过IBM也承认这是个很大的问题，也不是一朝一夕可以解决的（Free lunch is over）。

那么以上基本就是第一天的内容，第二天就去了个上午，不过software programming model确实值得一听。这里就列举了几个有用的、常用的编程模型。比如streaming，几个SPU并行处理无关的数据，这在单个SPU处理能力足够的情况下较多采用、pipelining，几个SPU串行处理相关数据，但是难以作load balancing，在数据相关性大，以及单个SPU处理能力不足的情况下可以考虑。还有executable或者data超出LS的256K限制范围后，是用手动DMA，还是overlay程序段，或者采用software cache library来透明化LS和MM之间的隔阂。手动控制的DMA较适合data coherency较强的情况，若程序员知道一块大的block数据，那么最好使用这种方法。而software cache适合程序员需要random access大量MM数据的时候，而他对于数据coherency一无所知时，software cache可以提供较好的cache支持，因为SPE是没有硬件cache设计的。而一旦你的code size超出了LS的范围，就必须使用overlay来解决难题了，通过linker script来定义overlay的区域，但无须该动源码，而且不用担心会意外覆盖了程序空间。还有一些其他的model，比如kernel管理的SPU线程，离地球太远了（但好像VxWorks在做），不过自己管理SPU做cooperative multitask还是有实际应用价值的。

其他的还讲了SPU static timing的用法，生成的文件可以清楚的知道静态时序。以及通过模拟器动态运行，获得实际运行数据，除了太慢，都很好用。

最后回公司了，错过了他们一个mpeg2->H.264的实时转码的流媒体系统优化实例，可惜啊。买个PS3爽之。

几天后发现Wenle和潘大是同学……汗一个。

【上篇】boost::trait::is_reference 的研究与修改
【下篇】关于攻击流氓软件和网站的想法，让弱势群体拿起自己的武器！

作者: xjgsjt

该日志由 xjgsjt 于12年前发表在综合分类下，最后更新于 2012年01月17日.
转载请注明: IBM CellBE Workshop内容和重点 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

IBM CellBE Workshop内容和重点

作者: xjgsjt

书签

最新文章New

本站推荐

返回首页