现在的位置: 首页 > 综合 > 正文

用数学的方法描述图像的可素描性(Towards a Mathematical Theory of Primal Sketch and Sketchability)

2018年11月04日 ⁄ 综合 ⁄ 共 1464字 ⁄ 字号 评论关闭
Towards a Mathematical Theory of Primal Sketch and Sketchability
       该文章历史有些早了,于2003年发表在ICCV上,作者是一名华人:Ying Nian Wu 教授,目前在UCLA大学统计部门任职。
    本文的主要内容在于提出使用稀疏编码和马尔科夫随机场相结合的方法,来表达图像的内容。
    从Wu教授的研究历史来看,从1995年开始就一直在搞统计学的研究,应该说有相当深厚的数学功底,该理论自2000左右提出后,一直持续研究至今,具有很好的研究价值。
    作者认为:图像都可以看做由素描框架和纹理两部分组成。
      如图所示,对于近处的树干,可以将其抽象成线条,而对于远处的树枝,则可以认为是某种重复出现的纹理。
      很显然,作者的这种设想是很符合现实情况的,以人脑为例,在处理视觉图像时,人脑很自然地将那些独特的重要信息处理为素描线条,如下左图所示,虽然素描图缺少了大量纹理信息,但人们依然能够感觉到它和原图的相似性;而对于很多细节次要信息,人们则把它处理成纹理,如下右图所示,我打赌你一定记不住草地的所有细节,但却能一眼看出来是不是草地,因为你的大脑已经将草地抽象成一种重复出现的纹理。
     
把素描和纹理结合起来,就构成了完整的图像。
   作者正是基于这点考虑,提出了一套理论,让计算机能够按照这种方式理解图像。
   核心的方法是利用小波理论(稀疏编码)和马尔科夫随机场联合起来表示图像。简单来说,两种理论都是基于一组基来表示图像,但当K值一定时,小波更擅长表示素描,而MRF更擅长表示纹理。

    上图给出的是小波/稀疏编码的原理,右边是一组基图元,小波理论就是期望利用一组基图元的线性叠加来表示一副图案,如公式1所示,这种方法理论上会残留下一个高阶残量n,我们评定某种编码质量好不好,就是观察高阶残量是否足够小,作者的方法是用正态分布来描述,公式2所表达的含义其实就是残量n满足正态分布,越偏离期望0的概率越小,理论上在基图元选定的情况下,迭代次数K越多,图像描述越精确,但问题是编码的代价(计算代价)也会随之增加,为了找到平衡点,作者引入了第3个公式,用来评价如何选择K值。

    公式的第一项表示编码的精度,由于概率0<=P<=1,因此logP的值映射在负无穷到0之间,而且P越偏离0,其评价值降得越厉害,因此必须保证K的值足够大,但K值越大,编码代价也越大,公式3中的第二项就是用来描述编码代价的,假设每次编码的代价都是定值e,则K次编码的代价就是e*K了。
    作者同样推导并给出了MRF(马尔科夫随机场)的代价函数,由于自己对MRF不算太了解,就不在这里复述,但大致过程应该相似,最终给出的评估函数如下:
    参数的含义请参照论文中的解释,可以看出MRF的评估函数和稀疏编码的评估函数是十分类似的。
    
    上图是作者给出的基于Gabor和LoG基的稀疏编码效果,当K取300时,能够较为清楚地看出马、人和珊栏的轮廓,但草地等纹理信息一塌糊涂。
    上图是作者给出的基于MRF从白噪声状态产生纹理的过程,可以看出,当K取7时,纹理的模拟效果就以及很好了。
    将两者结合,先用稀疏编码方法产生一组草图,而后用MRF填充剩余部分的纹理,既可以保证编码代价小,又可以保证图案重构的质量。
    作者在文中给出了实现的具体方法,在其主页中有更多的文章、效果图和源代码下。
    最后,给出该方法的效果图。

抱歉!评论已关闭.