现在的位置: 首页 > 综合 > 正文

张民博士讲座感想&简历信息抽取paper(ACL2005)小结

2013年02月06日 ⁄ 综合 ⁄ 共 2085字 ⁄ 字号 评论关闭

7月13日早上9:00在新技术楼听取了张民博士的关于核方法的讲座

张民简短介绍:

张民博士是我们实验室李老师的第三个博士(after mzhou,tjzhao).

毕业之后先去了韩国一个有名的NLP公司任职,后转到新加坡国立研究院至今。

他们的部门简写挺好玩;A*——A-START :agency of .....(忘了)

关于他的学术成就我们可以在google做如下搜索

DBLP Min zhang

获得一下连接: http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/z/Zhang:Min.html

可以简单看出发表(包含非第一作者)的有影响的论文现在为20篇。

特别是ACL2004上有一篇关于音译的文章。

因为还没拿到slide,所以下面只是简要的记录些自己新获得的知识点:(有些术语可能不太准确)

1 .NLP 研究中可分为三种问题: 点(point),序列(sequence),结构化(structured)

    各种模型分别适合不同类型的问题:

    比如: HMM ,ME 等适合于解决序列问题。而classifier(SVM等)当然是适合于解决点的问题。

   这一点可以在ACL2005中的周老师的学生kun yu的关于简历信息抽取的文章(<<Resume Information Extraction with Cascaded Hybrid Model>>)得到印证。

  此文中,对简历作两遍pass,第一遍划分各个信息块(blocks)也就是general info,blocks之间的次序性较强所以文章采用HMM,第二遍在第一遍的基础上,在划定的各个块中抽取出detailed信息。

 因为personal detailed infos相互之间比较独立所以考虑采用classification based model.(SVM)

  原文论述如下:

In the first pass, the general information
is extracted by segmenting the entire resume into
consecutive blocks and each block is annotated
with a label indicating its category. In the second
pass, detailed information pieces are further
extracted within the boundary of certain blocks.
Moreover, for different types of information, the
most appropriate extraction method is selected
through experiments. For the first pass, since there
exists a strong sequence among blocks, a HMM
model is applied to segment a resume and each
block is labelled with a category of general
information. We also apply HMM for the
educational detailed information extraction for the
same reason. In addition, classification based
method is selected for the personal detailed
information extraction where information items
appear relatively independently

但是要注意一点: 同一个实际问题即可以看作是点问题,也可以看作是序列问题,不是绝对的。

比如:NER问题,如果看作是点问题就可以用SVM等classification based model  来解决,如果看作是

sequence,那么HMM等无疑就是选择。

2. Kernel methods 不仅仅可用于SVM中,虽然目前的谈论总是SVM伴随kernel methods的。

  只要是从低维不可分为向高维可分问题进行映射的,所有用点积计算相似度的地方都可以用到kernel methods

3. 如果映射不是kernel function那么SVM将不会收敛。(~sigh! 不懂。)

4. kernel methods的好处:

  <1> 可以(不是绝对可以,有时是一种缓解,有时甚至不能缓解????)低维不可分转化为向高维可分问题。

 <2> 不需明显的特征抽取.

 <3> 有快速的算法,效率高。

 <4>隐含映射????(不懂)

5. kernel methods 缺点:

  <1> 映射过程是盲目的,后验性的,in other words ,不一定保证能转化为高维可分.

 <2> .......

6. 指数模型的好处:

  <1> 数据稀疏,归一化问题无需考虑.

  <2>想到的features便可以很容易地加进去.

7. CRF 可以集成HMM和ME的好处

    HMM,ME,CRF的那三张图没看懂。(以后向师兄请教)

这些是随便记在本子上的,拿到ppt后要好好读一下。

抱歉!评论已关闭.