现在的位置: 首页 > 综合 > 正文

第二届计算语言学讲习班的感触

2013年10月16日 ⁄ 综合 ⁄ 共 2252字 ⁄ 字号 评论关闭

 

 

刚从沈阳回来,参加了第二届计算语言学讲习班,感觉收获还是蛮大的,虽然沈阳之行太匆匆,哪里都没来得及去。

这次讲习班的课程主要集中在三个方向,一是微软亚洲研究院的 李航博士的统计机器学习,二是北大中文系的 詹卫东博士的结合计算的汉语研究,三是计算所几位博士的搜索引擎原理介绍与利用开源工具的搜索引擎搭建。

李航博士主要讲了统计学习的基本概念和原理,包括有监督学习和无监督学习,并把学习的概念定义为三个基本方面,就是模型、策略和算法。对于任意一个统计学习方法,如果从这三个方面去考察,才能够更深入的理解其最基本的一些实质上的东西。 后来李博士主要针对分类的问题,详细介绍了SVM、最大熵、HMMCRF等诸多学习技术。这些技术本身都有很多的资料,但是,这些学习方法的由来,基本原理之间的相互联系,以及计算公式中各个参数所对应的实际意义——调节哪些参数将引发哪些实际测试效果的变动趋势,等等,这些都是必须经过深入研究和思考才能有所收获的;而听 博士在这方面的阐述,的确让人兴奋不已。

博士讲了一天的课程,后来学员的问题和讨论也非常热烈。关于统计学习和特征集的选取,大家有比较多的讨论,偶也问了一个相关的问题,就是,统计学习是一些基本的计算方法,现在自然语言处理中大家使用的思路基本是选取特征集或者推广计算方法到新的问题域,但其中有一个问题是,是否可以通过统计机器学习的思路发现新的特征,举例来说,对于词汇我们可能可以标注为名词n,这对某些应用是足够的,但对很多应用又是很不足的,可能需要标注为指称人的信息,或指称物的信息,甚至是区分指称自然物或人造物,等等,这些新的特征是否可由机器来发现并给予评价? 博士谈到他以前也思考过这个问题,也曾经试图指导学生在这个方向上做,但由于特征集不在是一个有限集合,换句话可能是无穷的或可列无穷的,统计机器学习很难做,也就没有继续。(我对这个问题倒是非常感兴趣,也准备在SegWord中思考这个问题,先看看能否形式化,将来再找 博士请教)

博士的课程内容就不多说了,主要是从语言学的角度,以他的主要研究领域——短语及其歧义结构处理为切入点,介绍了面向计算与基于计算的汉语研究。而我注意到 博士提出了一个非常有意思也非常紧迫的问题,那就是,语言学家(或扩大到理性学派)总是想从语言现象中抽象出范畴,表达为规则,描述出规则的模式,以这种尽可能简洁的规则集来囊括所有的语言现象的规律。但是,在自然语言中,范畴本身又是那么难以确定——我以前有类似的思考,常概括其为语言知识的表达问题,范畴就是对语言知识的抽象——比如一些例子:

人可以说三米,但不可以说三多米

人可以说十米,也可以说十多米

 

人可以说这样做是不诚实的,但不可以说这样做是不狡猾的

 

虽然都是描述数量关系的,或者人事属性的,但为什么这个可以,那个则不可以呢?而相应的范畴又该如何拟定呢? 博士在这方面的疑问,也是我的困惑,前些日子为SegWord做语言知识表达的调研报告,就是一直怀着这样一个问题。相信做统计机器学习特征集优化的,以及语言标注体系的,都面临这样的问题。

既然如此,我准备在以后的工作中好好想一想。如上所述,这个表达问题,是否可以由机器来习得——这真是非常诱人的;发现新的特征或范畴,刻画其关系来指导应用,这应该就是真正的智能了。

计算所的几位博士(刘群、王斌和骆卫华)介绍了搜索引擎的原理和使用开源工具进行搭建的课程,因为比较简单,不再叙述了,主要是搜索引擎的一般结构,IR的原理,以及若干个开源工具的集成,包括爬虫、计算所的分词、全文检索lucene,以及一个英文词根处理程序snowball。我比较感兴趣的是,lucene有相应python的版本,如:

http://pylucene.osafoundation.org/

http://www.divmod.org/projects/lupy

因为想用python做一个可以实验文本相似度计算的开发包,而这个信息就变的非常及时,可以边学python边参考这些系统。

不过关于搜索引擎,我倒一口气问了三个问题,分别是:(1lucene建立的索引大概是原数据的1/4左右,其建立的是精简索引,还是进行了压缩?(2)若对于垂直搜索(以酷讯为例),其爬虫又该如何设计?毕竟它不同于通用搜索,是定向爬取,还是实时分类,或者其它策略?(3刘群博士把NLP的终极目的概括为全自动翻译和全自动问答,而搜索可以看作全自动问答的第一步(这个概括我非常喜欢,因为我也一直思考搜索的未来,并认为搜索将开启一个新的时代,将来再谈了),那么对于索引结构,从知识表达而不是从数据结构层面而言,搜索和问答应该有什么不同?

三位博士分别进行了精彩的回答。(1)的答案 博士认为是肯定的(不过他没有确认)。(2)的话, 博士认为如果他负责这个工程,则不会全网爬取,肯定会经过一个预处理,无论是人工筛选还是机器学习。(3)的话, 博士 和刘博士认为,QA的话索引知识可能要做到句子一级,但也和具体的处理思路有关,比如哈工大的QA就是从问题与答案类型(范畴或模式)进行做的,不过因为 刘群博士的领域不在这上面,也没有展开说。

 

总而言之,收获是非常的大,感觉通过和牛人的交流,学习了大家的思维方式,验证了某些想法,并进一步激发了学习与思考的新空间。

多说一句,会议或讲习班的组织,本身是个非常有挑战性的工作,包括人员接送、住宿与饮食习惯,甚至发票等细节,都需要仔细应对;这方面举办方还有不足,应该进行检讨:)。

 

 

 

抱歉!评论已关闭.