现在的位置: 首页 > 综合 > 正文

文本分类读后感

2013年09月10日 ⁄ 综合 ⁄ 共 985字 ⁄ 字号 评论关闭

         文本分类就是将大量文本文档划分为若干组,每组一个类别,使得各个类别代表不同的概念主题。这种分类通常是一个有指导的学习过程。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。

        文本分类的基础技术由文本的预处理、文本的表示、分类方法及效果评估三部分组成。

       (1)文本的预处理

         由于文本分类处理的是大量非结构化的用自然语言描述的无统一结构的文本数据,在堆文档进行特征提取前,需要先对这些文本数据进行相应的预处理,它将直接影响文本分类的效率和准确度以及最终模式的有效性。

         预处理主要包括英文文档的Stemming处理(从英文单词的多种形式中提取其基本词干)和中文文档的分词处理。中文单词切分方法主要有基于词典与规则的方法和基于统计的方法两大类。

        (2)特征选择

          进行文本分类之前,需要将文本表示成特征向量。一个文本分类问题所对应的文本特征空间通常达到几万维,甚至更高如果直接在这一的一个高维特征空间上进行分类器的训练和分类,很可能会有两个问题:一是很多低维空间具有良好性能的统计分类器在计算上变得低效而不可行。二是训练样本一定的前提下,过的特征使得样本统计的估计变得非常困难。

       特征选取是依据某个准则从原始特征空间中选择部分最能反映模式类别的相关特征。选择特征根据以下原则:

      1)应当选择包含语义信息较多,对文本的表达能力较强的语言单位作为特征项;

       2)文本在这些特征项上的分布应当有比较明显的统计规律;

       3)比较容易实现,时间和空间的开销都不应当太大。

        常用的特征选取的方法有:信息增益(IG)、互信息(MI)、CHI、文档频率(DF)等。

     (3)文本的表示:向量空间模型(VSM)

        向量空间模型中,一篇文档表示为特征空间中的一个向量,这个向量也成为文档向量。文档向量中每一维对应于文档中的一个特征项,他的权值一般采用TF-IDF方法计算。两篇文档的相似度,则通过计算对应文档向量的夹角余弦得到。

     (4)文本分类方法

       主要有:决策树、朴素贝叶斯、贝叶斯网络、支持向量机等。

                   

抱歉!评论已关闭.