科普-文本挖掘（文本分类）流程

返回顶部
查看留言
转到底部

现在的位置: 首页 > 综合 > 正文

科普-文本挖掘（文本分类）流程

2018年01月08日 ⁄ 综合 ⁄ 共 256字 ⁄ 字号小中大 ⁄ 评论关闭

一个典型的文本分类的数据挖掘流程如下图，这张图初看有点乱，我这里解释一下，红色的部分是训练时候调用的模块，绿色是测试时候调用的模块，而蓝色的部分是训练的时候生成的中间文件，它们联系着训练、测试两个部分。从左到右看是算法运行的流程，首先用户给出原始的用于训练的中文文本，然后进行分词等操作。经过了生成矩阵这个步骤，文本就转化成了数学语言了，之后的算法都是运行在这个数学语言之上，之后的算法就不再关心输入的数据是否是文档了，换句话来说，生成矩阵这个模块相当于是一道门，门内是纯数学表示的算法，门外是原始的文本语料。