现在的位置: 首页 > 综合 > 正文

计算机时代的中文—-中文的文本挖掘的困难

2013年10月04日 ⁄ 综合 ⁄ 共 362字 ⁄ 字号 评论关闭

关于分词和词频中文的文本挖掘的困难----关于分词和词频
今天找了个java的统计词频的程序,发现对中文根本不能用。
对于英语来说这两个东西简单很多,但对于中文真的是很难,因为应为的词和词之间都有空格,而中文没有,就这样这个程序会把中文的一句话看作一个词,这样就没有意义了,要想把中文的词提取出来,可能要做更多的工作,而且也会复杂的很多。这个我也不知道怎么做(现在),但肯定有人做了许多成果了,要不就没有baidu了,仔细想象baidu对于中文真的很重要。
反过来想象,计算机不是中国人发明的,计算机是根据西方的逻辑作的,这就使得我们的汉语文化作很多努力去适应它........ 或许我们这种语言真的很不适合符号处理。
但还要努力做计算机与中文之间的接口,好的接口........

这真的要花很多时间, 效果也可能不如意.........

抱歉!评论已关闭.