现在的位置: 首页 > 综合 > 正文

文本语义分析整理进度—2013/3/15

2018年04月03日 ⁄ 综合 ⁄ 共 1034字 ⁄ 字号 评论关闭

由于项目要求,最近一直在看文本相似度的检测和计算。虽然进展不大,还是把最近做的整理一下,以便以后的学习用。

  一 中文分词

    对于中文分词,主要是利用了开源的c#软件,(资料在博客http://blog.csdn.net/caiye917015406/article/details/8634547

      http://gforge.osdn.net.cn/frs/?group_id=96。一个完整可用的中文分词组件。包含中英文,数字混合识别,非常感谢开发者的共享;其中人名基于简单的"姓+名"的识别方式,并不可靠。基于正向最大匹配算法,准确性不是很高。另外的整个组件的架构和代码质量比较一般。但基于国内.net开发者的现状。能做到这个程度而且还是开源的,已属不易。

    当然对于其中的算法还没用完全看懂,只是稍作了修改,先用着。对于此博客中其他的算法,还没做研究,以后需要时在做探究。同时,在此算法中,还未去除语气词等,留作接口。

二 VSM基于空间向量的文本相似度(http://blog.csdn.net/felomeng/article/details/4024078

   这个没有利用原文作者的程序,通过前期分词的结果,将VSM用c#实现,得到的结果有待进一步考虑。

三 语义相似度分析

   这一块自己还没有用c#实现,不过对于基于知网的语义分析的思想大体上有了个了解,感觉此算法对于目前我做的项目,有一定差距,所以,暂时放一下。http://blog.csdn.net/caiye917015406/article/details/8638774 自己整理的资料大体都在这里。

 

这一块在做简单的的处理,进行测试后,就开始做图片相似度的计算。

 

 

2013/4/2

偶看到一个论坛,讨论两篇文章的相似度计算

http://www.dewen.org/q/6668/%E5%A6%82%E4%BD%95%E8%AE%BE%E8%AE%A1%E4%B8%80%E4%B8%AA%E6%AF%94%E8%BE%83%E4%B8%A4%E7%AF%87%E6%96%87%E7%AB%A0%E7%9B%B8%E4%BC%BC%E6%80%A7%E7%9A%84%E7%AE%97%E6%B3%95%EF%BC%9F9F

 

目前已经做最长公共子序列、最长连续公共子序列及最短编辑距离。在语义分析中的语义距离计算中,遇到了问题,对于资料中的实词和虚词的分类不明确,看来还要继续呀

 

  

抱歉!评论已关闭.