文本语义分析整理进度—2013/3/15

现在的位置: 首页 > 综合 > 正文

文本语义分析整理进度—2013/3/15

2018年04月03日 ⁄ 综合 ⁄ 共 1034字 ⁄ 字号小中大 ⁄ 评论关闭

由于项目要求，最近一直在看文本相似度的检测和计算。虽然进展不大，还是把最近做的整理一下，以便以后的学习用。

一中文分词

对于中文分词，主要是利用了开源的c#软件，（资料在博客http://blog.csdn.net/caiye917015406/article/details/8634547）

http://gforge.osdn.net.cn/frs/?group_id=96。一个完整可用的中文分词组件。包含中英文,数字混合识别,非常感谢开发者的共享；其中人名基于简单的"姓+名"的识别方式，并不可靠。基于正向最大匹配算法，准确性不是很高。另外的整个组件的架构和代码质量比较一般。但基于国内.net开发者的现状。能做到这个程度而且还是开源的，已属不易。

当然对于其中的算法还没用完全看懂，只是稍作了修改，先用着。对于此博客中其他的算法，还没做研究，以后需要时在做探究。同时，在此算法中，还未去除语气词等，留作接口。

二 VSM基于空间向量的文本相似度（http://blog.csdn.net/felomeng/article/details/4024078）

这个没有利用原文作者的程序，通过前期分词的结果，将VSM用c#实现，得到的结果有待进一步考虑。

三语义相似度分析

这一块自己还没有用c#实现，不过对于基于知网的语义分析的思想大体上有了个了解，感觉此算法对于目前我做的项目，有一定差距，所以，暂时放一下。http://blog.csdn.net/caiye917015406/article/details/8638774 自己整理的资料大体都在这里。

这一块在做简单的的处理，进行测试后，就开始做图片相似度的计算。

2013/4/2

偶看到一个论坛，讨论两篇文章的相似度计算

http://www.dewen.org/q/6668/%E5%A6%82%E4%BD%95%E8%AE%BE%E8%AE%A1%E4%B8%80%E4%B8%AA%E6%AF%94%E8%BE%83%E4%B8%A4%E7%AF%87%E6%96%87%E7%AB%A0%E7%9B%B8%E4%BC%BC%E6%80%A7%E7%9A%84%E7%AE%97%E6%B3%95%EF%BC%9F9F

目前已经做最长公共子序列、最长连续公共子序列及最短编辑距离。在语义分析中的语义距离计算中，遇到了问题，对于资料中的实词和虚词的分类不明确，看来还要继续呀