现在的位置: 首页 > 综合 > 正文

数据挖掘与临床疾病诊断

2013年08月04日 ⁄ 综合 ⁄ 共 2049字 ⁄ 字号 评论关闭

         数据挖掘(Data Mining)通过分析每个数据,从大量数据中寻找规律的技术。主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关数据源中选取合适数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集合所含的规律找出来;规律表示是将找出的规律进行可视化。数据挖掘用到了统计学的抽样、估计、假设检验的思想,说到底数据挖掘得出的规律就是分析从用户当前数据得到满足某一概率的潜在数据。通过数据挖掘技术我们可以做以下几种事情:分类(从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
)、估计(与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估计处理连续值的输出;分类的类别是确定数目的,估计的量是不确定的)、预测(预测是通过分类或估值起作用的,通过分类或估值得出模型,该模型用于对未知变量的预言。预言其实没有必要分为一个单独的类。其目的是对未来未知变量的预测,这种预测需要经过一定时间,才知道预言准确性是多少)、相关性分组(Affinity grouping or association rules决定哪些事情将一起发生)、聚类(对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。)、描述和可视化(Description
and Visualization是对挖掘结果用用户能够理解的方式展示)、复杂数据类型挖掘(主要指图形图形、视频音频等复杂数据的挖掘)。
        关联规则是数据中所蕴含的一个重要规律,对关联规则的挖掘的目标是在数据项目中找出所有的并发关系。关联规则的挖掘广泛应用于社交网络中的好友推荐、购物网站中的商品推荐、舆情分析系统中的與情走向预测、汉语输入法的智能关联等。一个经典的关联规则挖掘应用的例子零售品销售大王沃尔玛的“尿布与啤酒”:沃尔玛公司拥有世界上最大的数据仓库系统,为了准确获得用户的购买习惯,沃尔玛对用户的购物行为进行了分析,想知道顾客经常一起购买的商品有哪些。发现了与尿布一起购买的最多的商品是啤酒。于是沃尔玛零售店将其放在一起销售,结果发现它们的销量双双增加了。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
        在医院临床实践的疾病诊治过程中,一般都是通过患者的自述和医生以及仪器检查(主要是血常规、CT、X光、核磁共振等)得出的数据 ,然后医生根据以上数据加之自己的经验判断最有可能患的疾病类型,按照该种疾病的治疗方案进行治疗,然后复查治疗结果并对治疗方案进行修正,直到治愈出院为止。对于以上的治疗过程我们可以建立一个数学模型来模拟:设患者自述与医生仪器检查得出的数据集合为A,疾病类型的集合为B,治疗方案的集合为C,整个治疗过程用形式化描述其实就是由A推出潜在的B,由B得出C,复查与改进治疗方案也是这个过程。不同的疾病可能有相同的症状,医生则需要根据自己的临床经验得出最有可能的疾病;当然同一疾病可以有不同的治疗方案,医生需要根据病人的身体状况、经济条件选择合适的治疗方案。由于在医疗疾病诊治过程中要求具有较高的精确度,所有我们可将最小支持度min_sup和最小置信度min_conf设置较高,比如90%以上。为了实现在辅助的疾病诊治系统,医院需要建立一个数据库以包含所有的病历,主要的记录内容:临床症状表现、体温、血常规、x光、ct等仪器检查结果、疾病名称、可行的急症处置方案、后续治疗方案、治疗反馈信息等。病人来了之后,将所有检查得出的信息输入计算机,通过Apriori算法进行处理得出{临床病症表现}-->{疾病、处置方案}这样一个关联规则,提供给医生参考,医生在根据实际的情况作出相应的选择。这个系统运行过程中可以是一个自学习的过程,通过不断添加病例情况、合并相同病例,可以不断的丰富这个样例库,进而可以使得得出的这个关联规则可行度提高,辅助的诊治结果不断精确。这样的一个系统具有一定的应用前景,因为在实际的诊治过程中,医生需要通过有限的数据在短时间内得出一个可行的治疗方案,系统的推荐结果可以给医生提供一些思路,这样的结果是通过大量的临床实践与众多专家经验总结的结果。但在系统的建立过程中可能会遇到下列一些问题:首先病人对同一症状的表述可能由由不同的语言,医生需要进行整理用专业化术语表达;其次不同医生对同一病症有不同的描述;再次如何从多种可能的疾病或则治疗方案中推荐一种最合适的方案;最后就是个体差异,也就是说同样的疾病在不同的人生上有不尽相同的临床表现,疾病的临床表现没有一个绝对的界限,比如界定咳嗽严重程度等。现阶段人工智能领域的自然语言处理还不能做到精确分析人类语言的程度,这为系统的实现带来了些难度,个体的差异为系统诊治结果带来了一份不确定性。这些问题的解决不仅需要从理论上加以深化研究,而且需要对模型进一步细化。

抱歉!评论已关闭.