临床医学数据挖掘分析

临床医学数据挖掘分析1DM概述DM是数据库知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程(图1),包括一

临床医学数据挖掘分析 1DM概述 DM是数据库知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一 部分,而KDD是将未加工的数据转换为有用信息的整个过程(图1),包括一系列转换 步骤,从数据的预处理到DM的后处理[1]。其最早是在1989年举行的第11届美国 人工智能协会(americanassociationforartificialintelli-gence,A AAI)学术会议上提出的,是近年来随着人工智能和数据库技术的发展而出现的一门新兴 技术[4],其开发与研究应用是建立在先进的计算机技术、超大规模数据库的出现、对 巨大量数据的快速访问、对这些数据应用精深的统计方法计算的能力这4个必要条件基础 上的,以数据库、人工智能和数理统计三大技术为支柱[5]。 2DM的基本模式及在临床医学中的应用 DM的任务通常有两大类:预测任务和描述任务。预测任务主要是根据其他属性的值,预 测特定属性的值,主要有分类(classificaion)和回归(regression)2种模 式。描述任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异 常),主要有关联分析、聚类分析、异常检测3种模式[1]。 2.1预测建模(predictivemodeling) 涉及以说明变量函数的方式为目标变量建立模型。有2种模式:分类和回归。分类是用于 预测离散的目标变量。在临床医学中,疾病的诊断和鉴别诊断就是典型的分类过程。Mel gani和Bazi[6]以美国麻省理工学院的心律失常数据库的心电图为原始数据,采用 不同分类模型,对心电图的5种异常波形和正常波形进行分类。回归是用于预测连续的目 标变量。回归可广泛应用于医学研究中如医疗诊断与预后的判别、多因素疾病的病因研究 等。Burke等[7]采用各种回归模式对影响乳腺癌患者预后的因素进行回归分析。 2.2关联分析(associationanalysis) 用来描述数据中强关联特征的模式,用于发现隐藏在大型数据集中的令人感兴趣的联系。 所发现的模式通常用蕴函规则或特征子集的形式表示。关联分析主要应用于DNA序列间 相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因 素分析等[5]。有学者对37000例肾病患者进行了追踪观察,监测肾小球过滤率、尿 蛋白水平和贫血状况,结果发现以上3种生理指标中的任何一项异常都伴随着心脏病发病 “” 率的上升,这种肾病与心脏病关联的现象可发生在肾病的早期阶段[8]。 2.3聚类分析(clusteranalysis) 旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值 相互之间尽可能类似。聚类分析在医学领域中主要用于DNA分析、医学影像数据自动分 析以及多种生理参数监护数据分析、中医诊断和方剂研究、疾病危险因素等方面[5]。

腾讯文库临床医学数据挖掘分析