数学建模DNA分类

基于模糊数学的DNA序列分类摘要问题一给出20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B类。要求从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选方法是否足够好

DNA 基于模糊数学的序列分类 摘要 问题一给出20个已知类别的人工制造的序列,其中序列标号 1—10为A类,11-20为B类。要求从中提取特征,构造分类方法, 并用这些已知类别的序列,衡量所选方法是否足够好。然后用认为满 意的方法,对另外20个未标明类别的人工序列(标号21—40)进行 分类。问题二要求我们对数据文件Nat-model-data中给出了182个 自然DNA序列用我们的分类方法进行分类,像1)一样地给出分类结 果。 由于题目所给的碱基序列并没有明显的结构特征,于是我们选择 运用模糊聚类分析的方法为A、B两类碱基序列构造分类方法,在运 用模糊识别的方法对剩余碱基进行归类。 对于问题一,我们首先运用MATLAB对编号为前20的碱基序列的 a、t、g、c的数目进行统计,并算出其在序列中占据的百分比,便 得到序列的模糊矩阵。然后用切比雪夫距离法求该模糊矩阵的模糊相 似矩阵。对相似矩阵取不同截集,把对应值为1的对象归为一类,找 到合适的截集,使编号为前10的序列归为一类,编号为11-20的归 为一类。我们的归类结果为:A类:1、2、3、5、6、6、7、8、9、 10,B类:11、12、13、14、15、16、18、19、20,非AB类:4、17。 对于剩余的20个未知的碱基序列,我们使用模糊识别的方法进行归 类。我们使用每种碱基在序列中所占比例为识别规则,于是需先求出 A、B和非AB三种类别所包含序列的个碱基百分比的平均值,得到当 做识别规则,以备使用。首先求出20条未知序列中a、t、g、c四种 碱基在序列中所占百分比,得到模糊矩阵。然后用所求判别规则和未 知碱基的模糊矩阵求每条未知碱基序列与已知碱基序列的贴近度,使 用择近原则对每条未知序列进行归类。归类结果为:A类:22、23、 25、27、29、34、35、36、37,B类:21、24、26、28、31、32、33、 38、39、40,非AB类:30。 对于问题二,我们可采用问题一种对20条未知序列使用的归类 方法进行归类。即采用模糊识别的方法。首先对这182四种碱基在序 列中所占百分比,得到模糊矩阵。以分好的A、B、非AB三类的百分 比平均值为识别规则,求出每条序列的贴近度,根据择近原则对每天 序列进行归类,归类结果见附录一。

腾讯文库数学建模DNA分类