按关键词阅读: 应用 建立 矩阵 检测 同源性
3 使用 MEGA 分析同源性基于分子生物学软件 MEGA 4. 0 , 分析所得集合 S 与 T 中 两两序列间的同源性如表 4 所示 。
矩阵法从数学理论的角度 解释了同源性的高低 , 将建立 。
38、好的模型运用到 VC 6. 0 程序中 ,可以直接得到搜索结果 。
区别于矩阵法 , 运用 MEGA 4. 0 , 不 仅计算出了集合 S 中的各序列对应于 T 中的各序列的同源性 ,还得到了两集合各自内部的同源性 , 在此基础上可以分析出同 源性最高的部分 。
表 4 中所示数据为两两序列间的差异程度 , 一一分析后发 现 , 序列 S1 、S3 、S5 、T1 、T2 间的差异程度都很小 , 其中 T1 、T2 之 间的差异程度最大 , 但也只有 0 021%, 因此 , S1 、S3 、S5 、T1 、T2 这六条序列的同源性高达 99 9%。
进一步观察得知 , 余下序 列中 T3 与序列 S1 、S3 、S5 、T1 、T2。
39、的差异程度最低 , 但差异值最 小也有 9. 515%, 所以剩余序列与 S1 、S3 、S5 、T1 、T2 的同源程度过程的运算在 VC 6. 0 编程的基础上完成 。
运用 MEGA 4. 0 也可以快速地搜索出两个集合中同源程度较高的序列集 。
通过 具体的实例发现 , 矩阵法与 MEGA 4. 0 的分析结果吻合 , 至此 ,新的理论的合理性得到验证 。
对比分析两个程序的运行过程 和运算结果 , 在不同的情况下可以选择恰当的方法 。
矩阵法与运用 MEGA 4 0 的主要步骤都是通过程序来完 成的 , 运用程序 , 既保证了所得结果的准确性 , 又确保可以快速 地得到结果 。
它们的区别是 , 在矩阵法搜索过程中 , 不需要特别地计算。
40、同一序列集内两两序列间的同源性 , 而只需要用式( 1) 计算一 个序列集中各条序列分别与另一序列集中各序列的同源性 , 因 为同一序列集中序列彼此间的同源程度在矩阵法的第一步 ( 式( 2) ) 与第二步( 式( 3) ) 分别得到了体现 , 当 S 与 T 中的序 列数很多时 , 可以免去很大一部分计算 , 这体现了新算法的高 效性 。
而在使用 MEGA 时 , 从 GenBank 中下载完序列后 , 需要 将其一一转换成适合 MEGA 软件的格式 。
5 结束语在生物信息学中 , 序列同源性的检测有广泛应用 , 不同的 同源性检测方法可以满足生物信息学者在科研工作中的不同 需要 , 而有些算法在求解效率上存有一定的缺陷 , 鉴于此 , 提出 。
41、 新的同源性判别标准具有重要的生物学意义 。
本文充分运用 矩阵的思想 , 从一个崭新的角度来度量同源性的高低 , 通过具 体的数值实验证明了该方法的科学性和合理 ( 下转第 560 页)计 , 计算机类文档中有语义关联的词语占总词数的平均比例为14. 9%, 艺术类文档中有语义关联的词语占总词数的平均比例 为 10. 2%。
为凸显本文加入语义关联后对特征提取的效果 ,进行强语义关联下的文本分类实验 。
人为地对两个类别的文 档分别增加同义词 , 使得计算机类文档中有语义关联的词语比 例提高到 30%, 艺术类文档中有语义关联的词语提高到 20%,这样做的目的使得类别更鲜明 , 更有利于进行数据分析 , 针对 专业性较 。
42、强的文本有明显的优势 。
依然采用本文提出的 tf idf IGc 进行权重值的计算 , 进而用 KNN 算法进行文本分类 。
分类效果如表 3 所示 。
表 3 强语义关联下的分类效果比较中 , 将本文提出的改进方法与 Native Bayes 等文本分类方法相 结合 , 在期望得到更好的分类效果的同时检验该特征算法对分 类算法的依赖情况 。
参考文献:1 SEBASTIAN F Machine learning in automated text categorizationJ ACM Computing Survey , 2002 , 34( 1) : 1-472 胡佳妮 , 徐蔚然 , 郭军 , 等 中文文本分类中的特征选择算法研 。
43、究J 光通信研究 , 2005( 3) : 44-463 张瑜 , 张德贤 一种改进的特征权重算法J 计算机工程 , 2011 , 37( 5) : 211-2124 周炎涛 , 唐剑波 , 王家琴 基于信息熵的改进 TFIDF 特征选择算法原始语料 分类计算机 艺术处理后的语料 计算机 艺术J 计算机工程与应用 , 2007 , 43( 35) : 156-1585 陈瑞芬 一种结合反馈方法的中文文本分类算法J 计算机应计算机 45 8 49 3艺术 5 42 1 47 查准率 / %84 91 89 36 94 23 97 80 召回率 / %90 00 84 00 98 00 94 00由表 3 中数据得知 , 计算机类的 。
44、查准率在进行强语义关联 处理后查准率提高了 9. 32%, 召回率提高了 8% ;
艺术类的查 准率提高了 8. 44%, 召回率提高了 10%。
由此可见 , 在强语义 关联下 , 本文的方法优势很明显 。
中文信息中有大量语义关联 的词汇 , 所以本文的方法有较大的应用价值 , 对文本分类的效 果的提高有显著帮助 。
来源:(未知)
【学习资料】网址:/a/2021/0413/0021925030.html
标题:同源性|同源性检测矩阵法的建立及应用( 五 )