近20年来,生物信息学技术得到了长足的发展,而且生物信息学已经和医学紧密地结合在一起,逐渐形成了新的医疗和制药体系。在生物信息学和医学领域,数据和挖掘算法与传统的结构化数据分析有很多的差别,产生了一系列新的技术。
生物信息学研究的基础是基因序列数据分析。根据“中心法则”,基因序列包括DNA序列、RNA序列等,它们构成了所有活生物体的基因代码的基础。下面以DNA序列为例进行介绍。DNA序列由四种脱氧核苷酸构成,分别是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)。这四种脱氧核苷酸构成的序列或链,形成一个双绞旋梯。生物的基因序列都很长,如人类的DNA序列的长度是3G,约有100000个基因。一个基因通常由成百个脱氧核苷酸构成。脱氧核苷酸按不同的次序形成不同的基因,不同的基因导致生物体呈现不同的性状,因此,研究基因序列中的模式与病症、性状的模式之间的关联关系成为这方面研究的核心技术,这就需要相应的数据挖掘技术支撑。
在生物信息学和医学数据分析中包含以下技术:
1.DNA序列间相似搜索和比较 DNA序列相似性比较是生物信息学和现代医学的基础,但DNA序列的相似性度量方法与传统的序列相似性度量方法比较有很大的不同。DNA序列之间的距离往往是通过编辑距离来描述的,并且不同的脱氧核糖核苷酸之间的距离也是不同的,这与数字序列和一般的离散数字序列分析技术是不同的,因此产生了一系列针对DNA序列数据的挖掘方法。(www.zuozong.com)
2.DNA序列数据与疾病数据之间的关联关系分析 主要做法是分析病人和健康人群的基因序列,找到两类基因序列之间模式的差异性,如某些位置上基因序列的差异性,或者某些基因序列模式出现的频率差异。由于基因序列很长,并且就目前的数据来说,获得的病人和健康人群的全基因序列是非常少的,这就造成了数据很大的稀疏性,同时真正的致病基因往往不是单个的,而是若干个基因共同作用的结果,因此还需要分析基因之间的关联关系。此外,多个基因在疾病发展的过程中起作用的阶段也是不同的,这就需要研究专门的频繁模式挖掘、聚类和分类算法。这种方法不仅应用于致病基因的分析,还应用于DNA序列数据与药物药效之间的关系。在基因序列分析中不仅序列本身具有很大的分析价值,而且基因序列是折叠的,是有三维结构的,不同的三维结构也将导致不同的疾病和用药效果,这又为DNA数据挖掘带来了很多新的问题。
3.生物/医学数据处理中数据挖掘技术的应用场景 例如,在药物和药物效果分析中,药物往往以化学表达式的形式呈现,化学分子结构被表达成了一种图的结构,因此分析不同的子结构与药物效果之间的关联关系,就成为药物分析中的关键问题,而图数据与传统的简单结构数据相比有很多不一样的地方,所以就形成了专门的基于图数据挖掘的算法。
4.医疗数据的收集和分析 随着医疗信息化的发展,医疗数据的收集和分析需求也在不断增加。一方面,很多单位将传统的以文本为主的病历数据转换成结构化的数据,从而可以获得与病人和疾病相关的属性信息,通过对这些数据的聚类和预测,使得循证医疗等技术成为可能。另一方面,物联网技术的发展,使得对病人身体状态的监控更加的全面和准确,这就为远程医疗等医疗应用带来了新的支撑。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。