生物信息学基础（生物信息学基础孙啸）

2023-09-09 阅读 7 评论 0

摘要：今天给各位分享生物信息学基础的知识，其中也会对生物信息学基础孙啸进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！生物信息学简介目录 1 拼音 2 英文参考 3 生物信息学当前主要研究内容 3.1 获取人和各种生物的完整基因组 3.2 发现新基因和新的单核苷酸多态性 3.3 基因组中非编码蛋白质 3.4 在基因组水平研究生

今天给各位分享生物信息学基础的知识，其中也会对生物信息学基础孙啸进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

生物信息学简介

1 拼音 2 英文参考 3 生物信息学当前主要研究内容

3.1 获取人和各种生物的完整基因组 3.2 发现新基因和新的单核苷酸多态性 3.3 基因组中非编码蛋白质 3.4 在基因组水平研究生物进化 3.5 完整基因组的比较研究 3.6 从功能基因组到系统生物学 3.7 蛋白质结构模拟与药物设计 3.8 生物信息学的应用与发展研究

1 拼音

shēng wù xìn xī xué

2 英文参考

Bioinformatics

生物信息学（Bioinformatics）是一门新兴的交叉学科。很多人会认为：生物信息学既涉及生物又涉及物理，一定是一个内容十分广泛的学科领域。其实它的内涵十分具体，范围非常明确。生物信息学是伴随基因组研究而产生的，因此它的研究内容就紧随着基因组研究而发展。

广义地说，生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义，一是对海量数据的收集、整理与服务，也就是管好这些数据；另一个是从中发现新的规律，也就是用好这些数据。

具体地说，生物信息学是把基因组 D NA序列信息分析作为源头，找到基因组序列中代表蛋白质和 R NA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在 D NA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。

生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测，并将此类信息与生物体和生命过程的生理生化信息相结合，阐明其分子机理，最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

基因组信息学、蛋白质的结构计算与模拟以及药物设计，这三者紧密地围绕着遗传信息传递的中心法则，因而必然有机地连接在一起。

为什么基因组研究需要依赖生物信息学呢？首先伴随着基因组研究，相关信息出现了爆炸性增长，迫切需要对海量生物信息进行处理。自1995年科学家破译了全长为180万核苷酸的嗜血流感杆菌基因组以来，到目前已有大约60个微生物和若干真核生物，如：酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天，科学家又公布了人类基因组的绝大部分序列，即：人类基因组的工作草图。这些成就意味着基因组的研究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库的统计，1999年12月DNA堿基数目为30亿，2000年4月DNA堿基数目是60亿，现在这一数目已达140亿，大约每14个月翻一番。同时，电子计算机芯片对于数字处理能力的增长也相当于每18个月翻一番。因此，计算机能够有效地管理和运行海量数据。

但是，更为本质的原因是基因组数据的复杂性。所谓某种生物的基因组就是指该生物所有遗传物质的总和。生物的遗传物质是一类称为脱氧核糖核酸（DNA）的生物大分子，它是由4种核苷酸串接起来组成的，通常用字符 A、 T、 G、 C代表。通俗地说，生物的遗传密码就是这4个字符连接起来的线状长链。这种链往往很长，比如：人的遗传密码就含有32亿个字符，将它们堆起来就构成了一部100多万页、每页有3000字符的“天书”。这本“天书”包含了人体的结构和功能以及生命活动过程的大量信息，却仅仅由4个字符组成，既无词法，又无句法，还没有标点符号，看起来每一页都是相似的。如何读懂它是个极大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这样的问题就必须发展新的分析理论、方法、技术、工具，就必须依赖计算机的信息处理。

从事生物信息学研究应具备多方面的科学基础。首先，它需要一定的计算能力，包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统；同时，生物信息学需要强有力的创新算法和软件。没有算法创新，生物信息学就无法获得持续的发展。最后，它要与实验科学，特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术，既是产生生物信息数据的主要方法，又是验证生物信息学研究结果的关键手段。因此，从事生物信息学研究的人员也必须具备多学科交叉的知识。

我国生物信息学的研究和应用有一定的基础，因而有望取得突破性成果，这对于增强我国在基础研究领域的实力，在某些方面占据国际领先地位是十分重要的。生物信息学成果的应用也会产生巨大的社会效益和经济效益。

3 生物信息学当前主要研究内容

3.1 获取人和各种生物的完整基因组

基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个堿基，而现在的 D NA测序仪每个反应只能读取几百到上千个堿基。也就是说，要得到人的全部遗传密码首先要把人的基因组打碎，测完一个个小段的序列后再把它们重新拼接起来。

但是，我们很容易想象：如果把一本书撕成大小一样的碎片，就再也无法把它们重新正确地拼接起来，这是因为撕的同时丢失了书的上下文联系。这该如何办呢？我们可以取两本一样的书，按照不同的撕法把它们分头打碎。通过不同碎片互相参照，找到相同的单词，就可以部分恢复书的上下文联系。撕的书越多，恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿堿基只测一遍，往往要测很多遍。比如，今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道，它含有约29亿堿基，其物理图谱覆盖率为96％，序列覆盖率为94％。有大于90％的连续序列群已大于10万堿基；有约25％的连续序列群已等于或大于千万堿基。在这些序列中发现了3－4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个 *** 段通过比对再连接起来，这就是常说的基因组序列数据的拼接和组装。

在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、堿基读出、载体标识与去除、拼接、填补序列间隙，到重复序列标识、读框预测和基因标注，每一步都是紧密依赖生物信息学的软件和数据库的。其中，序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据，而且在于它含有高度重复的序列。为此，这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面，必须按照不同步骤的要求，发展适当的算法及相应的软件，以应对各种复杂的问题。国际上很多著名的基因组研究中心，都有自己的拼接和组装策略，并且这样的工作都是在超级计算机上完成的。

有了完整基因组，人类对自身的认识就更为细致、更为精确。比如：发现在我们的基因组中真正编码蛋白质（称为外显子）等的部分很少，只占1．1％；外显子与外显子之间的区域（称为内含子）占了24％；而基因与基因之间的间隔序列却占了75％，也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂，有更为丰富的剪接方式。发现基因组中片段重复现象很普遍，这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定，而男性的第12号染色体和女性的第16号染色体是易变的，等等。

3.2 发现新基因和新的单核苷酸多态性

发现新基因是当前国际上基因组研究的热点，使用生物信息学的方法是发现新基因的重要手段。比如：啤酒酵母完整基因组所包含的约6000个基因，大约60％是通过信息分析得到的。

（1）基因的电脑克隆

利用 E ST数据库发现新基因也被称为基因的电脑克隆。 E ST序列是基因表达的短 c DNA序列，它们携带着完整基因的某些片段的信息。到2001年10月，GenBank的EST数据库中人类 E ST序列已超过380万条，它大约覆盖了人类基因的90％以上。

我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单，就是找到属于同一基因的所有 E ST片段，再把它们连接起来。由于 E ST序列是全世界很多实验室随机产生的，所以属于同一基因的很多 E ST序列间必然有大量重复 *** 段，利用这些 *** 段作为标志就可以把不同的 E ST连起来，直到发现了它们的全长，这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过，那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的，计算量是巨大的。

（2）从基因组 D NA序列中预测新基因

从基因组序列预测新基因，本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较，就可以发现新的基因了。

发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂志，人的第22号染色体数据已鉴定出679个基因，其中55％的基因是未知的。有35种疾病与该染色体突变相关，像免疫系统疾病、先天性心脏病和精神分裂症。但是，要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中，依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的“整合基因索引”及与之相关的“整合蛋白索引”。

（3）发现单核苷酸多态（ S NP）

有的人吸烟喝酒却长寿，也有人自幼就病痛缠身；同一种治疗 *** 的药物对一些人非常有效，对另一些人则完全无效。这是为什么？答案是他们基因组中存在的差异。这种差异很多表现为单个堿基上的变异，也就是单核苷酸的多态性（ S NP）。

现在普遍认为 S NP研究是人类基因组计划走向应用的重要步骤。这主要是因为 S NP将提供一个强有力的工具，用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。 S NP在基因组中分布相当广泛，近来的研究表明在人类基因组中每300堿基对就出现一次。大量存在的 S NP位点，使人们有机会发现与各种疾病，包括 *** 相关的基因组突变；从实验操作来看，通过 S NP发现疾病相关基因突变要比通过家系来得容易；有些 S NP并不直接导致疾病基因的表达，但由于它与某些疾病基因相邻，而成为重要的标记。 S NP在基础研究中也发挥了巨大的作用，近年来对 Y染色体 S NP的分析，使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。

3.3 基因组中非编码蛋白质

区域的结构与功能研究

近年来的研究表明，在细菌这样的微生物中，非编码蛋白质的区域只占整个基因组序列的10％到20％。随着生物的进化，非编码区越来越多，在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明：这些非编码序列必定具有重要的生物功能。普遍的认识是，它们与基因的表达调控有关。

对人类基因组来说，迄今为止，人们真正掌握规律的只有 D NA上的编码蛋白质的区域（基因），最新资料说明这部分序列只占基因组的1．1％。仅占人类基因组1．1％的编码区的相关研究已经缔造了数十名诺贝尔奖获得者，98％非编码区蕴含的成果数量将是十分可观的，因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题，是取得重要成果的源泉。

3.4 在基因组水平研究生物进化

近几年来，随着基因组序列数据的大量增加，对序列差异和进化关系的争论也越来越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时，对“垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重视。也就是近年来发现了基因的“横向迁移现象”。即：基因可以在同时存在的种群间迁移，其结果虽可导致序列差异，但这种差异与进化无关。甚至，对人类基因组的分析发现，有几十个人的基因只与细菌基因相似，而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。特别是：在分子进化分析中，“相似性”和“同源性”是两个不同的概念。相似性只反映两者类似，并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。

3.5 完整基因组的比较研究

在后基因组时代，完整基因组数据越来越多，有了这些资料人们就能对若干重大生物学问题进行分析研究，如：生命是从哪里起源的？生命是如何进化的？遗传密码是如何起源的？估计最小独立生活的生物体至少需要多少基因？这些基因是如何使生物体活起来的？等等。这些重大的问题只有在基因组水平上才能回答。举例来说，鼠和人的基因组大小相似，都含有约30亿堿基对，基因的数目也类似，且大部同源。可是鼠和人差异却如此之大，这是为什么？同样，有的科学家估计不同人种间基因组的差别仅为0．1％；人猿间差别约为1％。但他们表型间的差异十分显著。因此，这种差异不仅应从基因、 D NA序列找原因，也应考虑到整个基因组、考虑染色体组织上的差异。这一工作开创了比较基因组学。

科学家们发现：全部基因可以按照功能和系统发生分为若干类，其中包括与复制、转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。同时，科学家们通过几个完整基因组的比较，统计出维持生命活动所需要的最少基因的个数为250个左右。同样，当我们比较鼠和人的基因组就会发现，尽管两者基因组大小和基因数目类似，但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。研究表明在同一界中，某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系，亲缘关系越近，基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。

我国从1998年开始就开展了微生物完整基因组的大规模测序和分析工作。现在正进行和已完成的有：我国自行鉴定的 T hermotogales科的高温真细菌、泉生热袍菌；福氏痢疾杆菌；钩端螺旋体出血黄疸型赖株；表皮葡萄球菌；菊花黄单胞菌。我国科学家在完 *** 类基因组的1％测序工作的同时，最近又完成了具有4．3亿堿基对的水稻基因组的“工作草图”。这些数据将为我国在这一领域的研究提供最直接的素材。

3.6 从功能基因组到系统生物学

在不同的组织中表达基因的数目差别是很大的，脑中基因表达的数目最多，约有3－4万个转录子，有的组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段，表达基因的种类、数量也是不同的，有些基因是在幼年时期表达的，有些是中年阶段表达的，有些要到老年时期才表达。我们不仅需要了解基因的序列，还要了解基因的功能，也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。

为了得到基因的表达谱，国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的基因芯片（或称 D NA芯片）技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术，也称蛋白质组技术。由于芯片上样品点的密度很大，可以达到每片几十万，因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无论是生物芯片还是蛋白质组技术的发展，都更强烈地依赖于生物信息学的理论、技术与数据库。下一步，功能基因组研究将朝着复杂系统的方向发展，即：探讨生物系统中各部分、各层次的相互作用，从而进入系统生物学的领域。

3.7 蛋白质结构模拟与药物设计

蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速发展，这一领域面临着新的态势，即：找到人类3—4万个基因的堿基序列是指日可待的事，因而确定它们表达产物的氨基酸顺序也会逐渐实现，此时预测这些蛋白的空间结构，进而实现针对性的药物设计，就成了迫在眉睫的任务。这也是大规模的计算问题。

3.8 生物信息学的应用与发展研究

生物信息学的研究结果不仅具有重要的理论价值，也可直接应用到工农业生产和医疗实践当中去。因此，生物信息学相关的分析与应用算法、软件和数据库，都具有重要的经济价值，最终都会形成商品，提供经济和社会效益。

（1）疾病相关的基因信息及相关算法和软件开发

很多疾病与基因突变或基因多态有关，有人估计与癌症相关的原癌基因约有1000个，抑癌基因约有100个。约有6000种以上的人类疾患与各种人类基因的变化相关联。更多的疾病是环境（包括致病微生物）与人类基因（基因产物）相互作用的结果。随着人类基因组计划的深入，当我们知道了人类全部基因在染色体上的位置、它们的序列特征（包括 S NPs）以及它们表达规律和产物（ R NA和蛋白质）特征以后，人们就可以有效地判定各种疾患的分子机制，进而发展合适的诊断和治疗手段。为此，有两项生物信息学工作是重要的：一是构建与疾病相关的人类基因信息数据库（包括 S NP数据库），二是发展有效地分析基因分型数据的生物信息学算法，特别是将 S NP数据与疾病和致病因素相关的计算方法。

（2）建立与动、植物良种繁育相关的基因组数据库，发展分子标记辅助育种技术

根据不同物种间的进化距离和功能基因的同源性，可以比较容易地找到各种家畜、经济作物与其经济效益相关的基因，并进一步认识它们发育、生长和抗逆的各种途径和机制。在此基础上，利用相关的基因组分子标记，可以加快育种的速度，对它们按照人们的愿望加以改造。

（3）研究与发展药物设计软件和基于生物信息的分子生物学技术

人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因。同时，分子生物学常用的表达载体、 P CR和杂交引物以及各种试剂盒（包括 D NA芯片）的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。

什么是生物信息学?

生物信息学

一, 生物信息学发展简介

生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就

必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结

构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物

成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),

在Avery和McCarty于1944年证明了DNA是生命 *** 的遗传物质以前,人们

仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.

1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧

定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin

用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis

Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形

成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基

对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的

遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.

DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大

肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接

成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验

方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递

的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心

法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起

到了极其重要的指导作用.

经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码

得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程

的技术基础.

正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息

学的出现也就成了一种必然.

2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个 *** .

由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每

天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一

个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发

现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域

的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA

序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,

分子演化及结构生物学,统计学及计算机科学等许多领域.

生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信

息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核

苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在

发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的

功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根

据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研

究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗

传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研

究的前沿.

二, 生物信息学的主要研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些

主要的研究重点.

1,序列比对(Sequence Alignment)

序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似

性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:

从相互重叠的序列片断中重构DNA的完整序列.

在各种试验条件下从探测数据(probe data)中决定物理和基因图

存贮,遍历和比较数据库中的DNA序列

比较两个或多个序列的相似性

在数据库中搜索相关序列和子序列

寻找核苷酸(nucleotides)的连续产生模式

找出蛋白质和DNA序列中的信息成分

序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前

两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权

和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个

序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海

量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算

法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的

BALST和FASTA算法及相应的改进方法均是从此前提出发的.

2, 蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.

蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般

相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),

蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸

的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.

研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking

drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.

直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构

在进化中更稳定的保留,同时也包含了较AA序列更多的信息.

蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应

(不一定全真),物理上可用最小能量来解释.

从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同

源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用

于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较

进化族中不同的蛋白质结构.

然而,蛋白结构预测研究现状还远远不能满足实际需要.

3, 基因识别,非编码区分析研究.

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组

序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢

弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序

列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码

区DNA序列目前没有一般性的指导方法.

在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已

完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序

列是难以想象的.

侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔

可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden

Markov Model)和GENSCAN,Splice Alignment等等.

4, 分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进

化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相

关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似

性.通过比较可以在基因组层面上发现哪些是不同种族 *** 同的,哪些是不同的.

早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化

的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角

度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:

Orthologous: 不同种族,相同功能的基因

Paralogous: 相同种族,不同功能的基因

Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.

这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白

质中的氨基酸的碱基的特 *** 置)和基于距离(对齐的分数)的方法和一些传统

的聚类方法(如UPGMA)来实现.

5, 序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,

如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列

全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直

至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个

NP-完全问题.

6, 遗传密码的起源

通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上

一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.

不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说

来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源

和检验上述理论的真伪提供了新的素材.

7, 基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,

相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物

治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要

的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础

上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一

领域目的是发现新的基因药物,有着巨大的经济效益.

8, 其他

如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,

逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的

学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组

学,中药基因组学, *** 基因组学,分子流行病学和环境基因组学.

从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对

与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认

识.

三, 生物信息学与机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.

常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问

题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完

备的生命组织理论.

西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作

时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采

用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"

模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.

机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能

[5].

机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,

而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花

费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,

快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因

而,生物信息学与机器学习相结合也就成了必然.

机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是

统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推

理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马

尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和

探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般

的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析

(KPCA),独立成分分析(Independent component *** ysis),局部线性嵌套(Locally

Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可

看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于

microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数

据库中获得相应的现象解释.

机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多

假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息

学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻

找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络

和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.

四, 生物信息学的数学问题

生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息

学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型

(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质

空间结构预测和分子对接研究中采用的更优化理论;研究DNA超螺旋结构的拓

扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理

论或多或少在生物学研究中起到了相应的作用.

但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学

和度量空间为例来说明.

1, 统计学的悖论

数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖

论莫过于均值了,如图1:

图1 两组同心圆的数据集

图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也

就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多

的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法

和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于

对数据的结构缺乏一般性认识而产生的.

2, 度量空间的假设

在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举

例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分

值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.

那么,是否这种前提假设具有普适性呢

我们不妨给出一般的描述:假定两个向量为A,B,其中,

,则在假定且满足维数间线性无关的前提下,两个

向量的度量可定义为:

(1)

依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息

学中常采用的一般性描述,即假定了变量间线性无关.

然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考

虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的

度量公式可由下式给出:

(2)

上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足

(3)

时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线

性相关性,我们正在研究这个问题.

五, 几种统计学习理论在生物信息学中应用的困难

生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却

一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的

巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来

改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov

复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介

绍.

支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计

学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则

采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性

质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函

数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核

函数的选择问题本身是一个相当困难的问题,从这个层次来看,更优核函数的选

择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中

又一个大气泡.

Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习

的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov

复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只

适用于离散数据,最近已经 *** 至连续数据集中,试图从编码角度获得对模型参

数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.

BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的

惩罚,反之,惩罚则小,隐式地体现了奥 *** 剃刀("Occam Razor")原理,近

年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验

的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索

的空间.

六, 讨论与总结

人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平

上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互

关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这

些问题做出探讨和思索.

启发式方法:

Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找更优

的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得

到次数最少,效能最高的解决方法也是非常困难的.更优方法和满意方法之间的

困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能

达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,

要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,

要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工

智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.

问题规模不同的处理:

Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数

据量 *** 时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这

好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法

一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同

样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据

挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用

动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.

乐观中的隐扰

生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因

组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在

的隐扰呢

不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出

十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相

同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成

果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,

这是由于最初人工智能研究上 *** 错误以及没有从认识论角度看清人工智能的

本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不

能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现

实.

反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从

结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所

有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来

自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人

工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的

功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我

们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐

观呢现在说肯定的话也许为时尚早.

综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,

是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为

各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方

面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全

明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正

的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从

数学上的新思路来获得本质性的动力.

毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,

这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列

以及相关的内容,我们还有相当长的路要走.

（来源 ------[InfoBio.org | 生物信息学研讨组]）

生物信息学（Bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

目前的生物信息学基本上只是分子生物学与信息技术（尤其是因特网技术）的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。

1990年代以来，伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息怎样控制有机体的发育？基因组本身又是怎样进化的？

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪，如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出：“传统生物学解决问题的方式是实验的。现在，基于全部基因都将知晓，并以电子可操作的方式驻留在数据库中，新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发，然后再回到实验中去，追踪或验证这些理论假设”。

生物信息学的主要研究方向：基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学

生物信息学研究的内容

生物信息学的主要研究内容

1、序列比对（Alignment）

基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础，非常重要。两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的比对软件包BLAST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。

2、结构比对

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。

3、蛋白质结构预测，包括2级和3级结构预测，是最重要的课题之一

从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建（Homology）和指认（Threading）方法属于这一范畴。虽然经过30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。

4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一

基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。

5、非编码区分析和DNA语言研究，是最重要的课题之一

在人类基因组中，编码部分进展总序列的3~5%，其它通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。

6、分子进化和比较基因组学，是最重要的课题之一

早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件。

7、序列重叠群（Contigs）装配

一般来说，根据现行的测序技术，每次反应只能测出500或更多一些碱基对的序列，这就有一个把大量的较短的序列全体构成了重叠群（Contigs）。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明，这是一个NP-完备

性算法问题。

8、遗传密码的起源

遗传密码为什么是现在这样的？这一直是一个谜。一种最简单的理论认为，密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的，并被固定在现代生物最后的共同祖先里，一直延续至今。不同于这种“冻结”理论，有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成，为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

9、基于结构的药物设计。是最重要的课题之一

人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系，寻求各种治疗和预防方法，包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性，在已知其3级结构的基础上，可以利用分子对接算法，在计算机上设计抑制剂分子，作为候选药物。这种发现新药物的方法有强大的生命力，也有着巨大的经济效益

标题为什么数据库是生物信息学研究的基础?

是因为建立和完善数据_能够促进生物信息学的发展。

生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

生物信息学基础书目有哪些？怎么样才能快速入门？

钟扬的书简明生物信息学郝柏林生物信息学手册杨子恒的PAPER 张春霆老先生的文献多看

学习简单的计算机语言

多看PAPER