主要研究方向

现在,遍布全世界的测序仪每天都在产生着海量的DNA序列数据,使得基因组相关数据呈指数方式增长,大约每14个月增加一倍。而世界各国无不投入大量的人力、物力到这项振奋人心的事业中,并取得了一些令人激动的成果;然而,截止到2001年9月,人们发现最有权威性的两套(Cerela的和HGP的)人类基因组数据中预测的基因数目虽然都是三万多,但其中相同的部分却只有一万五千左右(见:Cell, Vol 106, 413-415, August 2001),这说明目前所采用的基因识别方法的准确率是无法令人满意的。

因此我们认为,沿着"实验Data对实验Data"的思路,利用超级计算机进行EST和全基因组序列比对(Alignment)是很有必要的,并将会取得重要的成果。

同时,我们认为:面对海量的、呈指数形式快速增长的基因组相关数据,必须抓好两个重点,即一方面必须发展全新的生物信息处理方法,另一方面必须建立适于超大规模数据的信息处理系统。这是从海量生物信息数据中获得新的生物体结构、功能知识的关键,也是基因组研究取得成果的决定性步骤。

因此,本项目将从开发原创性的新算法和建立海量数据处理平台两个层次上开展研究:

在算法的层次上,我们将研究基因组注释和功能基因组数据分析、基因的电脑克隆、基因的识别及其在基因组中的定位研究、基因相关的SNP和mRNA可变剪接位点的分析、DNA序列综合特征信息分析的新方法、新算法,建立生物实验的模拟分析方法;

在平台的层次上,本项目将针对大规模数据处理的特点,以国产曙光3000超级计算机为平台,开发可供实用的信息管理和软件分析系统,开发若干满足我国医药、农业生物技术重点研究需要的具有国际水平的生物信息数据分析系统, 建立可整合各种相关信息及分析计算方法、界面友好的数据分析技术平台,开发出一批具有自主知识产权、有良好商业化前景的生物信息学软件包。
具体地说,我们将重点解决以下几个问题:

① 生物信息处理新方法研究:

基因的电脑克隆:EST序列 (Expressed Sequence Tags) 是基因表达的短 cDNA 序列,它们携带着完整基因的某些片段的信息。现在国际上公共数据库(如NCBI的dbEST,UniGene)中的人类 EST序列已达三百多万条,已覆盖了人类基因的 90% 以上,冗余度已达到10倍。利用这些序列数据,通过大规模计算分析来得到全长cDNA序列已成了寻找新基因的一种高效且可靠的手段,这就称为基因的电脑克隆。在本研究中,我们将进一步完善自己先前编制的基因电脑克隆软件包SiClone,把它移植到"曙光3000"高性能并行计算机上,进行人类基因的大规模电脑克隆。

基因的识别及其在基因组中的定位研究:经过全世界科学家的通力合作,人类基因组序列工作草图已于2000年6月绘制完成,进一步的序列拼接和注释工作也在加紧进行中,估计可在2003年底全部完成。我国科学家也参加了这一伟大的合作,负责全基因组1%的测序、拼接、以及注释工作。"基因的识别及其在基因组中的定位"是注释工作中最重要最关键的部分。最有权威性的两套(Cerela的和HGP的)人类基因组数据中预测的基因数目都是三万多,但其中相同的部分只有一万五千左右,这说明虽然目前基因的识别方法有很多,但准确率确是无法令人满意的。由于EST序列属于实验证实的基因序列片段,且已经有足够的数量,通过它和基因组序列的比对(alignment)来确定基因及其在染色体中的位置,是目前公认的最准确有效的方法。我们拟以"曙光3000"高性能并行计算机为依托,编制基于这种方法的软件包,对人类基因组序列进行"基因的识别及其在基因组中的定位"的研究。

基因相关的SNP和mRNA可变剪接位点的分析: 大量的事实证明,人类的很多疾病是由DNA序列的突变引起的,其中尤以基因相关的SNP(Single Nucleotide Polymorphysim)和mRNA的错误剪接为甚。这些信息将在一定的程度上在上述EST序列和基因组序列的比对(alignment)中显露出来。收集这些信息,编制一个软件包,以对这些信息进行进一步的分析和研究,准确预报"基因相关的SNP和mRNA可变剪接位点",是我们工作的另一重要内容。

DNA序列综合特征信息分析:现在,遍布全世界的测序仪每天都在产生着海量的DNA序列数据。众所周知,我们的最终目的不是得到这些DNA序列,而是了解这些序列所含的信息和可能发挥的功能,即是否为基因序列?若是基因序列,它编码的蛋白质会发挥什么样的功能?若为非基因序列,它是否为调控序列或某种重复序列或其它未知序列?要回答这些问题,都必须对序列本身的特征进行研究。目前已有很多DNA序列分析的方法和软件,如寻找蛋白质编码区的ORFfinder和 GeneScan,进行同源性搜索比较的BLAST和FASTA等等,这些软件的大部分都是围绕着基因编码区的分析而设计的。在低等的生物中(如细菌),基因组序列中绝大部分是基因编码区,随着生物等级的提高,非编码区所占的比例越来越大,到了灵长类,非编码区已占全基因组DNA序列的95%以上。从进化的观点来看,非编码区必然蕴涵着大量的信息,在生命的活动中发挥着极其重要的功能。要挖掘出非编码区中大量秘密,靠现成的DNA分析方法和软件是远远不够的,发展新的方法势在必行。几年来,我们一直致力于发展新的DNA序列特征分析方法,先后将密码学、分形分维、复杂度、人工神经元网络的理论和概念用于DNA序列的分析研究中,取得了不错的效果,形成了一批独特的DNA序列特征分析方法。我们拟将这些分析方法加以汇编整理,加上国际上通用的一些方法,形成一个有自己特色独立知识产权的多功能DNA序列特征分析软件包,用于上述几方面的研究。

蛋白质组数据的分析研究:人类基因组序列工作草图的完成标志着功能基因组时代的开始,其中一个重要任务就是对蛋白质组的研究。得益于越来越多的高通量实验技术(如二维凝胶电泳、测序质谱技术等)的出现和日臻成熟,目前已积累了大量的蛋白质组数据。当前的问题是,分析和研究这些数据的手段和能力严重滞后,使得花费大量人力和财力获得的数据未能产生更多有生物学意义的结果。致力于发展先进高效的信息分析和数据挖掘手段,从大量而繁杂的蛋白质组数据中找出内在联系,以揭示蛋白质的功能及相互作用关系,也是我们工作的重要内容之一。
② 生物信息处理并行算法与软件并行化技术的研究:

由于基因组信息相关数据量不断地快速增长,使得传统的串行算法和单一结点的计算机很不适用,这体现在如下三点:
(1).处理海量数据时,处理速度变得极慢;
(2).系统的I/O能力严重不足;
(3).系统无法提供足够大的内存以满足应用的需求。
因此,有必要开发能够在超级计算机(包括SMP对称多处理系统,和Cluster机群系统)上运行的并行化算法及其支撑环境。这实际上包含两个层次上的研究:一个层次是对已有算法和串行软件的并行化研究;另一个层次则是直接设计并行化的新算法。本项目将以曙光3000机群系统作为硬件平台,重点是做那些常用的计算量特别大的算法与软件的并行化工作,例如:Blast,Phrap,Smith-Waterman和Prospector等软件的并行化以便最大限度的发挥大规模并行计算机的效率。

③ 生物信息处理平台研制:

除了开发生物信息处理方向的新算法之外,本项目的另一个重点就是要开发适于生物学家使用的、针对海量数据的生物信息处理平台。在平台的开发过程中,我们将着重强调"快速、易用、特色"几个原则。具体地说,有以下几个方向的内容:

高效性:我们将以曙光3000机群系统为支撑环境开发生物信息处理平台。曙光3000超级计算机是基于分布式存储和消息传递体系结构的通用的可扩展并行计算机系统,峰值运算速度超过3000亿次/秒,其节点数可以从4个扩展到128个。所有节点都是由4个Power3-II微处理器组成的SMP结构,结点间通过高速以太网和系统域网互连。系统域网有由"蛀洞"路由芯片(Wormhole Routing Chip)组成的二维Mesh网络和Myrinet两种,具有强大的I/O能力和节点间通讯能力,同时,为曙光3000特别设计的软件可充分发掘其并行能力。曙光3000超级计算机采用的共享存储编程模型(Shared-Memory)使得任意一个任务都能够使用系统中所有节点的全部内存,因此能够满足海量生物信息处理对内存、I/O能力、高度并行的要求。

易用性:整个平台将整合各种相关信息及分析计算方法,比如Repeat Masker、Sim4、Blast、Fasta. Phred, Phrap, Consed, GeneScan、Unigene和Blocks等国际公认算法,利用从GeneBank等数据库提取原始数据,如人类高通量测序序列(HTG/PRI),ESTdb等,处理结果使用Web方式返回给最终用户;同时进行部分可视化加工工作,最终可得到友好界面的图形化结果。同时建立生物信息数据的搜索引擎,便于用户检索相关数据,更好地为生物信息领域的研究人员提供服务。

特色性:本平台除了集成国际知名算法之外,还将集成若干具有自主知识产权的原创性算法。比如基于密码学理论的编码区域预测方法、基于SVM(支持向量机)的预测方法等,只有集成了具有特色的算法,才能形成较大的影响,进而在国际上占有一席之地。

实验室简介