生物信息学在包虫基础研究中的应用前景

生物信息学在包虫基础研究中的应用前

(作者:___________单位: ___________邮编: ___________)

【关键词】 生物信息学;基因组学;寄生虫;包虫

在1956年美国召开的首次“生物学中的信息理论研讨会”上人们提出了生物信息学的概念[1]。近几年,随着人类基因组计划(HGP)的迅猛发展,各种数学软件以及生物分析软件的出现,将之前积累的大量不同生物基因序列、蛋白质氨基酸残基序列、不同生物种属之间基因序列、蛋白质以及结构序列的保守结构位点进行整合,并据此建立了庞大的数据库系统。而对于这些数据的分析,必须依靠计算机分析技术的不断发展,所以就形成了一门由生物科学、计算机科学、信息科学、应用数学、统计学等多门学科相互交叉的学科——生物信息学技术[2-4]。

生物信息学的基础是各种数据库的建立和分析工具的发展。迄今为止,生物学数据库总数已达500个以上。归纳起来可分为4大类:即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子三维空间结构数据库,以及以上述3类数据库和文献资料为基础构建的

二级数据库[7]。常用生物信息学数据库[8-10]:

European Molecular Biology Laboratory(EMBL)——欧洲分子生物学实验室http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/topembl.html

UK Human Genome Mapping Project-Resource Center(HGMP-RC)——英国医学研究委员会所属人类基因组图谱资源中心 http://www.hgmp.mrc.ac.uk/default.htm

SeqNet:UK Node of European Molecular Biology Network(EMBNet)——欧洲分子生物学信息网http://www.seqnet.dl.ac.uk/default.htm

GenBank——美国国家生物技术信息中心(NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库http://www.ncbi.nlm.nih.gov/Web/Search/index.html

National Center for Biotechnology Information(NCBI)——美国国家生物技术信息中心http://www.ncbi.nlm.nih.gov/

DNA Databank of Japan(DDBJ)——日本核酸数据库http://www.ddbj.nig.ac.jp/default.htm

Genome Sequence DataBase(GSD)——美国国家基因组资源中心维护的DNA序列关系数据库http://seqsim.ncgr.org/default.htm Online Mendelian Inheritance in Man(OMIM)——在线人类孟德尔遗传数据库http://www3.ncbi.nlm.nih.gov/Omim/searchomim.html

European Drosophila Genome Project http://edgp.ebi.ac.uk/default.htm

The Institute for Genomic Research(TIGR)——美国基因组研究所http://www.tigr.org/default.htm

The Sanger Centre http://www.sanger.ac.uk/default.htm Swiss Institute of Bioinformatics(Expasy)http://www.expasy.ch/default.htm

GenomeNet(Japan)http://www.genome.ad.jp/default.htm

Australian National Genomic Information Service(ANGIS)http://morgan.angis.su.oz.au/default.htm

Bioinformatics and Biology Resources on the Internet http://aeiveos.wa.com/biology/index.html

List of other Genome Sites http://www.hgmp.mrc.ac.uk/GenomeWeb/default.htm

Brunel University Online Teaching Programme http://www.brunel.ac.uk/depts/bl/project/front.htm

Whitehead Institute for Biomedical Research(WI)http://www.wi.mit.edu/

WICGR(WI/MIT Center for Genome Research)http://www-genome.wi.mit.edu/

Cold Spring Harbor Laboratory(CSHL)——冷泉港实验室http://clio.cshl.org/

SMI(Stanford Medical Informatics)http://www-smi.stanford.edu/projects/helix/

BNL(Brookhaven National Laboratory)——美国布鲁克海文国家实验室http://genome1.bio.bnl.gov/

Weizmann Institute of Science——以色列魏兹曼科学研究所 http://bioinformatics.weizmann.ac.il/

中国科学院上海生命科学院生物信息中心(BioSino)http://www.biosino.org.cn/

北京大学生物信息中心(CBI或PKUCBI)http://www.cbi.pku.edu.cn/

中国军事医学科学院情报研究所 http://www.bmi.ac.cn/bio/ 1 生物信息学在寄生虫基础研究中的现状

随着HGP的开展[11-12],人体寄生虫基因组研究也受到了广泛的重视。1993年美国人类基因组研究中心对HGP 作了修订,修订后的HGP 将模式生物基因组列入了HGP的内容[13],认为通过对较为简单的模式生物基因组的研究,可为人类基因的功能鉴定提供线索,并可从简单的基因组分析入手建立技术积累经验。人体寄生虫是一类结构较简单的单细胞生物如原虫或多细胞生物如蠕虫[14],是研究模式生物较理想的材料。因此,人体寄生虫基因组计划也已成为人类基因组计划中模式生物基因组研究重要内容之一[15-16]。其中,基因序列测定和新基因的发现是人体寄生虫基因组计划的首要任务。目前应用生物信息学对下列人体寄生虫基因组进行了研究[17-18]:

1.1 恶性疟原虫 基因组计划开展较早,研究表明恶性疟原虫的基因组大小约30Mb,含15000~17000个基因。在GenBank 中已记载的恶性原虫5031个基因顺序资料中,有3755个为抗原/蛋白质的编基因序列。

1.2 利什曼原虫 基因组大小约为35Mb,通过构建利什曼原虫不同时期特异性cDNA文库和长片段基因组文库,已经获得了2000多个EST 序列。

1.3 美洲锥虫 基因组大小为55 Kb,已建立了标化cDNA 文库,BAC 文库和YAC 文库。现已完成了7000个EST序列的测定,3号和4号染色体序列已测定。

1.4 丝虫 基因组大小为100Mb(以马来丝虫代表),至目前为止,在GenBank 中EST 序列已达到16500个,鉴定出新基因6000个,占预测基因总数的1/3。

1.5 硕大利什曼原虫 已有约500个EST 序列进入数据库,均是从含有引导序列的全长cDNA的5端测出的序列,对利什曼原虫的目标是测出至少1500个新序列。

1.6 血吸虫 基因组大小为270 Mb,估计基因数为20000个。血吸虫基因组计划始于1995年,早期研究工作主要是新基因的发现和绘制低分辨率的物理图谱。目前在GenBank中已有的血吸虫基因EST序列超过45900条,3500 个新基因已被鉴定,占基因总数的15%。

2 生物信息学在包虫基础研究中的应用前景

包虫病是一个世界性的流行病,其防治工作倍受各国研究者重视。包虫生活史复杂,同一包虫的不同种株,以及在同一种株的不同发育阶段,不同组织,甚至随着环境的改变,其基因表达变化很大。目前有关包虫的研究还不是很多,研究资源主要集中于研究包虫单个基因的序列及其功能,随着后基因组时代的发展,以及生物信息学的兴起,包虫的研究将从单个基因和功能向全基因组和功能研究转变,从局部向整体转变,从而使有目的地大规模研究疫苗和药物相关基因成为可能。

目前,应用生物信息学在对血吸虫的基础研究中取得了很大的进展。这便给了我们一个提示,可以应用生物信息学对包虫进行基础研究。首先,可以通过生物信息学的相关网站得到目前已知的包虫的基因或蛋白序列。目前报道包虫的核酸序列共11106条[美国国立生物技术信息中心(NCBI)数据库],见下表:

核酸序列线粒体

内核酸线粒体

外核酸总核酸

序列数Nucleotide5625321097相关EST[1**********]GSS077 之后可以通过生物信息学相关工具做以下工作[19]:

2.1 基因功能预测 一个新基因得到后,接下来的工作就是寻找该基因的功能。序列同源比较是预测基因功能的第一步。利用同源比较算法,将待检测的新基因序列从DNA和蛋白质序列数据库中进行

同源检索后,就可以得到一系列与新基因同源性较高的基因或片段。这些基因和片段的已知功能信息就为进一步分析新基因功能提供了具有相当参考价值的导向。最主要的生物学数据库是核酸、蛋白质序列数据库及其三维结构数据库[20]。

2.2 寻找蛋白质家族保守序列 通过同源检索,寻找新基因中包含的该蛋白质家族的保守序列,为进一步深入研究其功能作好准备。多重序列同源比较,被用来寻找基因家族或蛋白质家族中的保守部分

[21-22]。由于保守部分常常与家族成员的功能密切相关,蛋白质家族数据库能够帮助科学家更好地认识基因的功能。最具代表性的蛋白质家族保守序列的数据库有PRINTS、BLOCKS、Sbase 和Prosite等。这些数据库可以帮助我们把新基因所属的蛋白质家族及其保守部分找出来,并提供该家族其他成员的结构和功能信息[23]。

2.3 蛋白质结构的预测 如果一个可能的新基因通过同源检索后没有同源性,就成为孤独基因了。孤独基因可以通过结构同源比较,寻找结构同源的基因或直接预测其高级结构来推测其可能的功能。有很多蛋白质高级结构数据库提供结构同源比较的检索[20]。

目前,在后基因组时代,研究者们面对的不仅是序列和基因,也有越来越多的完整基因组。对不同种株包虫基因组之间的比较性研究很可能会得到大量有用信息,而对同一种包虫生活史不同阶段基因组的比较性研究可能会使人们对于该物种的认识更加深入。因此,随着生物信息学的迅速发展和后基因组计划的深入,包虫的基础研究必将得到极大地发展。人们能够期望从对基因和基因的生物学功能研究

着手,发现更有效的抗包虫的药物靶位或疫苗[24-25],并为彻底揭开包虫的奥秘以及有效的治疗与预防包虫病打下基础。

【参考文献】

[1] 陈颖健.生物信息学[J]. 国外科技动态,2002,10(399):39-41.

[2] Ezio Bartocci,Flavio Corradini,Emanuela Merelli.BioWMS:a web-based Workflow Management System for bioinformatics[J]. BMC Bioinformatics,2007,8(Suppl 1):S2.

[3] Stephen H,Wefer Keith Sheppard.Bioinformatics in High School Biology Curricula:A Study of State Science Standards[J]. CBE-Life Sciences Education,2008,7:155-162.

[4] 冯毅.生物信息学在药物研发中的应用与展望[J].西部医学,2007,19(5):971-973

[5] 孙敏,马月辉.生物信息学研究进展[J].家畜生态学报,2006,27(1):6-10.

[6] 汪凡军.生物信息学在医学上的应用[J].国际检验医学杂志,2006,27(2):161-163.

[7] Yang Yong Mei.Application Development of Bioinformatics in Medicine Study[J]. Medical Recapitulate,2007,13(22):1681-1683.

[8] Michelle D,Brazas BF,Francis Ouellette.2008 update on the Bioinformatics Links Directory[J]. Nucl Acid Res,2008,36:W2-W4.

[9] Benson D,Karsch-Mizrachi I,Lipman D,et al.Gen-Bank:update[J]. Nucleic Acids Res,2004,6:23-26.

[10] Apweiler R,Bairoch A,Wu C,et al.UniProt:the Universal Protein knowledgebase[J]. Nucleic Acids Res,2004,6:115-119.

[11] International Human Genome Sequencing Consortium:Initial sequencing and analysis of the human genome[J]. Nature,2001,409:860-921.

[12] Pennisi E.The sequence of the human genome[J]. Science,2001,291:1173-1180.

[13] Collins F,Galas D.Human genome[J]. Science,1993,262(130):43-46.

[14] Alan F,Cowman Brendan S.Functional genomics:identifying drug targets for parasitic diseases[J]. Crabb Trends Parasitology,2003,19(11):538-543.

[15] Rick L,Tarleton Jessica Kissinger.Parasite genomics:current status and future prospects[J]. Current Opinion in Immunology,2001,13(4):395-402.

[16] David A,Johnston Mark L.Genomics and the biology of parasites[J]. BioEssays,2008,21(2):131-147

[17] Sara E,Melville Christiane,Neil Hall.Methods in Molecular Biology Parasite Genomics Protocols[M]. Humana Press,2004:

[18] Yvan Strahm,David Powell,Christophe Lefebvre.EST-PAC a web package for EST annotation and protein sequence prediction[J]. Source Code for Biology and Medicine,

2006,(1):2

[19] Samuel Karlin.Statistical signals in bioinformatics[J]. PNAS,2005,102(38):13355-13362.

[20] Sebastien Ribrioux,Adrian Brüngger.Bioinformatics prediction of overlapping frameshifted translation products in mammalian transcripts[J]. BMC Genomics,2008,9:122.

[21] Catherine H,Schein Ovidiu Ivanciuc,Werner Braun. Bioinformatics Approaches to Classifying Allergens and Predicting Cross-Reactivity[J]. Immunol Allergy Clin North Am,2007,27(1):1-27.

[22] Chua Kek Heng,Rofina Yasmin Othman.Bioinformatics in molecular immunology laboratories demonstrated:Modeling an anti-CMV scFv antibody[J]. Bioinformation,2006,1(4):118-120.

[23] Omar J,Jabado Sean Conlan P. Comprehensive viral oligonucleotide probe design using conserved protein regions[J]. Nucl Acid Res,2008,36(1):10.

[24] Wolstenholme,Adrian Bowman.Frontiers in parasite neurobiology:parasite genomics,neural signalling and new targets for control[J]. Invertebrate Neuroscience,2007,7(4):179-181.

[25] Walter H,Curioso Jacquelyn R,Hansen Patricia J. Evaluation of a joint Bioinformatics and Medical Informatics international course in Peru[J]. BMC Medical Education,2008,(8):1.


© 2024 实用范文网 | 联系我们: webmaster# 6400.net.cn