作为生命科学、计算机科学、统计学、数学交叉融合产生的新兴学科,生物信息学自诞生以来始终伴随着分子生物学技术与计算能力的迭代同步演进,其发展历程大致可以分为四个阶段:
第一阶段是20世纪50-70年代的萌芽孕育期。1953年沃森和克里克解析DNA双螺旋结构,奠定了分子生物学的研究基础,也让“生物遗传信息以序列形式存储”的认知成为共识。1965年美国生物学家玛格丽特·戴霍夫整理发布第一版《蛋白质序列与结构图谱》,构建了全球首个蛋白质序列数据库,首次将计算统计方法引入生物序列分析领域。这一阶段还没有形成明确的学科概念,核心是为后续生物信息学的发展完成思想和数据基础的积累。
第二阶段是20世纪80-90年代初的学科成型期。1977年桑格发明第一代DNA测序技术,完成了首个噬菌体全基因组测序,人类首次具备了读取生物遗传序列的能力。此后十余年间,Needleman-Wunsch全局比对算法、Smith-Waterman局部比对算法、FASTA序列比对工具、BLAST序列检索工具陆续问世,为序列分析提供了核心方法支撑。1982年GenBank核酸序列数据库正式上线,1986年SWISS-PROT人工注释蛋白质数据库发布,公共生物数据资源体系逐步建立。1990年人类基因组计划正式启动,同年“生物信息学”作为独立学科的术语被正式提出,学科边界和研究目标明确成型。
第三阶段是20世纪90年代末-2010年的爆发增长期。2001年人类基因组草图正式发表,标志着人类首次完成了自身遗传密码的全景读取,也成为生物信息学发展的核心里程碑。同期第二代高通量测序技术(NGS)成熟落地,测序成本以超摩尔定律的速度下降,生物数据量进入爆炸式增长阶段,直接带动了转录组、表观组、蛋白质组、代谢组、宏基因组等多组学研究的兴起。这一阶段Ensembl基因组浏览器、KEGG代谢通路数据库、GO基因本体论注释体系等工具陆续普及,生物信息学的应用场景也从基础序列分析拓展到疾病易感基因筛查、分子育种、病原微生物溯源等领域,成为生命科学研究不可或缺的基础支撑。
第四阶段是2010年至今的智能融合期。第三代长读长测序、单细胞测序、空间转录组等技术的突破,让生物数据的精度从组织水平推进到细胞甚至亚细胞水平,为解读生命的异质性和动态调控规律提供了可能。与此同时人工智能技术与生物信息学深度融合,2021年DeepMind推出的AlphaFold2实现了实验级精度的蛋白质结构预测,解决了困扰学界半个世纪的蛋白质折叠问题;此后基因组大模型、单细胞大模型、药物研发大模型陆续涌现,大幅提升了基因功能注释、靶点筛选、基因编辑脱靶预测等任务的效率。当前生物信息学已经深度嵌入精准医疗、合成生物学、新药研发等产业场景,成为连接基础研究和产业应用的关键枢纽。
纵观生物信息学的发展历程,本质是人类解读生命密码的工具不断升级的过程。未来随着测序技术、计算能力和AI算法的进一步突破,生物信息学还将朝着多组学跨维度整合、临床实时分析、跨物种演化研究等方向持续拓展,为生命科学领域的更多核心问题提供解决方案。
本文由AI大模型(Doubao-Seed-1.6)结合行业知识与创新视角深度思考后创作。