如此多的数据——西班牙研究人员开发了Bioteque来汇集生物知识

2022年9月15日- 3分钟
图片/伤风

世界各地正在进行大量的研究,这意味着大量的数据。

在个人层面上,我们已经看到计算机硬盘的内存不断地跳跃,以跟上所有信息、更大的图像等等的步伐。许多人都有1TB (tb)或2TB存储空间的外部驱动器。

为了显示问题的严重性,欧洲生物信息学研究所(EMBL-EBI),在短短6年时间里,它就从管理40拍字节的容量发展到处理250拍字节的容量。1拍字节是1024太字节,所以这相当于256,000个1TB的驱动器。

生物学和生物医学研究领域的不同学科(如基因组学、蛋白质组学和转录组学)在近几十年的快速发展导致了数量的指数增长生物数据可用。

关于巴塞罗那IRB的科学家开发的Bioteque

由ICREA研究员、巴塞罗那IRB结构生物信息学和网络生物学实验室负责人Patrick Aloy领导的科学家们开发了一种计算工具来协调、集成和简化这些数据。其结果是一个知识图谱,提供了关于不同生物实体如何相互关联的信息,包括超过3000万种功能相互作用。

Bioteque的工作原理是整合不同层次的生物复杂性,并可以报告,例如,两个相关的基因,它们是否在物理上相互作用,它们是否在同一类型的细胞中活跃,以及它们是否与同一种疾病有关。它还可以预测一种细胞对特定药物的敏感性或耐药性。

继续下面的内容

相关内容

“这计算资源我们开发的是第一个旨在统一生物信息的系统,也是唯一一个解决如此多样性和数据量的系统。它允许以一种简单和协调的方式访问几乎所有现有的生物学知识,它在加速生物医学研究方面具有巨大的潜力。”

12种生物实体的近1000个描述符

在Bioteque中保存的信息被结构化为12种生物实体,如基因、疾病、组织、细胞等。对于每一个实体,该工具考虑一系列描述符或特征,例如,基因突变的模式,产生的蛋白质的物理相互作用的概况,基因在不同细胞类型中的表达,或它与不同疾病的关系。在12种生物实体中,该系统涵盖了约1000种描述符。

“我们已经处理了来自150个不同数据库的信息,所以首先我们必须将它们整合起来,也就是说,将它们放在同一种“语言”中。然后我们将这些知识转化为可以被算法解释的数字描述符,这样我们就可以在计算上利用这些网络和连接,”该文章的第一作者、同一实验室的博士生Adrià Fernández说。

随着新数据库的公开,Bioteque将定期使用新数据库进行扩展。这两个工具、数据库和算法开放获取。

你可能会对以下内容感兴趣:

Baidu
map