兴发娱乐

国家基因组科学数据中心

一、中心建设及定位

国家基因组科学数据中心(National Genomics Data Center,简称NGDC)于2019年6月经科技部、财务部通知宣布,由兴发娱乐(国家生物信息中心)作为依托单位,团结兴发娱乐生物物理研究所和兴发娱乐上海营养与康健研究所配合建设 。中心面向我国生齿康健和社会可一连生长的重大战略需求,建设生命与康健大数据汇交存储、清静治理、开放共享与整合挖掘研究系统,研发大数据前沿交织与转化应用的新要领和新手艺,建设支持我国生命科学生长、国际领先的基因组科学数据中心 。

兴发娱乐·(中国)官网登录入口

中心定位与目的

二、中心运行机制与组成

中心主任:鲍一明研究员

中心副主任:章张研究员、赵文明正高级工程师(任期至2023年11月)、宋述慧研究员(2023年11月至今)

事情团队:组学原始数据归档库、基因组数据库、基因组变异数据库、基因表达数据库、表观基因组数据库、非编码RNA数据库、精准医学知识库、生物信息工具库和系统运维部等 。

兴发娱乐·(中国)官网登录入口

中心整体照

三、年度主要科研希望

1.?多组学数据资源系统一连拓展和更新

国家基因组科学数据中心一连拓展和更新多组学数据资源系统 。2023年重点增强多组学数据整合、知识融合、新库开发,以及焦点数据库升级 。其中,新开发了多个数据库,包括原生生物(P10K)、细菌(NTM-DB, MPA)、植物(PPGR, SoyOmics, PlantPan)和疾病/性状关联(CROST, HervD Atlas, HALL, MACdb, BioKA, RePoS, PGG.SV, NAFLDkb)等数据资源 。阻止2023年12月尾,已支持种种科技项目17,000多个,汇交数据量达40PB,相关数据已在572种海内外期刊的3,000多篇文章揭晓,为国家基因组科学数据的汇交共享、清静治理和挖掘使用提供了主要支持 。数据库建设整体情形以“Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2024”为题在Nucleic Acids Research?在线揭晓 。

兴发娱乐·(中国)官网登录入口

国家基因组科学数据中心多组学数据资源系统

2.?GSA数据库入选全球焦点生物数据资源

2023年12月11日,国家基因组科学数据中心建设的组学原始数据归档库(Genome Sequence Archive, GSA)乐成入选由国际生物数据同盟(Global Biodata Coalition, GBC)提倡的全球焦点生物数据资源(Global Core Biodata Resource, GCBR) 。GCBR现收录52个国际数据库,GSA是我国现在唯一入选的数据库 。作为生命组学原始测序数据汇交、存储、治理和共享的公益性数据库,GSA旨在推动全球生命组学数据的共享与应用 。此次入选GCBR有利于增进我国生命科学组学数据的统一治理与开放共享,推动与国际社会的深度交流相助,并加速我国在大数据时代的生命科学研究历程 。

兴发娱乐·(中国)官网登录入口

GSA入选GCBR

3.?全球生物数据库目录Database Commons入选2022年度“中国生物信息学十大希望”

生物数据库作为全球种种生命科学研究的基础支持,极大增进了大数据向知识的转化,并推动了众多研究领域的主要立异 。NGDC自2015年起建设全球生物数据库目录Database Commons,团结海内外多家科研机构,一连开展数据积累和功效完善 。阻止2023年底,已审编收录76个国家/地区2,142家机构宣布的6,380个数据库 。同时,立异设计了z-index用于评估数据库的科学影响,并凭证数据库文章引用和z-index对生物数据库及其隶属机构和国家举行排名 。Database Commons提供了全球生物数据库的系列统计数据和趋势,为更好地相识数据库生长态势及其对生命康健科学的影响提供全球视角 。该效果以“Database Commons: a catalog of worldwide biological databases”为题在?Genomics Proteomics Bioinformatics?在线揭晓,并入选2022年度“中国生物信息学十大希望” 。

兴发娱乐·(中国)官网登录入口

Database Commons入选2022年度“中国生物信息学十大希望”

4.宣布基因序列数据库GenBase

基因的序列和注释信息(包括DNA、RNA和卵白序列信息)是支持基因功效研究的焦点基础数据之一 。为包管我国基因序列数据的主权和清静,知足我国科研职员在基因序列数据汇交、治理和共享历程中的现实需求,NGDC开发了基因序列数据库GenBase,于2023年3月正式上线,为用户提供基因序列数据汇交共享和盘问下载效劳 。GenBase对标美国国家生物信息中心NCBI的GenBank数据库,驻足中国,效劳全球,可吸收来自全球科研职员的数据提交,并且通过数据交流机制实现与GenBank的无缝共享 。

兴发娱乐·(中国)官网登录入口

GenBase网站页面

5.2019新冠病毒信息库(RCoV19)一连升级更新

2023年RCoV19进一步升级,开发了全自动化的数据智能审编模子和数据共享页面,建设了基因组快速变异剖析流程、单倍型网络演化构建算法以及基于机械学习的高危害株系预警模子,开发了新冠病毒撒播演化实时监测平台、高危害变异株预警可视化系统和交互式突变谱快速比对功效?,实现了新冠病毒基因组序列、变异和演化支系的可视化动态监测,高危害变异株的及早预警,以及主要序列或谱系的变异特征纪律剖析,成为集新冠病毒基因组数据自动整合、变异监测、危害预警和突变效应知识于一体的全链条综合性平台 。阻止2023年12月25日,RCoV19已收录新冠病毒序列超1,700万条,为全球182个国家/地区400多万名访客提供数据效劳,累计数据下载达190多亿条 。该效果以“RCoV19: a one-stop hub for SARS-CoV-2 genome data integration, variant monitoring, and risk pre-warning”为题在Genomics Proteomics Bioinformatics 在线揭晓 。

兴发娱乐·(中国)官网登录入口

RCoV19一站式平台

6.开发人类癌症代谢物关联知识库MACdb

随着代谢组学研究的生长,针对差别癌症类型、基因组异常、药物反应评估的代谢物关联关系已被普遍报道 。MACdb是一个基于人工审编的知识库,用于收录代谢产品与癌症之间的关联关系 。现在已整合基于269个癌症特征的40,710个关联关系,涵盖17类高发病率或高殒命率的癌症,是目今涵盖癌症类型最全的癌症—代谢物关联知识库 。MACdb提供直观的浏览功效及多维度关联检索,通过知识图谱实现对癌症、特征和代谢产品间整体情形的展示 。别的,NameToCid和Enrichment工具可用于标准化代谢物及富集代谢产品与种种癌症类型和特征的关联 。该效果以“MACdb: a curated knowledgebase for metabolic associations across human cancers”为题于2023年7月在Molecular Cancer Research正式揭晓,并被选为该刊当期封面故事 。

兴发娱乐·(中国)官网登录入口

MACdb知识库入选MCR期刊封面故事

7.开发人类内源性逆转录病毒相关疾病知识库HervD Atlas

人内源性逆转录病毒(HERVs)是远古时期外源性逆转录病毒熏染宿主生殖细胞或胚胎干细胞并整合到人类基因组上的前病毒序列,近年研究批注其在正常心理和病理生长等主要生命历程中施展主要作用 。为此,NGDC与本所陈非团队相助开发了人类内源性逆转录病毒相关疾病知识库HervD Atlas,整合250多篇HERVs相关疾病研究文献数据,通过人工审编获得60,726条高质量的HERVs与疾病关联条目,涵盖21,790种HERVs,149种疾病和610个受影响基因 。该数据库系统整合HERVs、疾病和基因的关联信息,构建了交互式知识图谱,为关联知识整合及推断提供了界面友好的可视化平台 。该效果以“HervD Atlas: a curated knowledgebase of associations between human endogenous retroviruses and diseases”为题在Nucleic Acids Research?在线揭晓 。
?

兴发娱乐·(中国)官网登录入口

HervD Atlas概览

8.宣布生物标记物知识库BioKA

生物标记物(Biomarker)不但是诊断剖析生长、确定新药研发靶标的基础,也是培育新品种的基础,在个性化医疗、药物研发、临床照顾护士和分子育种等多个领域施展主要作用 。为此,NGDC开发了生物标记物知识库BioKA,从4,747篇文献中人工审编与整合了人和30个动物物种总共951个疾病/性状相关的16,296个生物标记物,并提供了经由标准化后的308个品种以及响应的生物标记物信息 。BioKA不但富厚了人类标记物信息,也填补了已有的生物标记物数据资源在动物疾病和动物分子育种方面的空缺 。该效果以“BioKA: a curated and integrated biomarker knowledgebase for animals”为题在Nucleic Acids Research 在线揭晓 。

9.开发空间转录组综合资源存储库CROST

随着空间转录组测序手艺的生长,空间转录组数据的激增急需一个用户友好的数据库系统,以便于轻松会见数据,并举行可视化和个性化剖析 。为此,NGDC与本所偏向东团队相助开发了空间转录组综合资源存储库CROST,应用标准化处置惩罚流程整合了182个高质量的空间转录组数据集,涵盖8个差别物种、35种组织类型和56种疾病的1,033个子数据集 。针对单个样本提供了周全的生物信息剖析,包括空间变异基因(SVG)剖析、细胞类型注释、空间相关性、空间共定位、通讯剖析和功效注释等 。CROST通过集成空间转录组、经典转录组、表观基因组和基因组的数据周全剖析了肿瘤相关SVG,是用户(尤其是临床医生)快速评估特定癌症类型中基因表达水平、甲基化水平、拷贝数变异以及预后的名贵工具 。该效果以“CROST: a comprehensive repository of spatial transcriptomics”为题在Nucleic Acids Research在线揭晓 。
?

兴发娱乐·(中国)官网登录入口

CROST概览

10.宣布开放生物医学影像存档库OBIA

生物医学影像数据中包括大宗的隐私信息,怎样构建生物医学影像数据治理平台,既包管数据隐私信息的清静,又能增进全球数据的共享,是当宿世物医学影像数据使用中急需解决的问题 。为此,NGDC与中国人民解放军总医院第七医学中心相助开发了开放生物医学影像存档库OBIA,向海内外科研职员提供医学影像数据递交、归档、宣布与共享的公共效劳 。为包管影像数据中隐私信息的清静,OBIA制订了统一的去识别和质量控制流程,并设置了开放会见和受控会见两种差别类型的数据会见战略 。现在OBIA收录的影像数据包括子宫内膜癌、卵巢癌和宫颈癌三大妇科肿瘤,来自4,136项研究的937个个体,包括24,701个系列和1,938,309幅影像,涵盖了9种模态和30个剖解部位 。该效果以“OBIA: an open biomedical imaging archive”为题在 Genomics Proteomics Bioinformatics 在线揭晓 。

11.开发大豆多维组学数据库SoyOmics

高通量测序手艺的生长促使大豆组学研究一直深入 。实现大豆多维组学数据的整合剖析,将为大豆遗传育种提供有力支持 。为此,NGDC与兴发娱乐遗传发育所田志喜团队相助开发了大豆多维组学数据库SoyOmics 。该库现在收录了27个大豆品系的重新组装基因组数据,并对响应基因组信息举行了周全的基因组注释,从基因组、变异组、转录组、表型组等差别层面整合了大豆相关数据集,实现了差别条理组学数据的交互盘问和团结较量剖析,为大豆遗传学及育种研究提供基础数据支持和全新的视察视角 。该效果以“SoyOmics: a deeply integrated database on soybean multi-omics”为题在Molecular Plant?在线揭晓 。

12.宣布热带作物组学数据库TCOD

测序手艺的飞速生长推动了热带作物研究领域里程碑式的生长,积累了海量的多组学数据,然而,大宗的数据疏散在差别的数据中心或网站,给数据使用带来了未便,亟需开发一个综合数据整合与共享平台 。为此,NGDC与海南大学王文泉团队等相助开发了热带作物组学数据库TCOD(Tropical Crop Omics Database) 。现在TCOD已整合15种热带作物的基因组、变异组、转录组和品种数据,以基由于桥梁关联多种组学数据,为用户提供便捷的数据浏览、检索和下载等效劳 。TCOD不但提供了物种间的同源基因关系用于跨物种功效探索,还提供了一系列在线工具用于数据挖掘,为热带作物选择育种和性状改良研究提供支持 。该效果以“TCOD: an integrated resource for tropical crops”为题于2023年10月在Nucleic Acids Research 在线揭晓 。

兴发娱乐·(中国)官网登录入口

 TCOD数据库概览

13.开发多年生木本植物基因组与调控信息库PPGR

多年生木本植物是林业作物中主要的植物类群,其生命周期长,基因组大且杂合度高,具有奇异的心理代谢途径和胁迫对抗特征 。周全整合多年生木本植物组学数据资源,建设系统的遗传调控网络,关于剖析该植物类群的要害生物学历程和奇异性状具有主要意义 。为此,NGDC与北京林业大学谢剑波团队相助开发了多年生木本植物基因组与调控信息库PPGR 。该信息库是首个专注于多年生木本植物的在线资源平台,现在已整合60种主要多年生木本植物的基因组数据,应用标准化流程剖析了9,016个植物转录组样本,判断了107,344个转录因子、10,263个抗病基因以及53,829个水平转移基因,系统构建了多维基因调控网络,将为林木基因组学和基因调控研究领域科研突破和发明提供强盛的数据支持和信息包管 。该效果以“PPGR: a comprehensive perennial plant genomes and regulation database”为题在Nucleic Acids Research在线揭晓 。

14.开发植物图像及相关性状开放归档库OPIA

随着高通量植物表型收罗手艺在植物表型组学研究中的普遍应用,爆发了大宗的图像和基于图像的性状数据,这些数据是种质筛选、植物病虫害判断、农艺性状挖掘等应用的主要资源 。为此,NGDC与兴发娱乐遗传发育所胡伟娟团队相助开发了植物图像及相关性状开放归档库OPIA,为海内外科研职员提供植物图像及相关性状数据递交与共享的公共效劳 。OPIA接纳标准化人工审编流程整合了56个高质量的植物图像数据集,涵盖11个物种、6种组织类型,总计566,225张图像、2,417,186个注释实例 。通过对来自差别传感器类型的图像样本及响应标签数据的运用,有利于增进研究职员进一步提高智能展望要领的精度,展现植物生长的动态纪律,进而推动全球植物表型组学领域的立异和生长 。该效果以“OPIA: an open archive of plant images and related phenotypic traits”为题在Nucleic Acids Research在线揭晓 。

兴发娱乐·(中国)官网登录入口

OPIA功效概览

四、获奖与声誉

国家基因组科学数据中心荣获2023年北京市向阳区“最美科技立异团队”

全球生物数据库目录Database Commons入选2022年度“中国生物信息学十大希望”

鲍一明研究员荣获“天下归侨侨眷先进小我私家”

赵文明正高级工程师荣获“兴发娱乐优异党务事情者”

马利娜副研究员荣获2023年度兴发娱乐青促会优异会员

陈梅丽高级工程师入选2023年度兴发娱乐手艺支持人才

2023年度研究生国家奖学金:宗文婷、麦嘉琳

2023年度兴发娱乐朱李月华优异博士生奖:李昭

附件下载:
【网站地图】【sitemap】