精准医学大数据管理和共享技术平台

项目来源

国家重点研发计划(NKRD)

项目主持人

伯晓晨

项目受资助机构

中山大学

立项年度

2016

立项时间

未公开

项目编号

2016YFC0901604

研究期限

未知 / 未知

项目级别

国家级

受资助金额

500.00万元

学科

精准医学研究

学科代码

未公开

基金类别

精准医学研究重点专项

关键词

精准医学 ; 大数据 ; 整合 ; 注释 ; 工作流 ; 数据分析挖掘 ; Precision medicine ; big data ; integration ; annotation ; workflow ; data analysis and mining

参与者

李伟忠;谢志

参与机构

上海生物信息技术研究中心

项目标书摘要:本课题目标是面向精准医学数据共享和分析需要,整合精准医学数据与分子生物学基础数据,开发用于高效注释精准医学生命组学数据与临床信息的软件工作流,建立一套自动、无缝、高效的生命组学大数据与临床信息整合、注释系统。生命组学数据工具研发方面,本课题建成了蛋白组学数据的迭代检索方法和宏基因组反向检索方案,发明了基因测序数据压缩算法 Leon-RC 和基因变异数据 GDS-Huffman 算法,以及多序列比对的图像可视化方法,满足了组学大数据的检索、压缩和分析的需求。组学大数据注释与分析工作流建设方面,本课题建立了多个组学与临床数据注释和分析软件流程,同时建成了Preci工作流平台系统以及整合的微生物组学数据分析云平台iMAC,满足了用户更好地使用大数据工作流分析数据的需求。针对面向疾病的组学数据注释,我们构建了组学数据与疾病关联的数据库群,包括微生物组与疾病表型数据库、非编码RNA与疾病表型关联数据库、非编码基因变异与疾病关联数据库,为组学数据面向人类疾病的注释提供了新范本。课题建立的工作流、分析系统、算法和数据库群为医学问题的研究提供了生物信息手段,促进了相关医学大数据的共享和研究。

Application Abstract: The goal of this project was to meet the needs of data sharing and analysis for precision medicine.The tasks included integrating precision medicine data and molecular biology data,developing automatic and efficient analysis workflows,and establishing an automatic,seamless,and efficient integration and annotation system for life omics data and clinical information.In terms of the development of life omics data tools,this project has built an iterative remote search method for proteomics data and a reverse search for metagenomics data,and invented the compression algorithms(such as Leon-RC for NGS data and GDS-Huffman for gene variation data)and a visualization method for multiple sequence alignment.These tools met the needs of omics big data retrieval,compression and analysis.Regarding the construction of omics big data annotation and analysis workflow,we have established a number of omic and clinical data annotation and analysis workflows,and built the Preci workflow platform and the integrated microbiome analysis cloud platform(iMAC).These platform systems met the needs of users to better use the data analysis workflows.For disease-oriented data annotation,this study has constructed a database warehouse of omics data with disease association,including the microbiome and disease phenotype database(MicroPhenoDB),the noncoding RNA and disease phenotype database(ncrPheno),and the noncoding gene variation and disease association database(ncRNAVar).These databases provided an innovative model for human disease-oriented annotation of omics data.The workflows,the analysis platforms,the novel algorithms,and the multiple databases established by this project have provided the bioinformatics means for biomedical research,and promoted the sharing and research of precision medicine big data.

项目受资助省

广东省

  • 排序方式:
  • 1
  • /
  • 1.基于特征关联的特征识别与推荐算法研究

    • 关键词:
    • 特征识别;特征关联;推荐算法;深度学习;隐式反馈
    • 孙明瑞
    • 指导老师:哈尔滨工业大学 臧天仪
    • 学位论文

    随着物联网的发展和大数据时代的到来,数据爆炸式增长导致信息过载等问题,使传统的推荐系统逐渐转型为个性化推荐系统。个性化推荐算法通过构建用户画像和预测用户行为来提供信息过滤和推荐服务。在以大数据为背景下的推荐系统中,领域推荐技术的数据构成日趋复杂,呈现出海量异构数据、数据特征缺失、数据特征异常和数据特征关联等新特征。这些特征从问题规模、特征缺失程度、异常特征状态和关联关系等方面对推荐算法提出了新的需求和挑战。为此,本文开展基于特征关联的特征识别、预测与推荐算法研究。主要包含以下几个方面:(1)特征关系的分类关联规则启发式挖掘算法与特征匹配算法。基于海量数据隐藏的关联关系,重点研究面向推荐算法的数据本身隐式的分类关联规则。引入分类及连续的数据特征属性并离散化,扩展数据特征的二元表示,确保数据特征属性的多样性。为了挖掘数据中某些关联特征,研究基于最小支持度的启发式特征挖掘方法,发现关联特征的频繁性及构建最优特征子集。基于数据特征频繁项,研究基于最小置信度的启发式分类关联规则挖掘算法,为不同情景模式下,进行基于分类关联规则的特征匹配。利用机器学习库中健康医疗情景实验数据进行实验验证与分析,验证了提出算法的有效性。(2)隐式反馈特征识别与预测算法。针对应用领域数据特征稀疏性和缺失性问题,系统地研究领域中数据缺失特征的识别与预测分类问题。在系统地分析领域数据特征缺失基础上,研究基于加权用户的协同过滤特征识别方法。通过有监督学习向无监督学习的转变,研究推荐系统特征属性间隐式关联关系的特征识别方法。研究基于隐式特征提取的隐式反馈协同过滤特征识别与预测算法,通过随机创建的数据特征缺失程度模拟真实环境数据特征缺失情况,实验验证算法的有效性。利用机器学习库中健康医疗情景实验数据进行实验验证与分析,验证了提出算法的有效性和预测准确率。(3)数据异常特征识别与预测算法。针对只关注于离散数据特征的局限性,研究基于连续属性时间序列数据相互依赖关联的特征识别算法,以此进行异常特征识别与预测。研究基于深度学习网络模型的连续时间序列数据的特征识别方法,通过复杂的图模式进行数据降维,以及时频序列数据分析,形成深层次的数据时序关联关系与异常特征识别模型,以此改善预测结果的有效性。利用脑电图健康医疗情景实验数据进行实验验证与分析,验证了提出算法的有效性和预测准确率。(4)面向领域的级联加权混合个性化推荐方法。针对特定领域推荐需求,研究不同情境模式下的混合推荐方法,面向领域的研究问题抽象成为本体推荐项目的个性化推荐过程。构建用户特征信息模型画像,采用分类树和内容相似度的相似用户发现算法发现相似用户,并基于关联规则的特征匹配算法加权计算得到推荐方案。针对推荐算法冷启动问题,研究基于领域知识分类树的相似用户发现算法,采用离线计算方法提高效率。基于多用户的层次分析决策推荐形式化方法进行决策推荐,改善用户的满意度和推荐效果。中风患者实际健康医疗实验数据进行实验验证与算法比较,验证了本文混合推荐算法的有效性。

    ...
  • 排序方式:
  • 1
  • /