诺禾致源

 > 

科技服务

 > 

基因组测序

基因组组装

  • 三代测序组装策略

三代测序技术具有测序读长长、测序速度快、无GC偏好等优势,诺禾致源团队研发出针对三代数据的组装流程,极大的提升了三代数据组装的运算效率,
并且HiFi结合Hic,Ultra long ONT等新技术,能够得到单体型基因组、近完成图基因组,甚至获得完美基因组级别的基因组序列图谱。

基因组组装

  • 组装结果评估

  • 1. 序列一致性评估

    在为了评估组装的准确性,选取一定量的测序数据与组装基因组比对,统计reads的比对率、覆盖基因组的程度以及深分布情况,由此评估组装的效果。
  • 2. GC含量分析

    组装的基因序列计算其GC含量和平均深度,根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。
  • 3. BUSCO评估

    BUSCO(Benchmarking Universal Single-Copy Orthologs:http://busco.ezlab.org/)评估是使用单拷贝直系同源基因库,结合tblastn、augustus 和hmmer 等软件对组装得到的基因组进行评估,以此评估组装基因组的完整性。

基因组注释

  • 注释流程

基因组注释主要包括四个方面:重复序列注释、基因结构注释、基因功能注释、非编码RNA注释。
重复序列注释方法分为同源序列比对和从头预测两类;基因结构预测通常会结合多种预测方法,
主要有同源预测、de novo 预测和其他证据支持的预测;基因功能注释是将基因结构注释得到的基因集,
利用比对软件与已知蛋白数据库比对,得到基因的功能信息;非编码RNA的注释包括tRNA、rRNA、miRNA和
snRNA注释,各个方面的注释结果都可以以数据统计或图像的形式体现出来。
  • 1. 重复序列注释

    重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类,分别用de novo 预测和同源预测的方法对基因组进行repeat注释。
  • 2. 基因结构注释

    基因结构de novo 预测中用于比对的同源物种包括多个物种,可以预测多种元件情况。
  • 3. 基因功能注释

    将基因结构注释得到的基因集与已知蛋白数据库比对,得到基因的功能信息。常用的蛋白数据库有SwissProt,TrEMBL,KEGG,Go和InterPro”配表如下:
    Number Percent(%)
    Total 28355 -
    InterPro 18417 64.951508
    KEGG 18670 65.843767
    Swissprot 21329 75.221301
    TrEMBL 22920 80.832305
    GO 14767 52.078998
    Annotated 23045 81.273144
    Unanotated 5310 18.726856
  • 4. 非编码RNA(ncRNA)注释

    非编码RNA,指不翻译蛋白质的RNA,如rRNA、tRNA等,这些RNA都具有重要的生物学功能。通过与已知ncRNA库进行比对得到基因组的ncRNA信息(统计结果如下表)。
    Type Copy(w) Average length(bp) Total length(bp) % of genome
    miRNA 536 139.341417910448 74687 0.001834
    tRNA 1238 75.218901453958 93121 0.002287
    rRNA rRNA 6758 186.523527670909 1260526 0.030954
    18S 688 871.928779069767 599887 0.014731
    28S 572 121.784965034965 69661 0.001711
    5.8S 275 125.298181818182 34457 0.000846
    5S 5223 106.551981619759 556521 0.013666
    snRNA snRNA 381 118.968503937008 45327 0.001113
    CD-box 99 107.060606060606 10599 0.000260
    HACA-box 19 135.631578947368 2577 0.000063
    splicing 263 122.247148288973 32151 0.000790

生物学分析

  • 1. 基因家族分析

    基于基因家族聚类的结果,鉴定物种特有的基因或者基因家族;发生显著扩增/收缩的基因家族;重要基因家族深入分析等(下图 左)。
  • 2. 系统进化分析

    构建物种进化树,在全基因组水平上评估物种间进化关系;探讨整体进化地位和物种起源问题,估算与其他近缘物种之间的分化时间。
  • 3. 正选择分析

    通过自然选择某些有利的基因被固定下来,受到了正选择的基因,往往在该物种对环境的适应性方面有重要作用,全基因组测序能充分挖掘正选择基因。
  • 4. 共线性分析

    根据重复基因的进化动态或基因组共线性分析,追溯古老的基因组重复事件;根据染色体共线性关系,追溯染色体进化历史,如重排、融合(下图 右)。

生物学分析—个性化分析

全基因组测序完成后不仅可进行常规标准分析,还可针对所研究物种的个性化生物学问题进行分析,针对某一类或特定一个物种的自身特点,结合转录组、重测序信息展开深入分析。如对金丝猴基因组的分析,对其植食性机制进行了深入研究;对于藏猪基因组分析,重点探讨了藏猪基因组中与高原适应性相关基因。这些方面与物种的独特生物学特征息息相关,一些生物学亮点也成为全基因组测序的研究重点。

Copyright@2011-2024 All Rights Reserved    版权所有:北京诺禾致源科技股份有限公司    京ICP备15007085号-1

一对一业务咨询

一对一业务咨询

在线客服

联系方式

联系电话

400-658-1585

企业邮箱

service@novogene.com
返回顶部