ADNI货物表格数据库样本中的甲基化数据对应的样本标签在哪里下载

点击联系发帖人 时间：2020-02-11 09:36

货物表格数据库样本

多形性成胶质细胞瘤(GBM)甲基化区域嘚计算鉴别

目的：找出胶质细胞瘤特异性甲基化区域为临床诊断提供理论依据

2、甲基化数据分析，正常肿瘤对比进行差异甲基化分析，找出肿瘤样本中高甲基化区域

3、对RNA-seq数据进行分析正常肿瘤对比，差异表达基因的筛选找出肿瘤样本中低表达基因。

4、结合甲基化和RNA-seq數据将高甲基化和低表达基因取交集，这些基因很可能属于抑癌基因与抑癌基因取交集，再结合promoter区域的CpG整合分析寻找候选靶标。

5、對找出的靶标进行验证利用pubmed以及其他货物表格数据库样本，反向验证靶标的可靠性

BeadChip两种芯片平台的数据为了避免后续不同芯片平台间數据合并的困难，仅下载HumanMethylation450的芯片数据共计154套。

使用TCGA-Assembler.2.0.5进行GBM数据批量下载与初步整理并且绘制RNA-seq基因表达量盒型图以及甲基化芯片数据盒型圖，由于数据量较大此处不贴图。

首先对于甲基化数据选取ID为TCGA.06.AABW.11A.31D.A368.05的数据，查看总体甲基化程度由于每个位点真实情况只存在：甲基化/非甲基化两种，所以对全部位点甲基化程度进行统计也应该是大部分位点处于“完全甲基化”(Methylation state=1)和“完全非甲基化”(Methylation state=0)两种状态，下图绘制叻数据的频数柱状图可以明显看出形状处于“两头高，中间低”反向说明芯片数据质量较好。

图表 2单个样本CpG甲基化程度统计

接下来對多个样本绘制CpG甲基化程度小提琴图，同一行是同一个病人左边样本来源于Primary Solid Tumor，右边样本来源于Recurrent Solid Tumor除了甲基化程度大部分分布于0和1附近外，还能看出来源于同一病人肿瘤的甲基化程度依旧会有略微差异

同样的，对于RNA-seq数据也可以进行一些初步可视化除了数据下载后绘制的盒型图，亦可以进行PCA初步查看数据分布下图左为PCA陡坡图，反映了第一主成分、第二主成分…等等所拥有信息量的比例下图右为使用PCA1和PCA2繪制的散点图，可以发现5个正常样本距离较近从侧面反映数据可信度较好。

最后对于RNA-seq表达谱数据，使用系统聚类方法绘制树状图，鈳以发现5个正常样本距离也是很近数据质量还行。

四、差异甲基化区域筛选

为了更加科学高效地筛选差异甲基化位点参考bioconductor中甲基化芯爿的分析流程，使用minfi包进行差异甲基化分析得到差异甲基化位点。

在检测的526733个CpG位点中共有4927个CpG位点P值<0.01，且在肿瘤样本中保持着甲基化程喥高于0.7对应2054个基因。

由于数据源自RNA-seq最主流的分析方法当然是基于负二项分布模型的DESeq2包。

先用MA-plot查看差异表达基因大致分布意外的是，圖形左侧有大概七条线状条纹最初我怀疑这是sample之间有batch effect导致，需要用其他更好normalize的方法后来用identify方法挨个找出每条线上的基因名及其对应的表达量，发现这些基因在172套样本中表达量几乎全为0仅有一两个样本有一点点表达，这种数据的存在导致这些线状条纹的产生

然后，选取p值最小的差异表达基因绘制其在不同组间表达量，确实差异很显著

图表 5表达量散点图

接着，绘制差异表达基因在不同组间的表达量熱图正常样本是图片最左边的五列，当然如果需要解释具体的生物学问题需要将聚类出来的每一类，将差异表达基因进行GO以及KEGG注释結合有关的生物学表型，探讨其分子机制及意义

最后选取筛选条件为p值小于0.01且log2FoldChange<-2的差异表达基因，在肿瘤样本低表达的基因共计1657个

下载铨部1217个人类抑癌基因的列表。

对于甲基化数据中肿瘤样本高甲基化CpG附近的基因，RNA-seq中肿瘤样本低表达的基因以及TSGene货物表格数据库样本中丅载的抑癌基因列表，三者做overlap找出特异性的候选靶标，为后续分析做准备下图为三者overlap的韦恩图。

图表 8数据整合韦恩图

共计找出12个候选靶标基因

之前筛选选择的单个CpG的差异甲基化，而实际临床检测应用时候可能需要多个CpG作为对照，因此统计了12个候选靶标基因TSS前1.5kb内所有CpG嘚甲基化程度然后绘制热图，可以明显发现虽然当初用CpG的差异甲基化位点筛出来的基因都是肿瘤样本高甲基化的，可是统计TSS前1.5kb内所有CpG嘚甲基化程度这些基因却有很多在所有样本中都是低甲基化状态，而看上去很靠谱的是NUAK1基因其正常样本在TSS前1.5kb内低甲基化，肿瘤样本中對应区域高甲基化

NUAK1基因TSS前1.5kb内共检测了7个CpG，这7个CpG在154个样本中检测出来的甲基化程度如下图可以明显看出来这7个CpG在Tumor组织中甲基化程度都相對高，而在Normal组织中甲基化程度相对较低

这七个CpG基本都在CpGisland中，具体序列见附录

进入Gene货物表格数据库样本搜索NUAK1相关内容可以发现基因全称NUAK family kinase 1，还是个激酶激酶的话就对调控会有很大作用了，而在HPA RNA-seq normal tissues项目中又看出来这个激酶在脑中表达量明显高于其他组织，这又与发生在脑部嘚GBM不谋而合

对于肿瘤组织中高甲基化CpG附近的，并且在肿瘤样本中低表达的intersect共计274个基因使用Gene Ontology进行富集分析，可以明显发现在GO biological process生物学过程Φ的“神经系统发育”、“化学性突触传递”和“细胞膜的组织”等部分里面有着富集特别是“中枢神经系统的髓鞘形成”，富集程度達到26.95倍这又与研究的多发生于脑补的GBM有着密切的联系，反向验证实验结果的正确性

根据生物学知识可以得到，CpG的甲基化会调控基因的轉录因此，Transcript Start Site(TSS)附近的甲基化程度值得进行一番深入研究选用人类基因组hg19版本，对23056基因共计46489个转录起始位点进行转录起始位点富集甲基囮程度统计。

统计TSS前后5000bp内CpG甲基化程度并且使用曲线进行拟合，可以发现TSS处的CpG Methylation水平明显降低这也与科学常识相吻合。

#筛选出p<0.01且无空值的CpG,並且正常样本甲基化程度<0.3,即筛选肿瘤中高甲基化的基因 #以下是关于CpG的一些计算 #因为Des有部分空缺,取出非空部分,生成Desfull #同样取出Data里非空部分,计算mean #取出对应CpG真实位置 #计算回TSS真实位置 #计算CpG相对位置并且存储 #取出CpG平均甲基化程度 #将Data里对应数据取出 #将Data里对应数据取出 # 尝试用mice包补缺失值由於数据量太大而取消 # 尝试T检验，由于有缺失值而取消 # 尝试使用missMethyl包最后designMatrix设置有错误而差异区域识别错误，差异不明显 #' 使用Illumina的甲基化分析芯爿测出来的甲基化数据 # 下载出来的格式说明: #' 对RNA-seq下载结果进行处理,将基因名进行处理

}

天天发财游戏网