前言:我们都知道很多人在进行GEO數据库挖掘的时候首先遇到的第一个痛点就是探针ID转换成gene symbol的问题,gene symbol因为被大家熟悉所以得到广泛采用针对此问题,我进行了一个总结貼
一般ID转换分为以下几个办法:
- 使用GEO数据库提供的GPL文件
- 金标准当然是去基因芯片的厂商的官网直接去下载啦
- (以上办法都不能解决的时候)
# 以下网址存在一些特点
根据芯片名字搜索得到注释文件。
# 查看有哪些对应关系 # 你想知道我们支持哪些平台吗当然是可以看的 # 查看一個数据集合中有哪些数据集idmap2解决了GPL平台的soft文件下载困难,把全部表达芯片的soft文件下载好后提前它们的芯片和基因symbol对应关系并存储好。不哃的gpl平台的soft信息不一样一般来说,大家关心的其实就是探针的ID以及基因的symbol列。
# 你想知道我们支持哪些平台吗当然是可以看的
idmap3解决了那些并不提供探针的注释信息的平台,大量的GPL平台的soft文件并不提供基因注释信息是下载全部的GPL的soft文件里面的探针碱基序列比对后重新注釋的包。
能拿到的信息就探针序列所以是idmap1和idmap2都是无法注释的,这个时候就需要我们的idmap3啦!
整合了前面三个包的内容,根据type参数分为bioc对应bioconductor的注释包soft对应GEO的soft格式的芯片注释文件,pipe对应重新注释的文件
# 仅仅是一句话,就拿到了這个平台的探针的注释信息需要注意的是,这个函数的type参数其实是有3个选择,这里我演示的是选择soft这个来源的基因注释信息 # 你可以指定ID_type,目前只能是选择 "ENSEMBL" or "SYMBOL"然后这个函数就会为你进行ID转换及坐标,还有基因类型的注释
针对只有探针序列的GPL平台芯片,进行重注释
4.1 得到探针文件的fasta序列格式文件
## part1:得到探针序列的fa格式文件
# 这个包需要注意两个配置一般来说自动化的配置是足够的。