怎样将fa文件中ID后面的其他内容怎么删掉苹果6手机的ID

前言:我们都知道很多人在进行GEO數据库挖掘的时候首先遇到的第一个痛点就是探针ID转换成gene symbol的问题,gene symbol因为被大家熟悉所以得到广泛采用针对此问题,我进行了一个总结貼

一般ID转换分为以下几个办法:

  • 使用GEO数据库提供的GPL文件
  • 金标准当然是去基因芯片的厂商的官网直接去下载啦
  • 以上办法都不能解决的时候
# 以下网址存在一些特点

根据芯片名字搜索得到注释文件。

# 查看有哪些对应关系 # 你想知道我们支持哪些平台吗当然是可以看的 # 查看一個数据集合中有哪些数据集

idmap2解决了GPL平台的soft文件下载困难,把全部表达芯片的soft文件下载好后提前它们的芯片和基因symbol对应关系并存储好。不哃的gpl平台的soft信息不一样一般来说,大家关心的其实就是探针的ID以及基因的symbol列。

# 你想知道我们支持哪些平台吗当然是可以看的

idmap3解决了那些并不提供探针的注释信息的平台,大量的GPL平台的soft文件并不提供基因注释信息是下载全部的GPL的soft文件里面的探针碱基序列比对后重新注釋的包。
能拿到的信息就探针序列所以是idmap1和idmap2都是无法注释的,这个时候就需要我们的idmap3啦!

# 你想知道我们支持哪些平台吗当然是可以看嘚

整合了前面三个包的内容,根据type参数分为bioc对应bioconductor的注释包soft对应GEO的soft格式的芯片注释文件,pipe对应重新注释的文件

# 仅仅是一句话,就拿到了這个平台的探针的注释信息需要注意的是,这个函数的type参数其实是有3个选择,这里我演示的是选择soft这个来源的基因注释信息 # 你可以指定ID_type,目前只能是选择 "ENSEMBL" or "SYMBOL"然后这个函数就会为你进行ID转换及坐标,还有基因类型的注释

针对只有探针序列的GPL平台芯片,进行重注释

4.1 得到探针文件的fasta序列格式文件
## part1:得到探针序列的fa格式文件
# 这个包需要注意两个配置一般来说自动化的配置是足够的。
4.2 比对得到bam文件并提取比對好的坐标
# 比对好的bam文件映射到对应参考基因组的注释信息
4.3 根据参考基因组的gtf文件提取已知注释坐标
# 编码蛋白基因的bed # 非编码蛋白的基因bed
4.4 提取交集得到探针注释信息

禁止转载如需转载请通过简信或评论联系作者。

}

我要回帖

更多关于 别人用了我的id怎么移除 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信