新闻中心

「SCI论文发表」RNA-seq数据初步分析(rnaseq数据分析流程简书)

2023-11-04
浏览次数:
返回列表

全套的转录组(RNA-seq)分析得从拿到一手的fastq测序文件开始,经过比对、注释、计数、差异分析、功能分析,最终得到一些可解释现象或者可指导实践的图表信息。但TCGA的测序原始数据一来是属于level1的,个人没有权限下载,二来,即便下载了,个人电脑估计连存都存不下,更别说分析了。这里,我直接从Firehose的level3数据入手,相当于已经对转录本(transcript)和基因(gene)都记好数了,重点看下如何做差异分析的。

关于如何下载TCGA数据,这个帖子已经讲得相当详细了,所以,我是遇到了就讲下,不再作系统赘述。

为啥用Firehose的数据呢?因为它已经把每种癌症的所有样本数据按数据种类合并到一个文件中去了,而GDC中是一个样本一个文件,我是个懒人,O(∩_∩)O~!Firehose提供了一个很简易的下载工具,firehose_get,网页上有安装方法和使用举例,这个需要电脑有linux系统,至少要有一个bash on windows。说句题外话,建议不知如何入门的新手们买本The Biostar Handbook, 100多元钱,完全物超所值,关键是其中包含手把手教你如何配置系统,如何装bash on windows,并一次性弄好生信分析常用的数十种软件,从此无忧!另外,个人推荐直接看英文版,完全是四级词汇,作者文笔风趣,何况,反正英语是躲不掉的,刚好拿这本书练练阅读,一举两得~

数据选择

一开始,本来是想探索一下癌组织和正常组织(tumor_matched_normal,简称TN)的基因差异化表达情况(differential expression,简称DE)

为了加快分析速度,所以选了在Firehose上排在第一位的ACC (Adrenocortical carcinoma,肾上腺皮质癌),因为只有区区92个样本,可下载完竟发现,其中并没有TN数据

原来并非所有癌症的RNA-seq数据都包括了TN样本,我对目前GDC中癌症RNA-seq数据做了个简单统计,见下图

本次分析,我选择了排第二,有412个样本的BLCA (Bladder urothelial carcinoma,膀胱尿路上皮)的RNA-seq数据。

如何区分癌组织、正常组织和对照组织样本,请参考TCGA barcode的解释,后面筛选数据时会用到。

数据下载

利用firehose_get下载,下载及安装前一讲已说过,在linux环境中,进入项目运行目录。

进入你自设的项目文件夹,然后就可以开始下载我们要的数据了。

firehose_get 使用方法,只需记住依次四个参数(arg)即可,参数不区分大小写,详情可以在命令行直接输入firehose_get

查看:

firehose_get [flags] RunType Date [disease_cohort, ... ][flags]:一般用-tasks,声明你要下载的数据类型,clinical?rnaseq?snp?等等RunType:声明数据处理级别,一般只用到两个,stddata代表level3,analyses代表level4Date:数据在firehose中的处理日期,一般都用最新的,latest[disease_cohort, ...]:声明要下载的癌症类型,诸如acc,blca等等

简言之,就是啥数据,啥级别,啥日子,啥肿瘤,多写几遍就OK了。

数据至此就下载完了,接下来的活就要在R中完成了。

我们可以写脚本,然后继续在linux中运行,也可行直接在RStudio中运行

搜索