坐在坟头训鬼

欢迎访问我的个人站点

DESeq2的建模原理及简单用法

DESeq2的差异表达分析步骤

具体步骤参见下面流程图中的蓝色部分:

avatar

简单地说,DESeq2将对原始reads进行建模,使用标准化因子(scale factor)来解释库深度的差异。然后,DESeq2估计基因的离散度,并缩小这些估计值以生成更准确的离散度估计,从而对reads count进行建模。最后,DESeq2拟合负二项分布的模型,并使用Wald检验或似然比检验进行假设检验。

为什么说DESeq2复杂呢?因为上一篇文章讲了七个步骤,也仅仅只是完成了这个流程图中Estimate size facors这一步。

在使用DESeq2进行基因表达差异分析之前,最重要的是明确我们的研究目的,了解数据中的变异来源。一旦我们了解了数据的主要变异来源,就可以在分析之前提前移除它们,或者通过将这些变量包含在统计模型的公式中对它们进行分析。

Read more »

RNA-seq中的那些统计学问题(一)为什么是负二项分布?

WHY SEQUENCING DATA IS MODELED AS NEGATIVE BINOMIAL

RNA-seq分析中的dispersion,你知道吗?

DESeq2的建模原理及简单用法

1. 转录组数据统计推断的难题

在RNA-seq中进行两组间的差异分析是最正常不过的了。

我们在其它实验中同样会遇到类似的分析,通常,我们可以用方差分析判定两组“分布”数据间是否存在显著差异。原理是:当组间方差大于组内方差(误差效应),并且统计学显著时,则认为组间处理是可以引起差异的。

有伙伴肯定要问,转录组数据到底有什么了不起的?它们为什么不能用我们熟悉的算法简单地进行计算?

其实统计学家也很无奈啊,看看我们转录组实验得到的这些数据吧:我们的实验只进行少得可怜的生物学重复(n<10),而且,任何基因的表达量都不能是负数,这些数据并不符合正态分布,用于表征表达量的counts是非连续的(芯片信号是连续的),RNA-seq数据的离散通常是高度扭曲的,方差往往会大于均值……,就这些奇怪的特征,使得准确估计方差并没有想象的那么容易。

Read more »

loom 文件逐渐被广泛用于单细胞数据存储,Seurat Team 研发了 LoomR 包用于处理 loom 文件,并与 Seurat 包无缝接合。本文翻译了 Seurat 网站上对于 LoomR 包的介绍。原文发表于 2018-04-22。

关于 loom 文件

单细胞数据量越来越大,计算需求也以指数形式增长。Seurat Team 发现,尽管使用 sparse matrices, 对于分析 > 100,000 数目的细胞,也是一个严峻挑战,主要的困难是在内存中加载存储单细胞数据。HDF5数据格式可以解决这个问题,它不是在内存中存储数据,而是在硬盘上进行有效的数据存储,因而也适用于百万级的细胞数目。

Read more »

主要是 awk/grep/sed 这三驾马车,加上vi这个神器,最后辅助一些小工具,包括 wc,cat,diff,join,paste,cut,uniq

这里 简要地整理下 Linux 用来处理数据文本的工具。具体命令详情请在 Linux 命令大全中搜索或者查阅其他相关资料。

head, tail 查看文档头尾。 -n 选项可以指定行数。

less 用来查阅文档, q 退出, space bar 翻页, g 第一行, G 最后一行, j 下, k 上, /<pattern> 往下搜索模式, ?<pattern> 往上搜索模式, n 前一个匹配字符, N 后一个匹配字符。

Read more »

Linux 是一个多用户的操作系统。每个用户登录系统后,都会有一个专用的运行环境。 通常每个用户默认的环境都是相同的,这个默认环境实际上就是一组环境变量的定义。环境变量是全局的,设置好的环境变量可以被所有当前用户所运行的程序所使用。 用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。

环境变量有很多,需要重点理解的就是 PATH

比如说:bwa软件就没有添加到环境变量,所以需要用全路径,指明使用电脑里面什么地方的bwa软件来做数据分析,而 samtools 我已经添加到环境变量了,所以可以直接调用。

Read more »

非常多的朋友在看我们公众号过往转录组,WES,等流程分享的时候发现很难理解我们的代码,其实就是缺乏shell脚本知识,那么这篇教程你就不容错过。

内容

  • 使用多个命令
  • 创建脚本文件
  • 显示消息
  • 使用变量
  • 输入输出重定向
  • 管道
  • 数学运算
  • 退出脚本
    Read more »

可以把 Linux 的学习过程分成6个阶段,一般来说,每个阶段都需要至少一天以上的学习:

  • 第1阶段:把linux系统玩得跟 Windows 或者 MacOS 那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
  • 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep``这文本处理的三驾马车。
  • 第3阶段:元字符,通配符及 shell 中的各种扩展,从此 linux 操作不在神秘!
  • 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量
  • 第5阶段:任务提交及批处理,脚本编写解放你的双手
  • 第6阶段:软件安装及 conda 管理,让 linux 系统实用性放飞自我
    Read more »
0%