DESeq2

Posted on 2022-10-09 Edited on 2023-12-22 In 生信软件

DESeq2的建模原理及简单用法

DESeq2的差异表达分析步骤

具体步骤参见下面流程图中的蓝色部分:

简单地说，DESeq2将对原始reads进行建模，使用标准化因子(scale factor)来解释库深度的差异。然后，DESeq2估计基因的离散度，并缩小这些估计值以生成更准确的离散度估计，从而对reads count进行建模。最后，DESeq2拟合负二项分布的模型，并使用Wald检验或似然比检验进行假设检验。

为什么说DESeq2复杂呢？因为上一篇文章讲了七个步骤，也仅仅只是完成了这个流程图中Estimate size facors这一步。

在使用DESeq2进行基因表达差异分析之前，最重要的是明确我们的研究目的，了解数据中的变异来源。一旦我们了解了数据的主要变异来源，就可以在分析之前提前移除它们，或者通过将这些变量包含在统计模型的公式中对它们进行分析。

RNAseq与负二项分布

Posted on 2022-09-24 Edited on 2023-12-22 In 生物统计学

RNA-seq中的那些统计学问题（一）为什么是负二项分布？

WHY SEQUENCING DATA IS MODELED AS NEGATIVE BINOMIAL

RNA-seq分析中的dispersion，你知道吗？

DESeq2的建模原理及简单用法

1. 转录组数据统计推断的难题

在RNA-seq中进行两组间的差异分析是最正常不过的了。

我们在其它实验中同样会遇到类似的分析，通常，我们可以用方差分析判定两组“分布”数据间是否存在显著差异。原理是：当组间方差大于组内方差（误差效应），并且统计学显著时，则认为组间处理是可以引起差异的。

有伙伴肯定要问，转录组数据到底有什么了不起的？它们为什么不能用我们熟悉的算法简单地进行计算？

其实统计学家也很无奈啊，看看我们转录组实验得到的这些数据吧：我们的实验只进行少得可怜的生物学重复（n<10），而且，任何基因的表达量都不能是负数，这些数据并不符合正态分布，用于表征表达量的counts是非连续的（芯片信号是连续的），RNA-seq数据的离散通常是高度扭曲的，方差往往会大于均值……，就这些奇怪的特征，使得准确估计方差并没有想象的那么容易。

LoomR

Posted on 2019-10-12 Edited on 2023-12-22 In 单细胞

loom 文件逐渐被广泛用于单细胞数据存储，Seurat Team 研发了 LoomR 包用于处理 loom 文件，并与 Seurat 包无缝接合。本文翻译了 Seurat 网站上对于 LoomR 包的介绍。原文发表于 2018-04-22。

关于 loom 文件

单细胞数据量越来越大，计算需求也以指数形式增长。Seurat Team 发现，尽管使用 sparse matrices，对于分析 > 100,000 数目的细胞，也是一个严峻挑战，主要的困难是在内存中加载存储单细胞数据。HDF5数据格式可以解决这个问题，它不是在内存中存储数据，而是在硬盘上进行有效的数据存储，因而也适用于百万级的细胞数目。

Shell：文本操作

Posted on 2019-10-09 Edited on 2023-12-22 In Linux

主要是 awk/grep/sed 这三驾马车，加上vi这个神器，最后辅助一些小工具，包括 wc,cat,diff,join,paste,cut,uniq。

这里简要地整理下 Linux 用来处理数据文本的工具。具体命令详情请在 Linux 命令大全中搜索或者查阅其他相关资料。

head, tail 查看文档头尾。 -n 选项可以指定行数。

less 用来查阅文档， q 退出， space bar 翻页， g 第一行， G 最后一行， j 下， k 上, /<pattern> 往下搜索模式， ?<pattern> 往上搜索模式， n 前一个匹配字符， N 后一个匹配字符。

Shell：系统环境变量

Posted on 2019-10-09 Edited on 2023-12-22 In Linux

Linux 是一个多用户的操作系统。每个用户登录系统后，都会有一个专用的运行环境。通常每个用户默认的环境都是相同的，这个默认环境实际上就是一组环境变量的定义。环境变量是全局的，设置好的环境变量可以被所有当前用户所运行的程序所使用。用户可以对自己的运行环境进行定制，其方法就是修改相应的系统环境变量。

环境变量有很多，需要重点理解的就是 PATH 。

比如说：bwa软件就没有添加到环境变量，所以需要用全路径，指明使用电脑里面什么地方的bwa软件来做数据分析，而 samtools 我已经添加到环境变量了，所以可以直接调用。

Shell：脚本知识

Posted on 2019-10-09 Edited on 2023-12-22 In Linux

非常多的朋友在看我们公众号过往转录组，WES,等流程分享的时候发现很难理解我们的代码，其实就是缺乏shell脚本知识，那么这篇教程你就不容错过。

内容

使用多个命令
创建脚本文件
显示消息
使用变量
输入输出重定向
管道
数学运算
退出脚本
Read more »

Shell：入门Linux

Posted on 2019-10-09 Edited on 2023-12-22 In Linux

可以把 Linux 的学习过程分成6个阶段，一般来说，每个阶段都需要至少一天以上的学习：

第1阶段：把linux系统玩得跟 Windows 或者 MacOS 那样的桌面操作系统一样顺畅，主要目的就是去可视化，熟悉黑白命令行界面，可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
第2阶段：做到文本文件的表格化处理，类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余，查找，切割，替换，合并，补齐，熟练掌握awk,sed,grep``这文本处理的三驾马车。
第3阶段：元字符，通配符及 shell 中的各种扩展，从此 linux 操作不在神秘！
第4阶段：高级目录管理：软硬链接，绝对路径和相对路径，环境变量
第5阶段：任务提交及批处理，脚本编写解放你的双手
第6阶段：软件安装及 conda 管理，让 linux 系统实用性放飞自我
Read more »

test-markdown

Posted on 2019-09-24 Edited on 2023-12-22 In 测试

1. 标题

h1 一级标题

h2 二级标题