单细胞测序服务器?微生物单细胞测序
SCS【2】单细胞转录组 之 cellranger
SCS【2】单细胞转录组之 cellranger
单细胞RNA测序技术的兴起极大地推动了基因表达研究的发展。面对日益增多的分析工具,理解并构建有效的单细胞分析工作流变得至关重要。cellranger,由10X Genomics公司推出的专用工具,简化了这一过程。它包括一套从数据预处理到下游分析的完整步骤,如mkfastq、count、multi、aggr和reanalyze,旨在处理不同类型的单细胞数据,如3'基因表达、细胞多路复用和固定RNA分析。
cellranger mkfastq:负责将Illumina测序仪生成的BCL文件转换为FASTQ文件,是bcl2fastq的增强版,专为10X Genomics样本格式设计。
cellranger count:处理FASTQ文件,执行对齐、过滤、计数和UMI分析,生成基因表达矩阵,适用于单样本或跨多个流单元的分析。
cellranger multi:处理Cell Multiplexing和Fixed RNA Profiling数据,支持特征条码数据分析。
cellranger aggr:聚合多个cellranger实例的输出,实现深度归一化和数据合并分析。
cellranger reanalyze:用于重新分析已有特征条形码矩阵,调整参数以优化分析结果。
根据样本、GEM孔和流式细胞的数量与类型,cellranger提供了多种工作流程示例,如单样本单GEM孔分析、多样本多GEM孔聚合等。对于复杂的数据类型,如多路复用和固定RNA分析,cellranger提供了专用的多管道处理。
为了开始分析,需从BCL文件开始,通过cellranger mkfastq进行转换,或直接使用已解码的FASTQ文件。每个工作流程的具体步骤在相关页面有详细指导。cellranger不仅提供了数据处理工具,还配合Loupe Cell Browser,帮助研究人员深入挖掘单细胞数据的生物学意义。
桓峰基因提供全面的cellranger支持,包括软件安装、参考数据和示例数据的获取。对于资源需求较高的服务器操作,桓峰基因提供专业的服务协助。未来,桓峰基因公众号将持续发布单细胞系列生信分析教程,敬请关注。
单细胞测序中Aspera Connect和 SRA ToolKit下载及其安装
单细胞测序技术中,Aspera Connect和SRA Toolkit是常用的下载工具,以下是它们的下载和安装方法。
### Aspera Connect安装
首先,使用wget下载Aspera Connect软件包:
wget download.asperasoft.com...
然后解压缩下载的文件:
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
接下来,运行安装脚本:
bash aspera-connect-3.7.4.147727-linux-64.sh
安装完成后,检查根目录下是否存在.aspera文件夹,确认安装成功。
cd&& ls-a
将aspera软件加入环境变量并激活:
echo'export PATH=~/.aspera/connect/bin:$PATH'>>~/.bashrc
source~/.bashrc
最后,检查ascp命令是否可用:
ascp--help
### SRA Toolkit下载及其安装
1、使用wget下载对应版本的SRA Toolkit:
wget-P~/Biosofts/ ftp-trace.ncbi.nlm.nih.gov...
2、使用tar命令解压缩文件:
tar zvxf~/Seqs/sratoolkit.2.9.2-ubuntu64.tar.gz-C~/Biosofts
3、测试安装是否成功:
~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump-h
4、将sratoolkit安装文件路径加入环境变量:
echo'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH'>>~/.bashrc
source~/.bashrc
5、再次测试sratoolkit安装情况:
fastq-dump
prefetch-h
如果要下载数据,如SRR文件,直接加ID号,指定输出目录:
prefetch SRRxxxxxxx-O PATH
###数据下载
利用ascp从ftp.ncbi下载测序数据:
ascp-QT-l 300m-i~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR772/007/SRR7722937./
ascp-QT-l 300m-i~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR772/008/SRR7722938./
ascp-QT-l 300m-i~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR772/009/SRR7722939./
ascp-QT-l 300m-i~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR772/000/SRR7722940./
ascp-QT-l 300m-i~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR772/001/SRR7722941./
ascp-QT-l 300m-i~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR772/002/SRR7722942./
使用wget下载其他文件,如cellranger count命令:
cellranger count--id=nohup\
--transcriptome=/home/ym/opt/refdata-gex-GRCh38-2020-A\
--fastqs=/home/ym/opt\
--sample=mysample\
--expect-cells=1000\
--nosecondary
服务项目:
【生信热点文献思路复现】
【临床预后模型方案设计】
【生信&实验结合方案设计】
【数据库构建】
【共享1024G存储生信服务器】
【35篇原创代码合集】
示例报告:
【数据分析报告】单基因在肿瘤中的生信分析
【数据分析报告】疾病药物代谢相关基因与肿瘤免疫、预后关系探讨
往期精彩:
1、新热点-m5C合集
2、单基因生信分析套路
3、非肿瘤类纯生信文献解读
4、为何常规纯生信文章频频被拒?
使用ArchR分析单细胞ATAC-seq数据(第一章)
这一章介绍了导入数据和构建Arrow文件的基础知识,为后续的ArchR分析提供了必要步骤。首先,我们深入了解了ATAC-seq术语中“fragment”的概念,它是通过Tn5转座酶对DNA分子进行酶切后,通过双端测序获得的序列。在进行ATAC-seq实验时,Tn5分子结合到DNA上,两个分子之间相隔9bp,每个Tn5同源二聚体结合事件会产生两个插入,中间相隔9bp,真实“开放”位置的中心位于Tn5二聚体的正中间。为还原实际情况,会对Tn5的插入结果进行校正,即正链往右移动4bp,负链往左偏移5bp。在ArchR中,“fragment”和“insertions”指的是经过校正后的单碱基起始和结束位置,以及单碱基位置,与细胞条形码一一对应。
ArchR项目的选择主要源于其提供的功能和其他工具的局限性。ArchR优化了数据结构,降低了内存消耗,提升了运行速度,使其在处理超过70,000个细胞的项目时,内存需求低于其他同类型工具。它最初设计用于MacBook Pro,针对中等大小的实验(少于100,000个细胞),能够实现特殊分析的快速运行并实时展示结果,便于深入的生物学解释。对于大型数据集,建议使用服务器进行分析。
在ArchR中,数据通过Arrow文件进行管理。每个Arrow文件记录了独立样本的所有信息,包括元数据、开放的fragment和数据矩阵。独立样本是分析的基本单元,最好具有详尽的分析内容,如特定条件下的单个重复。创建Arrow文件时,会编辑和更新相关文件,添加额外信息层。Arrow文件实际上是磁盘上的HDF5文件路径,而不是内存中的R对象。通过ArchRProject对象,可以关联多个Arrow文件到单个分析框架中,方便在R环境中访问,且内存占用少。
ArchR主要接受scATAC-seq原始数据的两种常见输出格式:BAM文件和fragment文件。BAM文件是二进制格式下的排序文件,记录了片段、原始数据和细胞条形码等信息。fragment文件记录了片段以及对应的细胞ID。选择何种文件取决于上游处理流程,例如10XGenomics的CellRanger软件输出的是fragment文件,而sci-ATAC-seq流程则输出BAM文件。ArchR提供了读取这两种文件的函数,采用分块处理方法高效读取大文件,同时避免内存消耗过多。
在进行ArchR分析前,需要进行一些准备工作,包括设置工作目录、使用线程数、加载基因和基因组注释。根据个人环境的不同,可能需要调整线程数,ArchR默认使用系统一半的可用线程。对于Windows系统,线程数默认为1,因为ArchR的多线程依赖于Unix系统。安装ArchR和相关包的过程较为复杂,涉及从GitHub下载项目,然后在R中安装,同时确保安装额外的必需包。在完成安装后,加载ArchR包,设置默认线程数,以及选择适当的基因组注释版本,以确保分析的准确性和一致性。此外,还需要创建自定义的基因组注释,以适应特定的数据集或物种。
创建Arrow文件是ArchR分析流程的重要步骤,通过将片段数据与元信息整合,生成用于后续分析的高效数据结构。在创建过程中,会自动添加基本的元信息和矩阵,如TileMatrix和GeneScoreMatrix。为确保分析质量,需要进行严格的数据质控,包括检查唯一比对数、TSS富集得分以及片段大小分布,以剔除低质量细胞。最终,通过这些步骤,为后续的单细胞ATAC-seq数据的深入分析奠定了坚实的基础。