单细胞数据整合方法 | Comprehensive Integration of Single-Cell Data

操作代码:https://satijalab.org/seurat/

Comprehensive Integration of Single-Cell Data

实在是没想到,这篇seurat的V3里面的整合方法居然发在了Cell主刊。

果然:大佬+前沿领域=无限可能

可以看到bioRxiv上是November 02, 2018发布的,然后Cell主刊June 06, 2019正式发表。

方法的创意应该在2017年底就有了,那时候我才刚来做single cell。

Single-cell transcriptomics has transformed our ability to characterize cell states, but deep biological understanding requires more than a taxonomic listing of clusters.

As new methods arise to measure distinct cellular modalities, a key analytical challenge is to integrate these datasets to better understand cellular identity and function.

Here, we develop a strategy to “anchor” diverse datasets together, enabling us to integrate single-cell measurements not only across scRNA-seq technologies, but also across different modalities.

After demonstrating improvement over existing methods for integrating scRNA-seq data, we anchor scRNA-seq experiments with scATAC-seq to explore chromatin differences in closely related interneuron subsets and project protein expression measurements onto a bone marrow atlas to characterize lymphocyte populations.

Lastly, we harmonize in situ gene expression and scRNA-seq datasets, allowing transcriptome-wide imputation of spatial gene expression patterns.

Our work presents a strategy for the assembly of harmonized references and transfer of information across datasets.

亮点1:通过锚定的方法来整合多种数据,不同平台,不同形态。

亮点2:同时能整合scATAC-seq数据

亮点3:空间基因表达模式分析

至今为止的单细胞重大突破:

  • immunophenotype (Stoeckius et al., 2017; Peterson et al., 2017),
  • genome sequence (Navin et al., 2011; Vitak et al., 2017),
  • lineage origins (Raj et al., 2018; Spanjaard et al., 2018; Alemany et al., 2018),
  • DNA methylation landscape (Luo et al., 2018; Kelsey et al., 2017),
  • chromatin accessibility (Cao et al., 2018; Lake et al., 2018; Preissl et al., 2018),
  • spatial positioning

单细胞数据整合的两大问题:

  1. how can disparate single-cell datasets, produced across individuals, technologies, and modalities be harmonized into a single reference
  2. once a reference has been constructed, how can its data and meta-data improve the analysis of new experiments?

These questions are well suited to established fields in statistical learning.

第二个问题就类似reference assembly (Li et al., 2010) and mapping (Langmead et al., 2009) for genomic DNA sequences

identify shared subpopulations across datasets

  • canonical correlation analysis (CCA)
  • mutual nearest neighbors (MNNs)

第二种整合的问题:

  • only a subset of cell types are shared across datasets
  • significant technical variation masks shared biological signal.

这篇文章解决了三个问题:

  • reference assembly
  • transfer learning for transcriptomic, epigenomic, proteomic,
  • spatially resolved single-cell data

核心凝练

Through the identification of cell pairwise correspondences between single cells across datasets, termed ‘‘anchors,’’ we can transformdatasets into a shared space, even in the presence of extensive technical and/or biological differences.

This enables the construction of harmonized atlases at the tissue or organismal scale, as well as effective transfer of discrete or continuous data from a reference onto a query dataset.

一些单细胞的常识

false negatives (‘‘drop-outs’’) due to transcript abundance and protocol-specific biases

expression derived from fluorescence in situ hybridization (FISH) exhibits probe-specific noise due to sequence specificity and background binding

结果

Identifying Anchor Correspondences across Single-Cell Datasets

基本的假设:we assume that there are correspondences between datasets and that at least a subset of cells represent a shared biological state.

Constructing Integrated Atlases at the Scale of Organs and Organisms

评估不同工具在整合不同平台和不同subtype数据的准确性

Leveraging Anchor Correspondences to Classify Cell States

开始整合case和control,cell state

Projecting Cellular States across Modalities

整合scATAC-seq

Transferring Continuous and Multimodal Data across Experiments

Predicting Protein Expression in Human Bone Marrow Cells

CITE-seq,预测蛋白表达

Spatial Mapping of Single-Cell Sequencing Data in the Mouse Cortex

小鼠大脑皮层的空间比对



what‘s my problem?

我也早就意识到这是个重要的有价值的问题了,但是孤军奋战,没有真正的提炼这个问题,也没有深入思考和理解,更没有想去利用统计思维来解决这个问题。

可以看到大佬早就看到这个有价值的问题,而且已经召集人马来讨论、思考,用统计学的方法系统的提出了自己的解决方案,也最终凭借自己的实力和名气把结果发表在最顶级的杂志上了。

是什么在阻挠我,让我一直在原地打转?

原文地址:https://www.cnblogs.com/leezx/p/11244731.html

时间: 2024-07-31 07:06:14

单细胞数据整合方法 | Comprehensive Integration of Single-Cell Data的相关文章

单细胞参考文献 single cell

许多分析软件 : https://github.com/seandavi/awesome-single-cell#software-packages Smart-seq.CEL-seq.SCRB-seq和Drop-seq.Smart-seqSMART(Switching mechanism at 5' end of the RNA transcript)是一个具有里程碑意义的重要技术.实际上,能够从单细胞生成全长cDNA的测序方案并不多,Smart-seq就是其中之一.对于等位基因特异性表达或者

【转】Oracle当中扫描数据的方法

本文将对oracle当中扫描数据的存取方法进行介绍. 1) 全表扫描(Full Table Scans, FTS) 为实现全表扫描,Oracle读取表中所有的行,并检查每一行是否满足语句的WHERE限制条件一个多块读操作可以使一次I/O能读取多块数据块(db_block_multiblock_read_count参数设定),而不是只读取一个数据块,这极大的减少了I/O总次数,提高了系统的吞吐量,所以利用多块读的方法可以十分高效地实现全表扫描,而且只有在全表扫描的情况下才能使用多块读操作.在这种访

Spring和Mybatis的整合方法

1.导包 创建WEB项目,并导入如下开发包 数据库驱动包.连接池包.Mybatis开发包 Spring开发包 JSTL开发包 Spring整合Mybatis开发包 导入之后,项目的包结构如图 2.配置applicationContext.xml 在src下创建applicationContext.xml,并配置如下内容 配置数据源 配置SqlSessionFactory 配置Mybatis注解(该注解需要自定义) 配置如下 <!-- 配置数据源 --> <bean id="ds

转:spring与mybatis三种整合方法

哎,csdn没转载功能,只能复制了.. 本文主要介绍Spring与Mybatis三种常用整合方法,需要的整合架包是mybatis-spring.jar,可通过链接http://code.google.com/p/mybatis/下载到. 1.采用数据映射器(MapperFactoryBean)的方式,不用写mybatis映射文件,采用注解方式提供相应的sql语句和输入参数.  (1)Spring配置文件: <!-- 引入jdbc配置文件 -->     <context:property

kettle(PDI)解析xml、json等格式数据的方法

最近由于工作业务需要,一直在研究pdi工具中解析xml.json等格式数据的方法,解析xml和json都较简单. 解析xml的时候,只需要选择相应的文件(不一定要是xml文件,txt的也行,只要是数据是xml格式就可以),然后选择循环读取路径,设置好标签对名称即可: 一:选择文件,如果xml数据是上一过程输入的,不用选择文件: 二:选择循环解析xml的节点,你所选择的节点应该是所以数据的根节点: 三:设置好对应的节点名称和数据名称: 保存配置后,运行即可. 对应的解析json也类似xml的解析:

postgresql大批量数据导入方法

一直没有好好关注这个功能,昨天看了一下,数据库插入有瓶颈,今天研究了一下: 主要有以下方案: 1.使用copy从文件导入: copy table_001(a, b, "f", d, c, "e") from 'd:/data1.txt' (delimiter ','); 速度极快: 不带索引: 查询成功: 共计 69971 行受到影响,耗时: 4351 毫秒(ms).        查询成功: 共计 69971 行受到影响,耗时: 4971 毫秒(ms).     

FU-A分包方式,以及从RTP包里面得到H.264数据和AAC数据的方法

FU-A分包方式,以及从RTP包里面得到H.264数据和AAC数据的方法 RFC3984是H.264的baseline码流在RTP方式下传输的规范,这里只讨论FU-A分包方式,以及从RTP包里面得到H.264数据和AAC数据的方法. H.264的NAL层处理 H264以NALU(NALunit)为单位来支持编码数据在基于分组交换技术网络中传输. NALU定义了可用于基于分组和基于比特流系统的基本格式,同时给出头信息,从而提供了视频编码和外部事件的接口. H264编码过程中的三种不同的数据形式:S

数据产品设计专题(3)-数据运营方法体系框架 3小时前

一.数据化运营方法体系: (1)核心理念: a.横向数据整合-实现跨部门.跨体系.跨公司的数据打通: b.纵向价值链打通:实现数据信息化(构建元数据管理系统).信息知识化(构建数据血缘关系和知识分享平台).知识智慧化(设计领域分析模型); (2)指导思想: a.用户思维-与一线销售/咨询紧密配合获取真实用户业务需求,以用户为中心: b.痛点思维-10/90原则,紧抓痛点,解决用户核心需求: c.迭代思维-快速就绪数据能力,迭代开发,批次上线; 二.数据产品设计方法论 (1)核心思想: 引入5w+

通用高效的数据修复方法:Row level repair

导读:随着大数据的进一步发展,NoSQL 数据库系统迅速发展并得到了广泛的应用.其中,Apache Cassandra 是最广泛使用的数据库之一.对于 Cassandra 的优化是大家研究的热点,而 ScyllaDB 则为其提供了一个新的思路.ScyllaDB 是一个基于 C++ 的开源的高性能的 Cassandra 的实现,较之 Cassandra 在性能上有了很大的提升.Nodetool repair 是 Cassandra 日常维护的重要一环,今天主要和大家分享一下 ScyllaDB 在这