ABSTRACT
通过单细胞 RNA 测序(scRNA-seq)量化的单细胞级分辨率的基因表达,可以为疾病和复杂性状的病理和细胞起源提供独特的见解。在这里,我们介绍了单细胞疾病相关性评分(scDRS),这是一种在单细胞分辨率上将 scRNA-seq 与多基因疾病风险联系起来的方法;scDRS 可识别在由 GWAS 数据构建的疾病特异性基因集中基因表达水平过高的单个细胞。我们通过模拟确定,scDRS 在识别与疾病相关的单个细胞方面具有良好的校准性和强大的功能。我们将 scDRS 与 16 个 scRNA-seq 数据集(涵盖 31 个组织和器官的 130 万个细胞)结合起来,应用于 74 种疾病和复杂性状的 GWAS 数据(平均 N =341K)。在细胞类型层面,scDRS 广泛再现了经典细胞类型与疾病之间的已知联系,并产生了新的生物学上合理的发现。在单个细胞层面,scDRS 发现了现有细胞类型标签无法捕捉的疾病相关细胞亚群,包括与炎症性肠病相关的 CD4+ T 细胞亚群,其部分特征为效应样状态;与精神分裂症相关的海马 CA1 锥体神经元亚群,部分特征是它们的空间位置位于海马 CA1 区的近端;以及与甘油三酯水平相关的肝细胞亚群,部分特征是它们的倍性水平较高。在基因水平上,我们发现在单个细胞中表达与 scDRS 评分相关的基因(从而反映了与 GWAS 疾病基因的共同表达)强烈富集了黄金标准药物靶基因和孟德尔疾病基因。

METHOD
scDRS 将 scRNA-seq 中的基因表达谱与 GWAS 中的多基因疾病信息整合在一起,通过评估特定细胞中 GWAS 推定疾病基因相对于所有细胞中具有相似表达的其他基因的过量表达,将单个细胞与疾病联系起来。
首先,scDRS 利用现有的基因评分方法 MAGMA(前 1000 个 MAGMA 基因),从 GWAS 的汇总统计数据中构建一组推定疾病基因。
其次,scDRS 对每个细胞中假定疾病基因的总表达量进行量化,以生成细胞特异性原始疾病评分;为了最大限度地提高权重,每个假定疾病基因都按其 GWAS MAGMA z-score 加权,并按其在单细胞数据中的基因特异性技术噪声水平反向加权,该噪声水平是通过对各基因的均值-方差关系建模估算得出的。为了确定统计显著性,scDRS 还根据匹配对照基因集的蒙特卡洛(Monte Carlo,MC)样本(与推定疾病基因的基因集大小、平均表达量和表达方差相匹配)生成 1000 组细胞特异性原始对照分数。
第三,scDRS 对每个细胞的原始疾病得分和原始对照得分进行归一化处理(得出归一化疾病得分和归一化对照得分),然后根据所有对照基因组和所有细胞的集合归一化对照得分的经验分布计算细胞级 p 值。