R与生物统计学

, 09 Dec 2019



描述性统计量

为了解决某个问题,我们通常会观察一组和该问题相关的样本,利用总体中的部分样本来推断总体的情况进而得到相关结论。在通过样本推断总体前,首先需用对已有样本数据进行简单的评估和描述,针对这一需求也就引出了描述统计量这一概念。进行描述性统计时,我们最关注数据两个层面的问题:数据的集中趋势和变异分散性。

数据的集中趋势

均值 中位数 众数 在R中,均值和中位数可以通过mean()和median()进行计算,而众数可以画直方图,modeest包mfv()函数,或者自己写个函数

数据的变异性(离散性)

极值 分位数 方差 标准差 在R中,可以通过quantile()计算分位数,通过var()来计算方差,通过sd()来计算标准差。 变异系数(CV):变异系数是指样本标准差除以均值再乘100%——区分两个样本标准差相同但是均值相差很大的情况。 summary()函数会得到一个data frame 的很多 描述性统计量。当数据某一列是数值型变量时,可以得到该列数据的均值、极值、方差和分位数。

形象化展示

形象化展示:用图来展示数据结果,比较常见的方法有条形图,箱线图,直方图等展示上述的统计量。

概率知识点

统计学中大量内容源于概率,其中尤为重要的是条件概率,以及延伸出的贝叶斯定理。 样本空间 事件

条件概率与贝叶斯定理

用两个事件来尝试理解 条件概率(Conditional Probability)用来描述与其他事件的发生相关的某事件的概率;P(A|B)是指在B发生的情况下A发生的概率。 条件概率计算公式:即AB同时发生的次数除以所有B发生的次数。 $$ P(A|B)=\frac{P(A\cap B)}{P(B)} $$ 差个题外话,倘若A、B为相互独立事件,则: $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B)}{P(B)}=P(A) $$

即用条件概率公式反证明事件 A 发生的概率与 B 无关。

条件概率公式推导出乘法公式:【其中$P(A\cap B)$可以写作P(AB)】

$P(A|B)=\frac{P(A\cap B)}{P(B)}$ => $P(A\cap B)=P(B)\times P(A|B)=P(A)\times P(B|A)$

全概率公式:$\overline{A}$为A的对立事件 $$ P(B)=P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A}) $$

通过全概率公式与条件概率,乘法公式,可以推导出贝叶斯定理: $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B|A)}{P(B)}=\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})} $$

最初贝叶斯本人的论文1只是尝试“逆概率”问题的求解。而现在凡是需要作出概率预测的地方都可以见到贝叶斯定理的影子。

当数据较弱时,那么先前对事物的认知是重要的。

贝叶斯定理的一个著名用途是假阳性和假阴性。比如艾滋病检查,肝癌检查等。

某地区肝癌发病率为0.0004,现用甲胎蛋白法进行普查。已知患有肝癌的人其结果99%为阳性,而没患肝癌的人其化验结果99.9%呈阴性,现某人检查结果为阳性,求其真的患肝癌概率是多少?

令A为“被检查者患有肝癌”,B为“检查结果呈阳性”,由题可知:

我们求的是检查结果为阳性,其换肝癌的概率P(A|B);

即先验概率P(A)=0.0004 ;后延概率患肝癌的人其检查结果为阳性概率P(B|A)=0.99;

题中P(B),即这个地区检查结果呈阳性的先验概率并没有直接给出,但是给出了没患肝癌的人其检查结果为阴性概率$P(\overline{B}|\overline{A})$=0.999,则$P(B|\overline{A})$=1-0.999=0.001;$P(\overline{A})$=1-0.0004=0.9996则: $$ P(A|B)=\frac{P(A)\times P(B|A)}{P(B)} $$ $$ =\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})}=\frac{0.0004*0.99}{0.0004*0.99+0.9996*0.001} $$ 结果为0.284;【注:对于这个问题尝试假设这个地区有10000个人的话就会很好理解了,概率太绕了。】

那么,二次检查时,某地区对象群体患肝癌概率可以看作0.284了,由于技术条件不变,则复检概率检查阳性真的患肝癌概率为0.997。

思考:那么初检为阴性其真不患病的概率?

贝叶斯定理的简单理解先这样吧。

概率分布

相关概念

研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!

随机变量 分布函数 总体均值 总体方差 概率密度函数(probability density function, pdf)

累加分布函数或者累计概率函数:a点上的值等于随机变量X取值$\leq a$的概率,即是概率密度函数a左边曲线下的面积。 数学期望:对于离散型随机变量而言,倘若每个取值X的概率不是相同的,使用算术平均作为均值是不妥的,应当使用加权平均,从而引出了数学期望的概念,简称“期望”或“均值”。

常见连续概率分布

正态分布

均匀分布

贝塔分布

学生t分布

F分布

常见的离散概率分布

几何分布

二项分布

泊松分布


  1. An essay towards solving a problem in the doctrine of chances [return]