R与生物统计学
, 09 Dec 2019
描述性统计量
为了解决某个问题,我们通常会观察一组和该问题相关的样本,利用总体中的部分样本来推断总体的情况进而得到相关结论。在通过样本推断总体前,首先需用对已有样本数据进行简单的评估和描述,针对这一需求也就引出了描述统计量这一概念。进行描述性统计时,我们最关注数据两个层面的问题:数据的集中趋势和变异分散性。
数据的集中趋势
均值 中位数 众数 在R中,均值和中位数可以通过mean()和median()进行计算,而众数可以画直方图,modeest包mfv()函数,或者自己写个函数
数据的变异性(离散性)
极值 分位数 方差 标准差 在R中,可以通过quantile()计算分位数,通过var()来计算方差,通过sd()来计算标准差。 变异系数(CV):变异系数是指样本标准差除以均值再乘100%——区分两个样本标准差相同但是均值相差很大的情况。 summary()函数会得到一个data frame 的很多 描述性统计量。当数据某一列是数值型变量时,可以得到该列数据的均值、极值、方差和分位数。
形象化展示
形象化展示:用图来展示数据结果,比较常见的方法有条形图,箱线图,直方图等展示上述的统计量。
概率知识点
统计学中大量内容源于概率,其中尤为重要的是条件概率,以及延伸出的贝叶斯定理。 样本空间 事件
条件概率与贝叶斯定理
用两个事件来尝试理解 条件概率(Conditional Probability)用来描述与其他事件的发生相关的某事件的概率;P(A|B)是指在B发生的情况下A发生的概率。 条件概率计算公式:即AB同时发生的次数除以所有B发生的次数。 $$ P(A|B)=\frac{P(A\cap B)}{P(B)} $$ 差个题外话,倘若A、B为相互独立事件,则: $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B)}{P(B)}=P(A) $$
即用条件概率公式反证明事件 A 发生的概率与 B 无关。
条件概率公式推导出乘法公式:【其中$P(A\cap B)$可以写作P(AB)】
$P(A|B)=\frac{P(A\cap B)}{P(B)}$ => $P(A\cap B)=P(B)\times P(A|B)=P(A)\times P(B|A)$
全概率公式:$\overline{A}$为A的对立事件 $$ P(B)=P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A}) $$
通过全概率公式与条件概率,乘法公式,可以推导出贝叶斯定理: $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B|A)}{P(B)}=\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})} $$
- P(A)是A的先验概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
- P(A|B) 由于得自B的取值而被称作A的后验概率。
- P(B|A) 由于得自A的取值而被称作B的后验概率。
- P(B)是B的先验概率,也作标准化常量。
- 其中 $\frac{P(B|A)}{P(B)} $又称为“可能性函数”, 这是一个调整因子,使得预估概率更接近真实概率 。
最初贝叶斯本人的论文1只是尝试“逆概率”问题的求解。而现在凡是需要作出概率预测的地方都可以见到贝叶斯定理的影子。
当数据较弱时,那么先前对事物的认知是重要的。
贝叶斯定理的一个著名用途是假阳性和假阴性。比如艾滋病检查,肝癌检查等。
某地区肝癌发病率为0.0004,现用甲胎蛋白法进行普查。已知患有肝癌的人其结果99%为阳性,而没患肝癌的人其化验结果99.9%呈阴性,现某人检查结果为阳性,求其真的患肝癌概率是多少?
解 令A为“被检查者患有肝癌”,B为“检查结果呈阳性”,由题可知:
我们求的是检查结果为阳性,其换肝癌的概率P(A|B);
即先验概率P(A)=0.0004 ;后延概率患肝癌的人其检查结果为阳性概率P(B|A)=0.99;
题中P(B),即这个地区检查结果呈阳性的先验概率并没有直接给出,但是给出了没患肝癌的人其检查结果为阴性概率$P(\overline{B}|\overline{A})$=0.999,则$P(B|\overline{A})$=1-0.999=0.001;$P(\overline{A})$=1-0.0004=0.9996则: $$ P(A|B)=\frac{P(A)\times P(B|A)}{P(B)} $$ $$ =\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})}=\frac{0.0004*0.99}{0.0004*0.99+0.9996*0.001} $$ 结果为0.284;【注:对于这个问题尝试假设这个地区有10000个人的话就会很好理解了,概率太绕了。】
那么,二次检查时,某地区对象群体患肝癌概率可以看作0.284了,由于技术条件不变,则复检概率检查阳性真的患肝癌概率为0.997。
思考:那么初检为阴性其真不患病的概率?
贝叶斯定理的简单理解先这样吧。
概率分布
相关概念
研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!
随机变量 分布函数 总体均值 总体方差 概率密度函数(probability density function, pdf)
累加分布函数或者累计概率函数:a点上的值等于随机变量X取值$\leq a$的概率,即是概率密度函数a左边曲线下的面积。 数学期望:对于离散型随机变量而言,倘若每个取值X的概率不是相同的,使用算术平均作为均值是不妥的,应当使用加权平均,从而引出了数学期望的概念,简称“期望”或“均值”。
常见连续概率分布
正态分布
均匀分布
贝塔分布
学生t分布
F分布
常见的离散概率分布
几何分布
二项分布
泊松分布
- An essay towards solving a problem in the doctrine of chances [return]