描述性统计量

为了解决某个问题，我们通常会观察一组和该问题相关的样本，利用总体中的部分样本来推断总体的情况进而得到相关结论。在通过样本推断总体前，首先需用对已有样本数据进行简单的评估和描述，针对这一需求也就引出了描述统计量这一概念。进行描述性统计时，我们最关注数据两个层面的问题：数据的集中趋势和变异分散性。

数据的集中趋势

均值 中位数 众数在R中，均值和中位数可以通过mean()和median()进行计算,而众数可以画直方图，modeest包mfv()函数，或者自己写个函数

数据的变异性（离散性）

极值 分位数 方差 标准差 在R中，可以通过quantile()计算分位数，通过var()来计算方差，通过sd()来计算标准差。 变异系数(CV):变异系数是指样本标准差除以均值再乘100%——区分两个样本标准差相同但是均值相差很大的情况。 summary()函数会得到一个data frame 的很多描述性统计量。当数据某一列是数值型变量时，可以得到该列数据的均值、极值、方差和分位数。

形象化展示

形象化展示：用图来展示数据结果，比较常见的方法有条形图，箱线图，直方图等展示上述的统计量。

概率知识点

统计学中大量内容源于概率，其中尤为重要的是条件概率，以及延伸出的贝叶斯定理。 样本空间 事件

条件概率与贝叶斯定理

用两个事件来尝试理解 条件概率(Conditional Probability)用来描述与其他事件的发生相关的某事件的概率；P(A|B)是指在B发生的情况下A发生的概率。条件概率计算公式:即AB同时发生的次数除以所有B发生的次数。 $$ P(A|B)=\frac{P(A\cap B)}{P(B)} $$ 差个题外话，倘若A、B为相互独立事件，则： $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B)}{P(B)}=P(A) $$

即用条件概率公式反证明事件 A 发生的概率与 B 无关。

条件概率公式推导出乘法公式：【其中$P(A\cap B)$可以写作P(AB)】

$P(A|B)=\frac{P(A\cap B)}{P(B)}$ => $P(A\cap B)=P(B)\times P(A|B)=P(A)\times P(B|A)$

全概率公式：$\overline{A}$为A的对立事件 $$ P(B)=P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A}) $$

通过全概率公式与条件概率，乘法公式，可以推导出贝叶斯定理： $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B|A)}{P(B)}=\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})} $$

P(A)是A的先验概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
P(A|B) 由于得自B的取值而被称作A的后验概率。
P(B|A) 由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率，也作标准化常量。
其中 $\frac{P(B|A)}{P(B)} $又称为“可能性函数”, 这是一个调整因子，使得预估概率更接近真实概率。

最初贝叶斯本人的论文¹只是尝试“逆概率”问题的求解。而现在凡是需要作出概率预测的地方都可以见到贝叶斯定理的影子。

当数据较弱时，那么先前对事物的认知是重要的。

贝叶斯定理的一个著名用途是假阳性和假阴性。比如艾滋病检查，肝癌检查等。

某地区肝癌发病率为0.0004，现用甲胎蛋白法进行普查。已知患有肝癌的人其结果99%为阳性，而没患肝癌的人其化验结果99.9%呈阴性，现某人检查结果为阳性，求其真的患肝癌概率是多少？

解令A为“被检查者患有肝癌”，B为“检查结果呈阳性”，由题可知：

我们求的是检查结果为阳性，其换肝癌的概率P(A|B)；

即先验概率P(A)=0.0004 ；后延概率患肝癌的人其检查结果为阳性概率P(B|A)=0.99；

题中P(B)，即这个地区检查结果呈阳性的先验概率并没有直接给出，但是给出了没患肝癌的人其检查结果为阴性概率$P(\overline{B}|\overline{A})$=0.999,则$P(B|\overline{A})$=1-0.999=0.001;$P(\overline{A})$=1-0.0004=0.9996则： $$ P(A|B)=\frac{P(A)\times P(B|A)}{P(B)} $$ $$ =\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})}=\frac{0.0004*0.99}{0.0004*0.99+0.9996*0.001} $$ 结果为0.284；【注：对于这个问题尝试假设这个地区有10000个人的话就会很好理解了，概率太绕了。】

那么，二次检查时，某地区对象群体患肝癌概率可以看作0.284了，由于技术条件不变，则复检概率检查阳性真的患肝癌概率为0.997。

思考：那么初检为阴性其真不患病的概率？

贝叶斯定理的简单理解先这样吧。

概率分布

常见连续概率分布

正态分布

均匀分布

贝塔分布

学生t分布

F分布

常见的离散概率分布

几何分布

二项分布

泊松分布

An essay towards solving a problem in the doctrine of chances ^[return]

R与生物统计学

, 09 Dec 2019