统计学

R与生物统计学 09 Dec 2019
描述性统计量为了解决某个问题，我们通常会观察一组和该问题相关的样本，利用总体中的部分样本来推断总体的情况进而得到相关结论。在通过样本推断总体前，首先需用对已有样本数据进行简单的评估和描述，针对这一需求也就引出了描述统计量这一概念。进行描述性统计时，我们最关注数据两个层面的问题：数据的集中趋势和变异分散性。数据的集中趋势均值中位数众数在R中，均值和中位数可以通过mean()和median()进行计算,而众数可以画直方图，modeest包mfv()函数，或者自己写个函数数据的变异性（离散性）极值分位数方差标准差在R中，可以通过quantile()计算分位数，通过var()来计算方差，通过sd()来计算标准差。变异系数(CV):变异系数是指样本标准差除以均值再乘100%——区分两个样本标准差相同但是均值相差很大的情况。 summary()函数会得到一个data frame 的很多描述性统计量。当数据某一列是数值型变量时，可以得到该列数据的均值、极值、方差和分位数。形象化展示形象化展示：用图来展示数据结果，比较常见的方法有条形图，箱线图，直方图等展示上述的统计量。概率知识点统计学中大量内容源于概率，其中尤为重要的是条件概率，以及延伸出的贝叶斯定理。样本空间事件条件概率与贝叶斯定理用两个事件来尝试理解条件概率(Conditional Probability)用来描述与其他事件的发生相关的某事件的概率；P(A|B)是指在B发生的情况下A发生的概率。条件概率计算公式:即AB同时发生的次数除以所有B发生的次数。 $$ P(A|B)=\frac{P(A\cap B)}{P(B)} $$ 差个题外话，倘若A、B为相互独立事件，则： $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B)}{P(B)}=P(A) $$ 即用条件概率公式反证明事件 A 发生的概率与 B 无关。条件概率公式推导出乘法公式：【其中$P(A\cap B)$可以写作P(AB)】 $P(A|B)=\frac{P(A\cap B)}{P(B)}$ => $P(A\cap B)=P(B)\times P(A|B)=P(A)\times P(B|A)$ 全概率公式：$\overline{A}$为A的对立事件 $$ P(B)=P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A}) $$ 通过全概率公式与条件概率，乘法公式，可以推导出贝叶斯定理： $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B|A)}{P(B)}=\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})} $$