统计学
-
R与生物统计学 09 Dec 2019
描述性统计量 为了解决某个问题,我们通常会观察一组和该问题相关的样本,利用总体中的部分样本来推断总体的情况进而得到相关结论。在通过样本推断总体前,首先需用对已有样本数据进行简单的评估和描述,针对这一需求也就引出了描述统计量这一概念。进行描述性统计时,我们最关注数据两个层面的问题:数据的集中趋势和变异分散性。 数据的集中趋势 均值 中位数 众数 在R中,均值和中位数可以通过mean()和median()进行计算,而众数可以画直方图,modeest包mfv()函数,或者自己写个函数 数据的变异性(离散性) 极值 分位数 方差 标准差 在R中,可以通过quantile()计算分位数,通过var()来计算方差,通过sd()来计算标准差。 变异系数(CV):变异系数是指样本标准差除以均值再乘100%——区分两个样本标准差相同但是均值相差很大的情况。 summary()函数会得到一个data frame 的很多 描述性统计量。当数据某一列是数值型变量时,可以得到该列数据的均值、极值、方差和分位数。 形象化展示 形象化展示:用图来展示数据结果,比较常见的方法有条形图,箱线图,直方图等展示上述的统计量。 概率知识点 统计学中大量内容源于概率,其中尤为重要的是条件概率,以及延伸出的贝叶斯定理。 样本空间 事件 条件概率与贝叶斯定理 用两个事件来尝试理解 条件概率(Conditional Probability)用来描述与其他事件的发生相关的某事件的概率;P(A|B)是指在B发生的情况下A发生的概率。 条件概率计算公式:即AB同时发生的次数除以所有B发生的次数。 $$ P(A|B)=\frac{P(A\cap B)}{P(B)} $$ 差个题外话,倘若A、B为相互独立事件,则: $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B)}{P(B)}=P(A) $$ 即用条件概率公式反证明事件 A 发生的概率与 B 无关。 条件概率公式推导出乘法公式:【其中$P(A\cap B)$可以写作P(AB)】 $P(A|B)=\frac{P(A\cap B)}{P(B)}$ => $P(A\cap B)=P(B)\times P(A|B)=P(A)\times P(B|A)$ 全概率公式:$\overline{A}$为A的对立事件 $$ P(B)=P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A}) $$ 通过全概率公式与条件概率,乘法公式,可以推导出贝叶斯定理: $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)\times P(B|A)}{P(B)}=\frac{P(A)\times P(B|A)}{P(A)\times P(B|A)+P(\overline{A})\times P(B|\overline{A})} $$