Think Stats: cumulative disribution function?

Home > Statistics > Main text

2018-06-21

累积分布函数：

PMF缺点：如果要处理的数据比较少，PMF很合适。但随着数据的增加，每个值的概率就会降低，而随机噪声的影响就会增大。解决策略：1）根据bin划分区间，如何确定bin的数目比较难；2）累计分布函数（Cumulative Distribution Function，CDF）。
百分位数（percentile）：不高于某个值所占的比例再乘以100。转换：给定值，计算百分位数；对于给定的百分位数，计算对应的值。
CDF：值到其在分布中百分等级的映射。如果x比样本中最小的值还要小，那么CDF(x)就等于0。如果x比样本中的最大值还要大，那么CDF(x)就是1。
条件分布：根据某个条件选择的数据子集的分布。通常不同的实验，条件不同，不能直接的相互比较。可以通过转换为对应组别的百分位数进行比较。
再抽样（resampling）：根据已有的样本生成随机样本的过程。有放回和无放回：取球问题。
CDF推出：中位数（median）就是百分等级是50的值；25和75百分等级通常用来检查分布是否对称，这两者间的差异称为四分差（interquartile range），表示分布的分散情况。

术语：