Toggle navigation
Home
Genomics
Python
Linux
Visualization
Statistics
MachineLearning
Reading
Other
About
Home
>
Statistics
> Main text
Think Stats: cumulative disribution function?
Tag:
reading
,
statistics
2018-06-21
累积分布函数:
PMF缺点:如果要处理的数据比较少,PMF很合适。但随着数据的增加,每个值的概率就会降低,而随机噪声的影响就会增大。解决策略:1)根据bin划分区间,如何确定bin的数目比较难;2)累计分布函数(Cumulative Distribution Function,CDF)。
百分位数(percentile):不高于某个值所占的比例再乘以100。转换:给定值,计算百分位数;对于给定的百分位数,计算对应的值。
CDF:值到其在分布中百分等级的映射。如果x比样本中最小的值还要小,那么CDF(x)就等于0。如果x比样本中的最大值还要大,那么CDF(x)就是1。
条件分布:根据某个条件选择的数据子集的分布。通常不同的实验,条件不同,不能直接的相互比较。可以通过转换为对应组别的百分位数进行比较。
再抽样(resampling):根据已有的样本生成随机样本的过程。有放回和无放回:
取球问题
。
CDF推出:中位数(median)就是百分等级是50的值;25和75百分等级通常用来检查分布是否对称,这两者间的差异称为四分差(interquartile range),表示分布的分散情况。
术语:
条件分布 (conditional distribution) 在满足一定前提条件下计算出的分布。
累积分布函数(Cumulative Distribution Function,CDF) 将值映射到其百分等级的函数。
四分差 (interquartile range) 表示总体分散情况的值,等于75和25百分等级之间的差。
百分位(percentile) 与百分等级相关联的数值。
百分等级 (percentile rank) 分布中小于或等于给定值的值在全部值中所占的百分比。
放回 (replacement) 在抽样过程中,“有放回”表示对于每次抽样,总体都是不变的。“无放回”表示每个元素只能选择一次。
再抽样 (resampling) 根据由样本计算得到的分布重新生成新的随机样本的过程。
If you link this blog, please refer to this page, thanks!
Post link:
https://tsinghua-gongjing.github.io/posts/ThinkStats_cumulative_distribution_function.html
Previous:
Think Stats: hypothesis testing
Next:
Adobe Illustrator usage
Please enable JavaScript to view the
comments powered by Disqus.
Category
Genomics
Python
Linux
Visualization
Statistics
MachineLearning
Reading
Other
Tags
Latest articles
AI在乳腺癌检测中的应用
基于三代测序数据预测m6A修饰位点
使用迁移学习对scRNA数据降噪
深度学习助力RNA可变剪切的预测
Excel常见用法
Word常见用法
Basic operations on matrix
LSTM
Run jobs on GPU server
稀疏编码
Links
ZhangLab
,
RISE database
,
THU life
,
THU info
Data analysis:
pandas
,
numpy
,
scipy
ML/DL:
sklearn
,
sklearn(中文)
,
pytorch
Visualization:
seaborn
,
matplotlib
,
gallery
Github:
me