Home > Statistics > Main text

期望、方差、协方差、相关系数


Tag: reading, statistics


期望

  • 定义:实验中每次可能结果的概率乘以其结果的总和
  • 反映随机变量平均取值的大小
  • 线性运算:E(ax+by+c)=aE(x)+bE(y)+c
  • 推广形式:E(k=1naixi+c)=k=1n(aiE(xi))+c
  • 函数期望:
    • f(x)是x的函数
    • 离散函数:E(f(x))=k=1nf(xk)P(xk)
    • 连续函数:E(f(x))=f(x)p(x)dx
  • 性质:
    • 函数的期望大于期望的函数,即E(f(x))>=f(E(x))
    • 一般情况下,乘积的期望不等于期望的乘积
    • 如果X和Y相互独立,则E(xy)=E(x)E(y)

方差

  • 度量随机变量和其数学希望之间的偏离程度
  • 是一种特殊的期望
  • 定义:Var(x)=E((x(E(x))2))
  • 性质:
    • 变种:Var(x)=E(x2)(E(x))2
    • 常数的方差为0
    • 方差不满足线性性质
    • 如果X和Y相互独立,则Var(ax+by)=a2Var(x)+b2Var(y)
import numpy as np 
arr = [1,2,3,4,5,6]
#求均值
arr_mean = np.mean(arr)
#求方差
arr_var = np.var(arr)
#求标准差
arr_std = np.std(arr,ddof=1)
print("平均值为:%f" % arr_mean)
print("方差为:%f" % arr_var)
print("标准差为:%f" % arr_std)

协方差

  • 衡量两个变量线性相关性强度及变量尺度
  • 定义:Cov(x,y)=E((xE(x))(yE(y)))
  • 方差是一种特殊的协方差:
    • 当X=Y时,Cov(x,y)=Var(x)=Var(y)
  • 性质:
    • 两个独立变量的协方差为0。因为此时独立的随机变量x、y满足:E[xy]=E(x)E(y)
    • 计算公式:Cov(i=1maixi,j=1mbiyi)=i=1mj=1maibjCov(xiyi)
    • 特殊情况:Cov(a+bx,c+dy)=bdCov(x,y)
  • 理解:
    • 表示的是两个变量总体误差的期望
    • 如果两个变量的趋势一致,比如变量x大于自身期望且y也大于自身期望,那么两个变量x、y之间的协方差就是正值
    • 如果两个变量的趋势相反,比如变量x大于自身期望但是y小于自身期望,那么两个变量x、y之间的协方差就是负值
from numpy import array
from numpy import cov
x = array([1,2,3,4,5,6,7,8,9])
print(x)
y = array([9,8,7,6,5,4,3,2,1])
print(y)
Sigma = cov(x,y)[0,1]
print(Sigma)

# [1 2 3 4 5 6 7 8 9]
# [9 8 7 6 5 4 3 2 1]

# -7.5

相关系数

  • 研究两个变量之间线性相关程度的量
  • 为什么引入相关系数?
    • 协方差就是描述两个变量X、Y的相关程度的
    • 相同量纲下,协方差没有问题
    • 但是当x、y属于不同量纲时,协方差会在数值上表现出很大的差异
    • 因而引入了相关系数
  • 定义:Corr(x,y)=Cov(x,y)(Var(x)Var(y))
  • 性质:
    • 取值范围在[-1, 1],可看成无量纲的协方差
    • 值越接近于1,正相关性越强;越接近于-1,负相关性越强;等于0时,没有相关性。
from scipy import stats

# two sample rank test
def sig_spearman_corr(x,y):
    p=stats.spearmanr(x,y)[0]
    return p

def sig_pearson_corr(x,y):
    p=stats.pearsonr(x,y)[0]
    return p

参考


If you link this blog, please refer to this page, thanks!
Post link:https://tsinghua-gongjing.github.io/posts/expectation-and-variance.html

Previous: Sequencing adapter: mode and trimming