统计概念与市场回报

1.描述统计(descriptive statics)与推论统计(inferential statistics)

描述统计(descriptive statics)指的是对总体(population)进行统计特征,而推论统计指的是基于一个样本(sample)来进行判断。

2.测量尺度类型

  • 定类型数据(Nominal Scale):如两种不同类型的基金。
  • 定序型数据(Ordinal Scale):如老年、中年、青年、幼年。
  • 定距型数据(Interval Scale):如温度。
  • 定比型数据(Ratio Scale):如货币。

3.总体均值(μ)和样本均值(X’)

总体均值是总体中所有观测值的平均值,记作μ:

1
μ = (X1 + X2 + ... + XN) / N

其中,N 是总体中的观测值数量。

样本均值是样本中所有观测值的平均值,记作X‘(应该是 X 拔,即 X 上面有一道横线,打不出来所以用 X‘代替):

1
X' = (X1 + X2 + ... + Xn) / n

其中,n 是样本中观测值的数量。

4.直方图(Histogram)和折线图(Frequency Polygon)

5.中位数(median)和众数(mode)

  • 中位数(median)就是将数据集排序(升序或者降序)之后,最中间的样本的值。
  • 众数(mode)就是数据集中出现频次最高的值。如果只有一个众数,那么数据集为单峰(unimodal)的,如果是两个或者三个众数,那么称为双峰(bimodal)或者三峰(trimodal)的。

6.几何平均数(geometric median)

几何平均数(geometric median)的计算有两种方式,一种是最基本的计算方式:

1
G = (X1 × X2 × ... × Xn) ^ (1 / n)

另一种计算方式是对回报数据集(returns data set)的几何平均数:

1
1 + RG = [(1 + R1) × (1 + R2) × ... × (1 + R2)] ^ (1 / n)

7.调谐平均数(harmonic mean)

调谐平均数(harmonic mean)的计算方法为:

1
XH = N / [(1 / X1) + (1 / X2) + ...+ (1 / XN)]

8.分位数(Quantile)

分位数(Quantile) 说的是比例所处或者低于该值的术语。

  • 四分位数(Quartiles) 低于四分之一的数值。
  • 五分位数(Quintile)低于五分之一的数值。
  • 十分位数(Decile)低于十分之一的数值。
  • 百分位数(Percentile)低于百分之一的数值。

以百分位数为例,假设给出的百分数为y,计算公式为:

1
Ly = (n + 1) × y / 100

其中,n 为样本总数。

9.范围(range)

1
range = max value - min value

10.平均绝对偏差(MAD,mean absolute deviation)

1
MAD = (|X1 - X'| + |X2 - X'| + ... + |Xn - X'|) / n

其中,X’ 表示样本均值。

11.总体方差(population variance)和总体标准差(population standard deviation)

  • 总体方差(population variance)
1
σ2 = [(X1 - μ) ^ 2 + (X2 - μ) ^ 2 + ... + (XN - μ) ^ 2 ] / N

其中,μ 为总体均值, N 为总体数量。

  • 总体标准差(population standard deviation)
1
σ = {[(X1 - μ) ^ 2 + (X2 - μ) ^ 2 + ... + (XN - μ) ^ 2 ] / N}^ (1 / 2)

12.样本方差(sample variance)和样本标准差(sample standard deviation)

  • 样本方差(sample variance)
1
s2 = [(X1 - X') ^ 2 + (X2 - X') ^ 2 + ... + (XN - X') ^ 2] / (n - 1)

其中,X’ 为样本均值,n 为样本数量。

  • 样本标准差(sample standard deviation)
1
s = {[(X1 - X') ^ 2 + (X2 - X') ^ 2 + ... + (XN - X') ^ 2] / (n - 1)} ^ (1 / 2)

13.切比雪夫不等式(Chebyshev’s inequality)

切比雪夫不等式的内容为:无论样本分布如何,对于 k > 1 的情况,距离均值 k 倍方差以内的样本占比至少为:

1
1 - 1 / k ^2

14.变异系数(coefficient of variation)

变异系数(coefficient of variation)是用来描述相对分布的情况的,其计算公式为:

1
CV = s / X'

其中,s 为样本标准差,X’ 为样本均值。

15.夏普比率(Sharpe Ratio)

夏普比率(Sharpe Ratio)是用来衡量基金绩效(即收益与风险关系)的一个指标。其计算公式为:

1
Sharpe ratio = (rp - rf) / σ

其中,rp 表示投资组合的回报,rf 表示无风险的投资的回报,σ 表示投资组合的标准差。

16.偏度(Skewness)

偏度(Skewness) 用来表示非对称分布的非对称的方向。

  • 正偏(positively skewed)表示极端值(Outliers)存在于向上的区域,或者说分布在右侧有长尾(long tail)。这种情况下:

    1
    均值 > 中值 > 众数
  • 正偏(negatively skewed)表示极端值(Outliers)存在于向下的区域,或者说分布在左侧有长尾(long tail)。这种情况下:

    1
    均值 < 中值 < 众数

偏度计算公式:

1
sk = (1 / n) × [(X1 - X') ^ 3 + (X2 - X') ^ 3 + ... + (Xn - X') ^ 3] / (s ^ 3)

其中,X’ 是样本均值,s 是样本标准差。

17.峰度(kurtosis)

峰度(kurtosis)是用来表示一个分布是否比正态分布更“尖峰”的一侧参数。

  • 尖峰态(leptokurtic)表示比正态分布更“尖峰”。
  • 低峰态(platykurtic)表示比正态分布更“平坦”。
  • 常峰态(mesokurtic)表示比正态分布一致。

峰度计算公式:

1
k = (1 / n) × [(X1 - X') ^ 4 + (X2 - X') ^ 4 + ... + (Xn - X') ^ 4] / (s ^ 4)

其中,X’是样本均值,s 是样本标准差。