1.描述统计(descriptive statics)与推论统计(inferential statistics)
描述统计(descriptive statics)指的是对总体(population)进行统计特征,而推论统计指的是基于一个样本(sample)来进行判断。
2.测量尺度类型
- 定类型数据(Nominal Scale):如两种不同类型的基金。
- 定序型数据(Ordinal Scale):如老年、中年、青年、幼年。
- 定距型数据(Interval Scale):如温度。
- 定比型数据(Ratio Scale):如货币。
3.总体均值(μ)和样本均值(X’)
总体均值是总体中所有观测值的平均值,记作μ:
|
|
其中,N 是总体中的观测值数量。
样本均值是样本中所有观测值的平均值,记作X‘(应该是 X 拔,即 X 上面有一道横线,打不出来所以用 X‘代替):
|
|
其中,n 是样本中观测值的数量。
4.直方图(Histogram)和折线图(Frequency Polygon)
5.中位数(median)和众数(mode)
- 中位数(median)就是将数据集排序(升序或者降序)之后,最中间的样本的值。
- 众数(mode)就是数据集中出现频次最高的值。如果只有一个众数,那么数据集为单峰(unimodal)的,如果是两个或者三个众数,那么称为双峰(bimodal)或者三峰(trimodal)的。
6.几何平均数(geometric median)
几何平均数(geometric median)的计算有两种方式,一种是最基本的计算方式:
|
|
另一种计算方式是对回报数据集(returns data set)的几何平均数:
|
|
7.调谐平均数(harmonic mean)
调谐平均数(harmonic mean)的计算方法为:
|
|
8.分位数(Quantile)
分位数(Quantile) 说的是比例所处或者低于该值的术语。
- 四分位数(Quartiles) 低于四分之一的数值。
- 五分位数(Quintile)低于五分之一的数值。
- 十分位数(Decile)低于十分之一的数值。
- 百分位数(Percentile)低于百分之一的数值。
以百分位数为例,假设给出的百分数为y,计算公式为:
|
|
其中,n 为样本总数。
9.范围(range)
|
|
10.平均绝对偏差(MAD,mean absolute deviation)
|
|
其中,X’ 表示样本均值。
11.总体方差(population variance)和总体标准差(population standard deviation)
- 总体方差(population variance)
|
|
其中,μ 为总体均值, N 为总体数量。
- 总体标准差(population standard deviation)
|
|
12.样本方差(sample variance)和样本标准差(sample standard deviation)
- 样本方差(sample variance)
|
|
其中,X’ 为样本均值,n 为样本数量。
- 样本标准差(sample standard deviation)
|
|
13.切比雪夫不等式(Chebyshev’s inequality)
切比雪夫不等式的内容为:无论样本分布如何,对于 k > 1 的情况,距离均值 k 倍方差以内的样本占比至少为:
|
|
14.变异系数(coefficient of variation)
变异系数(coefficient of variation)是用来描述相对分布的情况的,其计算公式为:
|
|
其中,s 为样本标准差,X’ 为样本均值。
15.夏普比率(Sharpe Ratio)
夏普比率(Sharpe Ratio)是用来衡量基金绩效(即收益与风险关系)的一个指标。其计算公式为:
|
|
其中,rp 表示投资组合的回报,rf 表示无风险的投资的回报,σ 表示投资组合的标准差。
16.偏度(Skewness)
偏度(Skewness) 用来表示非对称分布的非对称的方向。
正偏(positively skewed)表示极端值(Outliers)存在于向上的区域,或者说分布在右侧有长尾(long tail)。这种情况下:
1均值 > 中值 > 众数正偏(negatively skewed)表示极端值(Outliers)存在于向下的区域,或者说分布在左侧有长尾(long tail)。这种情况下:
1均值 < 中值 < 众数
偏度计算公式:
|
|
其中,X’ 是样本均值,s 是样本标准差。
17.峰度(kurtosis)
峰度(kurtosis)是用来表示一个分布是否比正态分布更“尖峰”的一侧参数。
- 尖峰态(leptokurtic)表示比正态分布更“尖峰”。
- 低峰态(platykurtic)表示比正态分布更“平坦”。
- 常峰态(mesokurtic)表示比正态分布一致。
峰度计算公式:
|
|
其中,X’是样本均值,s 是样本标准差。