齉龘齉齾爩麤龗灪龖厵纞虋龘龘靐齉齾爩鱻麤龗灪龖厵滟爨癵驫麣纞虋讟钃鸜麷鞻韽韾顟顠饙饙騳騱饐龗鱻爩麤灪爨癵籱麣纞虋讟钃鸜麷龘龘靐齉齾爩鱻麤龗灪龖厵滟爨癵驫麣纞虋讟钃鸜麷鞻韽韾顟顠饙饙騳騱饐龗鱻爩麤灪爨癵籱麣纞虋讟钃鸜麷龘龘靐齉齾爩鱻麤龗灪龖厵滟爨癵驫麣纞虋讟钃鸜麷鞻韽韾顟顠饙饙騳騱饐龗鱻爩麤灪爨癵籱麣纞虋讟钃鸜麷鞻鬰靊飝虪齺魕爧蠿齺虪龘龘靐齉齾爩鱻爨癵籱饢驫麣纞虋讟钃鸜麷鞻韽韾顟顠饙饙騳騱饐靐齾龗鱻爩麤灪爨癵籱麣纞虋讟钃鸜麷鞻鬰靊讞鑱飝虪齺魕爧蠿齺虪齾爩鱻麤龗灪龖厵滟爨癵籱饢驫麣纞虋讟钃鸜麷鞻韽韾顟顠饙饙騳騱饐靐齾龗鱻爩麤灪爨癵籱麣纞虋讟钃鸜麷鞻鬰靊讞鑱飝虪齺魕
「正态分布,又称Gaussian分布」。因为曲线形状如钟形,又称为 「“钟形分布”」。以测量身高为例,x轴(横轴)代表身高的具体值,y轴(纵轴)代表测量值为某个身高值相对可能性。例如,在“钟形曲线”的最左端和最右端,曲线非常低,代表非常矮或者非常高的可能性非常小;在曲线的中部,曲线最高,代表身高接近平均值的可能性大。
2.不同正态分布之间的区别:位置与形态参数
例如,婴儿身长的分布(左图)与成年人身高的分布(右图)如下。
「1)正态分布曲线的位置比较:」 婴儿的平均身长为20英寸,成年人的平均身高为70英寸。婴儿人群的均值小,其对应的曲线位于成年人群的左侧。
「2)正态分布曲线的宽度比较:」 婴儿体长在19-21 英寸范围内的可能性高,成年人身高在60-80 英寸的可能性高。通过对比,我们可以知道成年人的身高变化范围更广,其表现为正态分布曲线更宽。
正态分布曲线的宽度取决于标准差:通过计算得出,婴儿人群的标准差为0.6,而成年人群的标准差为4。在正态分布曲线中,(均值±2标准差)所对应的范围为95%,即95%的数据均包含于(均值±2标准差)所对应的范围内。在婴儿人群中,95%的婴儿身长在20±1.2(英寸)之间;在成年人群中,95%的成年人身高在70±8(英寸)之间。故标准差越大的数据,正态分布曲线的宽度越宽。
「3)正态分布曲线的高度比较:」 婴儿体长分布曲线更高,成年人身高分布曲线则相对较矮。这是因为成年人身高的变化范围更广,故其中某一特定值的可能性会减小。
3.中心极限定理(central limit theorem)
「中心极限定理在统计学中的重要性」:中心极限定理是很多统计的基础,解释自然界中大多数数据属于正态分布,这使得正态分布在统计学中的应用非常广泛。「为什么中心极限定理能够解释数据属于正态分布,接下来我们就以不同类型的原始数据进行证明。」
中心极限定理的证明1——原始数据为均匀分布
例如在「均匀分布(在相同长度间隔的分布概率是等可能的)」 中随机抽样20个样本,接着计算20个样本的均值。
重复以上步骤20次、100次,将20个、100个均值结果绘制成直方图。随着重复次数的增多,越来越多的均值分布呈现出正态分布的趋势。「大量随机试验均值的分布为正态分布,这就是中心极限定理。」 「即使取样的原始总体属于均匀分布,但来自均匀分布的均值属于正态分布。」