在統計學裏,離散程度(英語:statistical dispersion,scatter,spread)或離散度,又稱統計變異性(statistical variability)[1],簡稱 變異變差(variation)、變率,是指一個分佈隨機變量的拉伸或壓縮程度[2]習慣上,「離散」常用來描述數據分佈[3],而「變異」(指:變異數、方差)更常用來描述隨機變量的變異程度[4][需要解釋]用以描述離散程度或變異的量主要有方差標準差變異系數四分位距等。

離散程度與集中趨勢相對,因此,離散度就是指各個變量值與集中趨勢的偏離程度。

衡量

編輯

衡量離散程度的值,通常是非負實數:當衡量值取零時,表示分佈集中在同一個值上;隨着衡量值的增加,隨機變量的取值越來越分散。

部分描述離散程度的量是帶單位的,並且,這些量的單位與隨機變量本身的單位相同。也就是說,如果隨機變量的單位是公尺或秒,則這些量的單位也是公尺或秒。這些量舉例如下:

此外,也有一些無因次量

另外,還有一些帶單位的量,但是他們的單位和隨機變量本身的單位不同:

可解釋性

編輯

變差的可解釋性,通常是對於一個隨機變量而言的。當觀測到隨機變量的一些取值(例如訓練集中的標籤可視作是一個隨機變量的一些觀測值),需要推斷隨機變量服從的分佈時,就會遇到這個問題。一般而言,推斷有限觀測值的隨機變量服從的分佈的過程,即是建立模型的過程。

假設有隨機變量 及其服從的真實分佈 。則對於該隨機變量的觀測值,可計算其變差(以方差表示) ;對於分佈,亦可計算其變差 。則 是相對該隨機變量的可解釋變異(英語:explainable variation),其餘的部分則是不可解釋變異(英語:unexplainable variation)。為了衡量不可解釋變異,可引入不可解釋變異分數(英語:fraction of unexplainable variation) 。不可解釋變異亦稱為統計雜訊

假設 是模型給出的隨機變量的分佈。則對於該預測分佈,我們可以計算器變異(以方差表示) 。則 是該模型相對該隨機變量的已解釋變異(英語:explained variation),其餘部分則是未解釋變異(英語:unexplained variation)。同樣,為了衡量未解釋變異,可引入未解釋變異分數(英語:fraction of unexplained variation) 

參考資料

編輯
  1. ^ 賀睿傑. 統計活動視角下的高中生統計學習研究[D]. 華東師範大學, 2020.
  2. ^ NIST/SEMATECH e-Handbook of Statistical Methods. 1.3.6.4. Location and Scale Parameters. www.itl.nist.gov. U.S. Department of Commerce. [2022-11-14]. (原始內容存檔於2022-11-14). 
  3. ^ 米小琴. 统计计算与分析. 清華大學出版社有限公司. 2004: 68–75. ISBN 9787302064343. 
  4. ^ 安德森. 王峰 , 編. 商务与经济统计. 中信出版社. 2003: 202. ISBN 9787800738753.