平均意見分數

平均意見分數(MOS)是在體驗品質和通訊工程領域中使用的衡量標準，代表刺激或系統的整體品質。它是所有受試者「在一個預先定義的範圍內，一個受試者分配給他對系統品質表現的意見」的算術平均數。

MOS 是一種常用的影片、音訊和視聽品質評估方法。 ITU-T （頁面存檔備份，存於網際網路檔案館）在建議 P.800.1 中定義了幾種參照MOS的方式，區別於分數是從視聽、對談、聽、說還是影片品質測試中獲得的。

評分量表和數學定義

MOS 由一個有理數表示，通常範圍在1–5之間，其中1表示最低感知品質，5表示最高感知品質。MOS 的範圍取決於在基礎測試中使用的評級量表。

絕對類別評分（英語：Absolute Category Rating）標準非常常用，它將壞的和優秀之間的評分對映為1到5之間的數字，如下表所示。

評分	標籤
5	優秀
4	良好
3	一般
2	較差
1	壞的

ITU-T建議中存在其他標準化品質評級量表（例如P.800 （頁面存檔備份，存於網際網路檔案館）或P.910 （頁面存檔備份，存於網際網路檔案館））。例如，可以使用 1-100 之間的連續刻度。使用哪種量表取決於測試的目的。在某些情況下，使用不同的量表對相同刺激評價，獲得的評分沒有統計學上的顯著差異。 ^[1]

MOS 的計算方法是人類受試者在主觀品質評估測試（英語：Subjective video quality）中對給定刺激進行的單個評分的算術平均值。因此：

{\text{MOS}}={\frac {\sum _{n=1}^{N}{R_{n}}}{N}}

公式中 $R_{n}$ 是受試者對給定刺激的評分， $N$ 是受試者的數量。

MOS的屬性

MOS 受制於某些數學性質和偏差。MOS 用一個純量值去量化體驗品質的做法是否有用，存在持續的爭論。 ^[2]

當使用分類評級量表獲得 MOS 時，它基於 - 類似於李克特量表的 - 序數量表。在這種情況下，評級中的選項的順序是已知的，但選項之間的間隔是未知的。因此，為了獲得中心趨勢而計算個人評分的平均值在數學上是不正確的；應該使用中位數。 ^[3]但是，在實踐中以及在 MOS 的定義中，計算算術平均值被認為是可以接受的。

存在研究表明，對於分類評分量表（例如 ACR），受試者會認為量表中的選項是不等距的。例如，良好和一般之間的「差距」可能比良好和優秀之間的「差距」更大。感知距離也可能取決於翻譯量表的語言。 ^[4]然而，研究表明無法證明量表翻譯對所得結果存在顯著影響。 ^[5]

通常取得 MOS 分數的測試方法中還存在另外幾個偏差。 ^[6]除了上面提到的非線性感知的量表問題之外，還有一個所謂的「範圍均衡偏差」：在主觀實驗過程中，受試者傾向於給出的分數橫跨整個評分量表。如果兩個主觀測試提供的樣本品質範圍不同，就不能比較這兩個主觀測試。換句話說，MOS 並不是品質的絕對量度，MOS 是相對於獲得它的測試的。

由於上述原因 - 以及由於其他幾個影響主觀測試中感知品質的上下文因素 - 只有在已知並報告了收集值的上下文時才應該報告 MOS 值。因此，不應直接比較從不同環境和測試設計中收集的 MOS 值。 ITU-T P.800.2 （頁面存檔備份，存於網際網路檔案館）建議書規定了如何報告 MOS 值。具體來說，P.800.2 中寫道：

直接比較不同實驗產生的 MOS 值是沒有意義的，除非這些實驗被明確設計用於比較，即使這樣，也應該對資料進行統計分析以確保這種比較是有效的。

用於語音和音訊品質估計的 MOS

MOS 歷史上源於主觀測量，聽眾會坐在「安靜的房間」中，並根據他們的感知對電話通話品質進行評分。這種測試方法已在電話行業使用了數十年，並在ITU-T建議P.800 （頁面存檔備份，存於網際網路檔案館）中標準化。它規定「講話者應坐在安靜的房間內，音量在 30 到 120 立方米之間，混響時間小於 500 毫秒（最好在 200 到 300 毫秒範圍內）。室內噪音水平必須低於 30 dBA，並且頻譜中沒有主峰。」稍後在國際電聯的建議中類似地規定了對其他模式的要求。

使用品質模型的 MOS 估計

獲得 MOS 評級可能既耗時又昂貴，因為它需要招聘人工評估員。對於各種用例，例如編解碼器開發或服務品質監控目的——應該重複和自動估計品質——也可以通過客觀品質模型來預測 MOS 分數，這些模型通常是使用人類 MOS 評級開發和訓練的。使用此類模型產生的一個問題是產生的 MOS 差異是否對使用者來說是顯而易見的。例如，當以五點 MOS 等級對圖像進行評分時，MOS 等於 5 的圖像的品質預計會明顯優於 MOS 等於 1 的圖像。與此相反，MOS 等於 3.8 的圖像的品質是否明顯優於 MOS 等於 3.6 的圖像尚不清楚。為確定使用者對數位相片可感知的最小 MOS 差異進行的研究表明，為了使 75% 的使用者能夠檢測到更高品質的圖像，需要大約 0.46 的 MOS 差異。 ^[7]然而，圖像品質期望，因此 MOS，隨著使用者期望的變化而隨著時間的推移而變化。^[7]分析方法確定的最小顯著 MOS 差異可能會隨時間而變化。

參見

參考文獻

^ Huynh-Thu, Q.; Garcia, M. N.; Speranza, F.; Corriveau, P.; Raake, A. Study of Rating Scales for Subjective Quality Assessment of High-Definition Video. IEEE Transactions on Broadcasting. 2011-03-01, 57 (1): 1–14. ISSN 0018-9316. doi:10.1109/TBC.2010.2086750.
^ Hoßfeld, Tobias; Heegaard, Poul E.; Varela, Martín; Möller, Sebastian. QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS. Quality and User Experience. 2016-12-01, 1 (1): 2. ISSN 2366-0139. arXiv:1607.00321  . doi:10.1007/s41233-016-0002-1 （英語）.
^ Jamieson, Susan. "Likert scales: how to (ab) use them." Medical education 38.12 (2004): 1217-1218.
^ Streijl, Robert C., Stefan Winkler, and David S. Hands. "Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives." Multimedia Systems 22.2 (2016): 213-227.
^ Pinson, M. H.; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study (PDF). IEEE Journal of Selected Topics in Signal Processing. October 2012, 6 (6): 640–651 [2022-01-24]. ISSN 1932-4553. doi:10.1109/jstsp.2012.2215306. （原始內容存檔 (PDF)於2022-01-24）.
^ Zielinski, Slawomir, Francis Rumsey, and Søren Bech. "On some biases encountered in modern audio quality listening tests-a review." Journal of the Audio Engineering Society 56.6 (2008): 427-451.
^ ^7.0 ^7.1 Katsigiannis, S.; Scovell, J. N.; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality. Quality and User Experience. 2018-05-02, 3 (1): 6. ISSN 2366-0139. doi:10.1007/s41233-018-0019-8.

[1] Huynh-Thu, Q.; Garcia, M. N.; Speranza, F.; Corriveau, P.; Raake, A. Study of Rating Scales for Subjective Quality Assessment of High-Definition Video. IEEE Transactions on Broadcasting. 2011-03-01, 57 (1): 1–14. ISSN 0018-9316. doi:10.1109/TBC.2010.2086750.

[2] Hoßfeld, Tobias; Heegaard, Poul E.; Varela, Martín; Möller, Sebastian. QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS. Quality and User Experience. 2016-12-01, 1 (1): 2. ISSN 2366-0139. arXiv:1607.00321  . doi:10.1007/s41233-016-0002-1 （英語）.

[3] Jamieson, Susan. "Likert scales: how to (ab) use them." Medical education 38.12 (2004): 1217-1218.

[4] Streijl, Robert C., Stefan Winkler, and David S. Hands. "Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives." Multimedia Systems 22.2 (2016): 213-227.

[5] Pinson, M. H.; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study (PDF). IEEE Journal of Selected Topics in Signal Processing. October 2012, 6 (6): 640–651 [2022-01-24]. ISSN 1932-4553. doi:10.1109/jstsp.2012.2215306. （原始內容存檔 (PDF)於2022-01-24）.

[6] Zielinski, Slawomir, Francis Rumsey, and Søren Bech. "On some biases encountered in modern audio quality listening tests-a review." Journal of the Audio Engineering Society 56.6 (2008): 427-451.

[interpretMOS-7] 7.0 ^7.1 Katsigiannis, S.; Scovell, J. N.; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality. Quality and User Experience. 2018-05-02, 3 (1): 6. ISSN 2366-0139. doi:10.1007/s41233-018-0019-8.

[1]

[2]

[3]

[4]

[5]

[6]

[7]