你的預測模型靠譜嗎？詳解區(qū)分度和校準度的SPSS操作！

醫(yī)學院的石頭 2018-04-12

展開全文

一個好的疾病風險預測模型，它不只是簡單的因變量和自變量的數(shù)學組合，它背后的實際臨床意義才是我們所要把握的重點，這就要求預測模型不僅要有很好的區(qū)分度（Discrimination），同時還要具備良好的校準度（Calibration）。

Discrimination和Calibration是我們在評價預測模型時最常用到的一對指標，但是2015年Circ Cardiovasc Qual Outcomes雜志（影響因子：4.5）上發(fā)表的一項關注心血管疾病預測模型的系統(tǒng)綜述發(fā)現(xiàn)，63%的研究報告了預測模型的Discrimination信息，但僅36%的研究報告了Calibration信息，使得預測模型的質量成為研究泛濫的重災區(qū)。

本期內容我們就來向大家介紹一下這兩個重要的指標，尤其是常常被人忽略的Calibration。

區(qū)分度(Discrimination)

介紹Calibration之前，我們先簡單介紹一下Discrimination。顧名思義，一個好的疾病風險預測模型，它能夠把未來發(fā)病風險高、低不同的人群正確地區(qū)分開來，預測模型通過設置一定的風險界值，高于界值判斷為發(fā)病，低于界值則判斷為不發(fā)病，從而正確區(qū)分個體是否會發(fā)生結局事件，這就是預測模型的區(qū)分度(Discrimination)。

評價預測模型區(qū)分能力的指標，最常用的就是大家非常熟悉的ROC曲線下面積（AUC），也叫C統(tǒng)計量（C-statistics）。AUC越大，說明預測模型的判別區(qū)分能力越好。一般AUC<0.6認為區(qū)分度較差，0.6-0.75認為模型有一定的區(qū)分能力，>0.75認為區(qū)分能力較好。

小咖前期已經(jīng)推送過很多有關ROC的文章，需要的同學可以自行檢索學習哈。(點擊查看：【合集】15篇診斷試驗和ROC曲線文章，從理論到操作，要啥有啥！)

校準度(Calibration)

預測模型的校準度(Calibration)，是評價一個疾病風險模型預測未來某個個體發(fā)生結局事件概率準確性的重要指標，它反映了模型預測風險與實際發(fā)生風險的一致程度，所以也可以稱作為一致性。校準度好，提示預測模型的準確性高，校準度差，則模型有可能高估或低估疾病的發(fā)生風險。

在實際的應用中，通常用Hosmer-Lemeshow good of fit test（擬合優(yōu)度檢驗）來評價預測模型的校準度。Hosmer-Lemeshow檢驗的基本思路如下：

1. 首先根據(jù)預測模型來計算每個個體未來發(fā)生結局事件的預測概率；

2. 根據(jù)預測概率從小到大進行排序，并按照十分位等分成10組；

3. 分別計算各組的實際觀測數(shù)和模型預測數(shù)，其中模型預測數(shù)，即每個人的預測概率*人數(shù)，再求總和，這里人數(shù)即為1，最后總和就相當于每個個體預測概率的直接加和；

4. 根據(jù)每組實際觀測數(shù)和模型預測數(shù)計算卡方值（自由度=8），再根據(jù)卡方分布得到對應的P值。

若所得的統(tǒng)計量卡方值越小，對應的P值越大，則提示預測模型的校準度越好。若檢驗結果顯示有統(tǒng)計學顯著性（P<>

區(qū)分度和校準度的SPSS操作

一、建立數(shù)據(jù)庫

某研究人員擬建立一個關于冠心病患者支架介入術后再次發(fā)生MACE事件（Major Adverse Cardiovascular Events，主要心血管不良事件）的風險預測模型，并對該風險模型的預測能力進行評價。數(shù)據(jù)庫格式如下圖所示。

其中因變量（結局事件）為Event，自變量（影響因素）為性別（Gender）、年齡（Age）、收縮壓（SBP）、吸煙（Smoking）、低密度脂蛋白膽固醇（LDL）及冠脈病變Syntax評分（SYNTAX）。

二、構建預測模型

本研究利用Logistic回歸構建預測模型（若研究為含有時間變量的生存數(shù)據(jù)，則可采用Cox回歸模型）。Logistic回歸的操作步驟對大家來說應該早就是小case了，操作方法如下：

1. Analyze → Regression → Binary Logistic Regression

2. 將因變量Event選入Dependent框中，將各個自變量選入Covariates框中

3. 點擊Save，在Predicted Values下勾選Probabilities，目的是為了在數(shù)據(jù)庫中新生成一個概率值，用于繪制ROC曲線和校準曲線圖。

4. 點擊Options，勾選Hosmer-Lemeshow goodness-of-fit，用于輸出Hosmer-Lemeshow擬合優(yōu)度檢驗的結果。

三、Logistic回歸結果

Variable in the Equation中輸出了每個影響因素的回歸系數(shù)（β）、OR值、95% CI以及P值等信息。回歸方程如下：

logit (p)= -8.713 - 0.899*Gender + 0.05*Age + 0.021*SBP + 0.912*Smoking + 0.438*LDL + 0.07*SYNTAX

四、模型區(qū)分度（Discrimination）

通過繪制ROC曲線，計算AUC，即C統(tǒng)計量來評價模型的判別區(qū)分能力。具體操作步驟為：

1. Analyze → ROC Curve

2. 將新生成的預測概率值PRE_1作為檢驗變量Test Variable ，將Event作為狀態(tài)變量State Variable，并設定Value of State Variable為1

3. 勾選ROC Curve用于繪制ROC曲線

勾選Standard error and confidence interval用于輸出AUC及其標準誤和95%可信區(qū)間。

預測模型ROC曲線如下圖所示，曲線下面積AUC為0.782>0.75，95% CI為0.726-0.838，提示該預測模型的區(qū)分能力較好。

五、模型校準度（Calibration）

通過Hosmer-Lemeshow擬合優(yōu)度檢驗來評價預測模型的校準能力。結果顯示，Hosmer-Lemeshow χ²=4.864，P=0.772>0.05，提示模型預測值與實際觀測值之間的差異沒有統(tǒng)計學顯著性，預測模型有較好的校準能力。

同時SPSS還輸出了Hosmer-Lemeshow檢驗列聯(lián)表，表中將每個研究對象的預測概率從小到大進行排序，并按照十分位分成10組，分別列出了每一組實際觀測值（Observed）和模型預測值（Expected），從而可以在每一個分組下進行直觀的比較，來幫助判斷模型的校準能力。

六、模型校準圖形（Calibration Plot）

既然在評價預測模型區(qū)分度的時候，結果可以通過繪制ROC曲線進行可視化，那么對于預測模型的校準度，我們也同樣可以繪制校準圖使結果可視化。

我們在文獻中常?？梢钥吹剑蕡D的繪制一般有三種形式，大家可以利用上面SPSS輸出的Hosmer-Lemeshow檢驗列聯(lián)表的結果，將其復制到Excel中（以下圖形均以Excel 2013版為例），跟著小咖一起來繪制校準圖形。

1. 散點圖

根據(jù)實際觀測值（Observed）和模型預測值（Expected）繪制散點圖，并擬合線性趨勢線，即可得到校準曲線，如下圖所示的藍線。而紅線為標準曲線（y=x），表示預測數(shù)和實際觀測數(shù)完全一樣。若藍色的校準曲線和紅色的標準曲線越接近，則提示模型的校準能力越好。

2. 條形圖

將每個研究對象的預測概率從小到大進行排序，并按照十分位分成10組，以條圖的形式來表示每組實際觀測值和模型預測值的大小，這樣能夠更加直觀的展示在每一組內，實際觀測值和模型預測值之間的差別，以此來幫助判斷模型更為準確的預測區(qū)間。

3. 線圖

線圖的表達方式和條形圖類似，同樣也是按照預測概率的十分位分成10組，以坐標點的形式來表示每組實際觀測值和模型預測值的大小，并用平滑的線段依次連接起來。它不僅可以直觀的展示每一組內實際觀測值和模型預測值之間的差別，同時也能從整體上來判斷模型的校準能力。模型預測曲線與實際觀測曲線越接近，則可提示模型的校準能力越好。

總結

Discrimination和Calibration是評價預測模型效能的兩個重要指標，但比較容易混淆，最后再和大家總結一下：

1. Discrimination區(qū)分度，就是在模型的預測值中，看是否能夠找到一個截點，使得把患者和非患者正確區(qū)分開來。如果區(qū)分的越開，且與實際情況越吻合，則提示模型的區(qū)分度越好。

2. Calibration校準度，就是評價模型預測值的大小和結局事件發(fā)生概率的大小是否一致。如果模型的預測值與結局實際發(fā)生概率越接近，則提示模型的校準度就越好。

3. 風險預測模型的Discrimination和Calibration并不一定都是同方向的。

如圖A，模型的Discrimination很好，能夠根據(jù)發(fā)病風險將不同的研究對象明顯的區(qū)分開來，但是Calibration較差，預測值偏離校準曲線很遠，與實際情況不符。

(圖A)

圖B，模型的Calibration很好，預測值都集中在校準曲線上，預測較為準確，但是Discrimination較差，研究對象的患病風險都比較接近，無法將其明顯的區(qū)分開來。

(圖B)

圖C，模型的Discrimination和Calibration都很好，不僅能夠把不同風險的患者明顯的區(qū)分開來，而且預測值都集中在校準曲線上，預測結果較為準確。

(圖C)

圖D，是最為理想的模型，能夠準確預測研究對象是否患者，發(fā)病風險為0或100%。

(圖D)

4. 對于一個疾病預測模型，在利用Discrimination和Calibration進行評價時，我們首先需要考慮的是模型的區(qū)分能力Discrimination，如果模型的區(qū)分度較差，不能正確的將不同風險的人群區(qū)分開來，那么它就不是一個合格的預測模型，失去了臨床的應用價值，再繼續(xù)評價Calibration也沒有太大的意義了。

所以，如果你對自己建立的疾病風險預測模型有足夠的信心，那么不妨也計算一下模型的Discrimination和Calibration，相信一定會得到更多同行的認可。

參考文獻：

[1] Circ Cardiovasc Qual Outcomes. 2015 Jul;8(4):368-75

[2] JAMA. 2017;318(14):1377-1384