
原則 3:具代表性的患者群
臨床評價須使用代表預期患者群的數據集。數據收集方案應確保相關特徵——如年齡、性別、種族、族裔、地理位置及醫療狀況——以及預期使用環境及量度輸入,在訓練、測試及監測的樣本中有足夠規模的代表性。
這是臨床評價的基礎,有助:
- 管理非預期偏見及數據集漂移
- 促進在預期人群中的可泛化性能
- 評估可用性
- 識別模型可能表現欠佳的亞群或情況,包括隨時間變化
香港情境
主要在其他地區或人口統計數據上訓練的 AI 模型,對本地患者可能表現欠佳。應向供應商查詢開發及驗證是否包括本地或可資比較的亞洲人群。
原則 4:獨立的訓練與測試集
訓練與測試數據集須適當獨立。須考慮並處理所有潛在的依賴來源——與患者、場所及數據採集相關。
外部驗證的程度應與風險成比例。訓練與測試數據之間的洩漏可夸大報告性能,在臨床環境中造成虛假信心。
原則 5:適用的參考標準
應採用獲接受的方法,確保收集具臨床相關性且特徵明確的數據,並理解參考標準的局限。文件應說明:
- 基於預期用途選擇參考標準的理由
- 對預期使用環境的適用性
- 在可行時使用促進穩健性及可泛化性的公認標準
參考標準的選擇應在可能情況下反映廣泛共識及適當專業知識。
臨床要點
審閱 AI 性能報告時,應查核「真值」標籤方法是否與你在實踐中界定該狀況的方式一致——以及測試數據是否真正獨立於訓練數據。