Hong Kong Healthcare Artificial Intelligence Society香港醫療人工智能學會

GMLP 原則 3–5:數據、驗證與參考標準

確保訓練及測試數據代表你的患者群,維持數據集之間的獨立性,並使用適用的參考標準。

代表多元患者群體的臨床數據集,用於 AI 驗證

原則 3:具代表性的患者群

臨床評價須使用代表預期患者群的數據集。數據收集方案應確保相關特徵——如年齡、性別、種族、族裔、地理位置及醫療狀況——以及預期使用環境及量度輸入,在訓練、測試及監測的樣本中有足夠規模的代表性。

這是臨床評價的基礎,有助:

  • 管理非預期偏見數據集漂移
  • 促進在預期人群中的可泛化性能
  • 評估可用性
  • 識別模型可能表現欠佳的亞群或情況,包括隨時間變化

香港情境

主要在其他地區或人口統計數據上訓練的 AI 模型,對本地患者可能表現欠佳。應向供應商查詢開發及驗證是否包括本地或可資比較的亞洲人群。

原則 4:獨立的訓練與測試集

訓練與測試數據集須適當獨立。須考慮並處理所有潛在的依賴來源——與患者、場所及數據採集相關。

外部驗證的程度應與風險成比例。訓練與測試數據之間的洩漏可夸大報告性能,在臨床環境中造成虛假信心。

原則 5:適用的參考標準

應採用獲接受的方法,確保收集具臨床相關性且特徵明確的數據,並理解參考標準的局限。文件應說明:

  • 基於預期用途選擇參考標準的理由
  • 對預期使用環境的適用性
  • 在可行時使用促進穩健性及可泛化性的公認標準

參考標準的選擇應在可能情況下反映廣泛共識適當專業知識

臨床要點

審閱 AI 性能報告時,應查核「真值」標籤方法是否與你在實踐中界定該狀況的方式一致——以及測試數據是否真正獨立於訓練數據。

來源:IMDRF — 醫療器械開發的良好機器學習實踐:指導原則(2025 年 1 月)

準備好測試你的理解?

根據本文進行短測驗,檢視你的理解程度。

開始測驗