Hong Kong Healthcare Artificial Intelligence Society香港醫療人工智能學會

安全有效健康 AI 的數據質素

評估數據是否適用、進行嚴格上市前檢查,並在 AI 接觸患者前緩解偏見、標註錯誤及代表性不足。

用於 AI 訓練及驗證的具代表性醫療數據集

適用數據

WHO 要求開發者考慮現有數據是否質素足夠以達成預期目的。醫療數據常不完整、受護理路徑偏倚影響或標註欠佳——對會放大訓練數據模式的 AI 尤為嚴重。

關鍵考量涵蓋:數據集設計(分割、規模、選擇偏倚、變量定義、原始與清洗數據等);標註(一致性、評分者獨立性、與患者結果的相關性);模型階段(訓練、調校、驗證及測試集);以及管治(存取控制、風險管理、私隱及文件透明度)。

上市前評估

發布前應進行嚴格評估,確保系統不會放大偏見及錯誤。開發期間的審慎設計及故障排除可及早發現質素問題。

持份者亦應推動數據生態系統,在尊重私隱及本地管治下促進高質素數據的負責任共享。

臨床人員應核實什麼

為部門評估 AI 產品時:

  1. 訓練人群是否具你方患者的代表性?
  2. 標籤如何建立及質量控制?
  3. 原始與清洗數據的局限是否有記錄?
  4. 若出現數據漂移或新疾病表型,是否有計劃?

在香港,多語文書、公私營編碼差異及轉介模式可能與其他地區數據集不同——提高本地盡職審查的要求。

來源:世界衛生組織 — 健康領域人工智能監管考量(2023)

準備好測試你的理解?

根據本文進行短測驗,檢視你的理解程度。

開始測驗