安全有效健康 AI 的數據質素

評估數據是否適用、進行嚴格上市前檢查，並在 AI 接觸患者前緩解偏見、標註錯誤及代表性不足。

適用數據

WHO 要求開發者考慮現有數據是否質素足夠以達成預期目的。醫療數據常不完整、受護理路徑偏倚影響或標註欠佳——對會放大訓練數據模式的 AI 尤為嚴重。

關鍵考量涵蓋：數據集設計（分割、規模、選擇偏倚、變量定義、原始與清洗數據等）；標註（一致性、評分者獨立性、與患者結果的相關性）；模型階段（訓練、調校、驗證及測試集）；以及管治（存取控制、風險管理、私隱及文件透明度）。

發布前應進行嚴格評估，確保系統不會放大偏見及錯誤。開發期間的審慎設計及故障排除可及早發現質素問題。

持份者亦應推動數據生態系統，在尊重私隱及本地管治下促進高質素數據的負責任共享。

為部門評估 AI 產品時：

在香港，多語文書、公私營編碼差異及轉介模式可能與其他地區數據集不同——提高本地盡職審查的要求。

根據本文進行短測驗，檢視你的理解程度。