Hong Kong Healthcare Artificial Intelligence Society香港醫療人工智能學會

預期用途、分析及臨床驗證

清楚界定使用情境、在具代表性人群進行外部驗證,並按風險匹配臨床證據——由回顧性指標至試驗及部署後監測。

由預期用途至監測的 AI 臨床驗證框架

預期用途具情境依賴性

AI 安全與表現取決於程式、訓練數據、臨床環境及用戶互動。預期用途描述應涵蓋:地理及醫療機構類型;人群特徵;預期用戶;以及臨床情境與護理路徑。

在某一流行病學環境訓練的工具可能在其他地方失效。開發者應說明已驗證表現的人群及環境,以及不適用的情況。

分析(技術)驗證

分析驗證使用數據而無需介入性臨床研究,以顯示模型在預期環境中穩健。WHO 期望透明記錄訓練、調校、測試及內部驗證數據集。

外部驗證須使用獨立、具部署人群代表性的數據集,並與訓練及測試數據分開。在香港應查詢驗證是否包括本地或相近族裔隊列;若無,在機構或監管要求下進行本地分析再驗證可能更穩妥。

按風險分級的臨床驗證

僅靠回顧性指標無法反映工作流程整合、用戶互動或路徑上的意外後果。WHO 支持分級證據:最高風險可採隨機對照試驗;其他情境可採前瞻性真實世界研究;部署後對高風險 AI 加強監測。

在隊列中報告性別、種族及族裔(在可行時)有助識別偏見及表現較差的人群。

基準測試及資源有限環境

WHO 指出基準測試或會增加,但重複使用同一基準數據更新模型可能引入偏見。監管能力有限的國家或依賴外部卷宗,但在情境不同時仍可进行本地分析驗證——對香港公私營並存及區內患者多樣性尤為相關。

來源:世界衛生組織 — 健康領域人工智能監管考量(2023)

準備好測試你的理解?

根據本文進行短測驗,檢視你的理解程度。

開始測驗