Hong Kong Healthcare Artificial Intelligence Society香港醫療人工智能學會

藥品 AI/ML 的技術層面

EMA 對數據獲取、模型開發、性能評估、可解釋性及在監管環境中部署 AI 的期望。

藥品 AI 機器學習流程的插圖

數據獲取與增強

AI/ML 模型本質上由數據驅動。應盡力獲取平衡的訓練數據集,考慮對罕見人群的過採樣及歐盟非歧視原則。數據來源及獲取流程——包括清洗、轉換、插補、標註及標準化——應按 GxP 要求以詳盡、可追溯方式記錄。

探索性數據分析應描述數據特徵、代表性、公平性及相關性。記錄的考量應涵蓋人群代表性、類別不平衡及緩解措施,以及不公平或歧視性結果的潛在風險。增強技術可擴展訓練數據;影響泛化能力或公平性的限制應清楚呈現並附替代方法建議。

訓練、驗證及測試數據

在 ML 中,「驗證」指用於模型架構選擇及超參數調優的數據——與藥品開發術語不同。開發完成後,性能在保留測試數據集上評估。若測試性能不滿意且需進一步開發,現有測試集成為第二階段驗證集,並須新的獨立測試數據集。

強烈鼓勵在使用聚合度量進行標準化或處理前進行早期訓練-測試分割。數據洩漏風險包括未知病例重疊、申辦方特定共享特徵及對研究結果的先驗知識。高風險設定的模型應以新獲取數據前瞻性測試。

模型開發與性能

開發者應確保 SOP 促進泛化能力及穩健性,並保留可追溯文件及開發日誌。鼓勵使用正則化、dropout 及按日曆時間分層的敏感性分析等方法。非最佳實踐導致的過擬合通常可在測試階段發現;測試集洩漏至訓練環境則更為棘手。

性能指標應包括對類別不平衡不敏感的參數(如 Matthews 相關系數)並描述完整混淆矩陣。交叉驗證分佈、少數類別及日曆時間的敏感性分析,以及預先定義的閾值,均有助提升可信度。

可解釋性、可說明性及部署

在可能情況下偏好透明模型。若開發者證明可解釋模型性能或穩健性不滿意,並有監測及風險管理計劃支持,黑箱模型或可接受。應盡可能使用可解釋 AI 方法(特徵重要性、SHAP、LIME、注意力圖)。

部署應遵循風險為本方法。高風險使用情境中,軟硬件堆疊的非平凡變更須進行橋接重新評估。推理時的數據獲取及轉換須符合預定規格。監測應檢測性能下降並有明確閾值及故障模式的風險管理計劃。

來源:EMA — 藥品生命週期中使用人工智能(AI)的反思文件(2023 年 7 月,草案)

準備好測試你的理解?

根據本文進行短測驗,檢視你的理解程度。

開始測驗