藥品 AI/ML 的技術層面

EMA 對數據獲取、模型開發、性能評估、可解釋性及在監管環境中部署 AI 的期望。

數據獲取與增強

AI/ML 模型本質上由數據驅動。應盡力獲取平衡的訓練數據集，考慮對罕見人群的過採樣及歐盟非歧視原則。數據來源及獲取流程——包括清洗、轉換、插補、標註及標準化——應按 GxP 要求以詳盡、可追溯方式記錄。

探索性數據分析應描述數據特徵、代表性、公平性及相關性。記錄的考量應涵蓋人群代表性、類別不平衡及緩解措施，以及不公平或歧視性結果的潛在風險。增強技術可擴展訓練數據；影響泛化能力或公平性的限制應清楚呈現並附替代方法建議。

在 ML 中，「驗證」指用於模型架構選擇及超參數調優的數據——與藥品開發術語不同。開發完成後，性能在保留測試數據集上評估。若測試性能不滿意且需進一步開發，現有測試集成為第二階段驗證集，並須新的獨立測試數據集。

強烈鼓勵在使用聚合度量進行標準化或處理前進行早期訓練-測試分割。數據洩漏風險包括未知病例重疊、申辦方特定共享特徵及對研究結果的先驗知識。高風險設定的模型應以新獲取數據前瞻性測試。

開發者應確保 SOP 促進泛化能力及穩健性，並保留可追溯文件及開發日誌。鼓勵使用正則化、dropout 及按日曆時間分層的敏感性分析等方法。非最佳實踐導致的過擬合通常可在測試階段發現；測試集洩漏至訓練環境則更為棘手。

性能指標應包括對類別不平衡不敏感的參數（如 Matthews 相關系數）並描述完整混淆矩陣。交叉驗證分佈、少數類別及日曆時間的敏感性分析，以及預先定義的閾值，均有助提升可信度。

在可能情況下偏好透明模型。若開發者證明可解釋模型性能或穩健性不滿意，並有監測及風險管理計劃支持，黑箱模型或可接受。應盡可能使用可解釋 AI 方法（特徵重要性、SHAP、LIME、注意力圖）。

部署應遵循風險為本方法。高風險使用情境中，軟硬件堆疊的非平凡變更須進行橋接重新評估。推理時的數據獲取及轉換須符合預定規格。監測應檢測性能下降並有明確閾值及故障模式的風險管理計劃。

根據本文進行短測驗，檢視你的理解程度。