病理圖像人工智能分析軟件性能評價審評要點旨在指導注冊申請人對病理圖像人工智能分析軟件注冊申報資料中非臨床評價部分的準備及撰寫,同時也為技術審評部門提供參考。
本要點是對病理圖像人工智能分析軟件申報資料的一般要求,申請人需依據產品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由及相應的科學依據,并依據產品的具體特性對注冊申報資料的內容進行充實和細化。
本要點是供注冊申請人和技術審評人員使用的指導性文件,但不包括審評審批所涉及的行政事項,亦不作為法規強制執行,需在遵循相關法規的前提下使用本指導原則。如果有能夠滿足相關法規要求的其他方法,也可以采用,但是需要提供詳細的研究資料和驗證資料。
本要點是在現行法規和標準體系以及當前認知水平下制定的,隨著法規和標準的不斷完善,以及科學技術的不斷發展,本要點的相關內容也將進行適時的調整。
一、適用范圍
病理圖像人工智能分析軟件是指基于數字病理圖像,采用深度學習等人工智能技術實現對病理圖像的分割、檢測等功能的醫療器械。數字病理圖像包括經數據成像設備獲得的顯微鏡下細胞或組織圖像、全玻片數字掃描技術(Whole Slide Imaging, WSI)的病理圖像等。產品在醫療機構和/或醫學實驗室使用,可輔助病理醫師為疾病的診斷、預后、治療等提供信息,不能作為臨床診斷決策的唯一依據。
根據《人工智能醫用軟件產品分類界定指導原則》,本文所述軟件用于輔助決策,可為病理醫生提供病灶特征識別、病變性質等信息,按第三類醫療器械管理。
分類編碼:21-04-02。
產品名稱:建議依據軟件醫療用途進行產品名稱命名,體現處理對象和臨床用途,如宮頸細胞學數字病理圖像計算機輔助分析軟件、免疫組化病理圖像計算機輔助診斷軟件。申請人可結合申報產品的特征,根據《醫用軟件通用名稱命名指導原則》,參考《醫療器械分類目錄》中的品名舉例確定命名。
若作為軟件組件集成于其他醫療器械(如病理切片掃描儀、醫學顯微圖像掃描分析產品)中,可以參考本要點的要求。
本要點基于《人工智能醫療器械注冊審查指導原則》的基本框架要求,其中關于人工智能醫療器械的的術語定義、相關要求參照上述指導原則。
二、產品簡介
產品的工作原理:產品為獨立軟件,采用深度學習技術對數字病理圖像進行前處理(如圖像質量改善)和常規后處理(如圖像分割、細胞/組織定位、細胞分類等),實現對數字病理圖像中疑似異常細胞的計數和定位識別功能或異常組織區域的定位和標記功能;通過算法對細胞/組織圖像塊的分類結果進行分析,實現對病理圖像的輔助診斷功能。
主要結構及組成:結構組成明確交付內容和功能模塊,其中交付內容包括軟件安裝程序、授權文件、外部軟件環境安裝程序等軟件程序文件,功能模塊包括客戶端、服務器端(若適用)等,若適用注明選裝、模塊版本。
服務器端:負責接收并處理請求,對請求進行數據處理,調用人工智能算法(此處應體現核心算法名稱,如AlexNet,ResNet,MobileNet,EfficientNet,ResNeXt等)對圖像數據進行處理并輸出分析結果。把用戶請求的數據結果返回客戶端。
客戶端:將服務器端分析結果呈現到用戶界面。用戶可在用戶界面進行輔助診斷/閱片、任務管理、報告管理、檢索查詢、用戶管理、查看日志等功能操作。
三、基本要求
(一)綜述資料
詳細描述該產品的圖像前處理和后處理功能及功能實現方法,描述配套使用圖像采集設備、切片制作流程(包括配套試劑、設備)和圖像質量的要求,簡述軟件采用的主要算法。
簡述軟件研發背景,包括對可輔助診斷疾病的介紹,目前相關疾病臨床診斷參考標準、病理診斷類型或細胞異常類型等依據。申報產品的病理閱片標準和病理分型依據應與臨床標準一致。
(二)非臨床資料
1.產品技術要求及檢驗報告
產品技術要求可參考《醫療器械軟件注冊審查指導原則》(2022年修訂版)附錄中的模板進行編寫,此外性能指標還應包括“臨床功能”,如圖像處理、圖像分析、細胞/組織識別、病理圖像診斷提示等內容。
2.軟件研究資料
按照《醫療器械軟件注冊審查指導原則》(2022年修訂版)、《醫療器械網絡安全注冊審查指導原則》(2022年修訂版)、《人工智能醫療器械注冊審查指導原則》的要求,提交研究資料。明確軟件發布版本號。提交的研究資料主要包含軟件研究資料、算法研究資料、網絡安全研究資料。研究資料內容應涵蓋申報產品適用范圍中描述的全部內容。
2.1風險管理
參考YY/T 0316、YY/T 1406.1和YY/T 0664、GB/T 42062進行產品的風險管理活動。風險管理活動應當基于軟件的預期用途、使用場景、核心功能予以實施,并貫穿軟件全生命周期過程。此類產品臨床使用中的風險主要包括圖像分析過程中的識別、標記錯誤,非病理醫師使用和樣本采集錯誤等,造成的假陰性和假陽性錯誤。算法風險主要包括過擬合和欠擬合,數據擴增和數據偏移等。
2.2需求規范
提供軟件需求規范文檔,明確軟件的功能、性能、接口、用戶界面、運行環境、網絡安全、數據采集等需求,另附軟件開發所形成的原始文檔。
數據采集需考慮數據來源的合規性、充分性和多樣性,數據分布的科學性和合理性,數據質控的充分性、有效性和準確性。數據應來源于不同地域的不少于3家機構。機構應采用軟件說明書明確的切片制作流程、組織染色和免疫組織化學技術制備的切片(包含指定的樣本來源,即指定的切片制備流程和/或樣本保存液、抗體試劑、染色液等)和配套的圖像采集設備獲得的符合要求的數字病理圖片。數據分布的科學性和合理性,應考慮包括但不限于疾病構成(如分型、分級、分期)、人群分布(如高危人群、患者,性別、年齡)等情況。
算法性能需結合產品預期用途,綜合考慮分析速度、敏感性、特異性、重復性與再現性、泛化性等性能指標的適用性及其要求。同時還需考慮因梯度消失、梯度爆炸、過擬合和欠擬合等影響算法性能的因素。
使用限制需考慮產品禁用、慎用等場景,準確表述產品使用場景,提供必要警示提示信息。
2.3軟件性能研究
提供產品性能研究資料以及產品技術要求的研究和編制說明,給出軟件相關的功能性、安全性指標的確定依據。注冊申請人需在軟件研究資料中提交GB/T 25000.51自測報告,亦可提交自檢報告或檢驗報告代替自測報告。產品技術要求中各指標依據產品自身特點確定。
2.4算法研究資料
根據《人工智能醫療器械注冊審查指導原則》提交算法研究資料。提交每個人工智能算法或算法組合的算法研究報告。
2.4.1算法基本信息
明確算法的名稱、類型、結構、輸入輸出、流程圖、算法框架、運行環境等基本信息以及算法選用依據。
其中,算法類型從學習策略、學習方法(基于模型的算法和基于數據的算法)、可解釋性(白盒算法和黑盒算法)等角度明確算法特性。算法結構部分應明確算法的層數、參數規模等超參數信息。流程圖應包含輸入圖像示例、學習方法示意圖和輸出圖像示例。算法框架應明確所用人工智能算法框架的基本信息,包括名稱、類型(自研算法框架、現成算法框架)、型號規格、完整版本、制造商等信息。若基于云計算平臺,應明確云計算的名稱、服務模式、部署模式、配置以及云服務商的名稱、住所、服務資質。運行環境應明確算法正常運行所需的典型運行環境,包括硬件配置、外部軟件環境、網絡條件;若使用人工智能芯片應明確其名稱、型號規格、制造商、性能指標等信息。算法選用依據詳述算法或算法組合選用的理由和基本原則。
2.4.2算法風險管理
結合預期用途、使用場景、核心功能、算法成熟度、網絡安全等因素,此類產品的軟件安全性級別為嚴重級別。提供算法風險管理資料,若無單獨文檔可提供軟件風險管理資料,并注明算法風險管理所在位置。
2.4.3算法需求規范
提供算法需求規范文檔,若無單獨文檔可提供軟件需求規范,并注明算法需求所在位置。
2.4.4數據收集
2.4.4.1提供數據來源合規性聲明,列明數據來源機構的名稱、所在地域、數據收集量、倫理批件(或科研合作協議)編號等信息。
2.4.4.2數據采集
建議參考2.2需求規范的要求,提供數據采集操作規范文檔,包括數據采集方案和數據采集標準操作規程。
數據采集主要由臨床機構實施,應明確病理切片或細胞涂片的制作流程、圖像采集方式(如眀場掃描)和采集參數要求(包含掃描倍率、掃描層數、焦點數量要求、聚焦方式、采樣閾值等)、采集設備要求(應包含掃描儀的型號、分辨率、圖像尺寸等)、病理切片或細胞涂片要求、樣本的來源與分布、樣本質量要求(包含切片或涂片的保存時限、玻片完整性等)、圖像質量要求(應包含圖象區域、清晰度等要求)、采集過程、數據脫敏、數據轉移等要求。采集過程應對樣本數據進行編號并加密,方案中應包含編號規則。
2.4.4.3數據整理
明確數據清洗/預處理程序,對數據處理中應用的軟件進行簡述,并以附件的形式提交數據處理中各軟件的軟件研究資料。
2.4.4.4數據標注
明確標注人員和仲裁人員的資質要求和培訓內容,標注人員和仲裁人員應為病理醫師,數據應經過不少于2人標注。簡述標記系統信息,配合病理圖像和標注系統界面截圖,介紹標注過程、標注對象和標注標準(注意與病理診斷標準的一致性)等。明確標注過程質控、標注質量評估、數據安全保證等要求。標注質量評估可抽選一定比例數據進行非標注人員的評估。
提供原始數據庫、基礎數據庫、標注數據庫、擴增數據庫(如有),關于疾病構成的數據分布情況,包括適用人群、數據來源機構、采集設備、樣本類型等因素。
若數據來自公開數據庫,提供公開數據庫的基本信息(如名稱、創建者、數據總量等)和使用情況(如數據使用量、數據質量評估、數據分布等)。
2.4.4.5數據集構建
明確各數據集劃分的方法及依據。訓練集應當保證樣本分布具有均衡性,訓練樣本應涵蓋不同病理類型。調優集應保證樣本分布符合臨床實際情況,如陽性比例,不同病理類型比例、不同臨床分型比例等均應符合臨床實際情況。訓練集、調優集、測試集的樣本應兩兩無交集并通過查重予以驗證。
進行數據擴增驗證時,應當明確擴增的方式、方法、倍數,并考慮數據擴增對軟件的影響及風險。列表比較擴增數據庫與標注數據庫的差異,論證擴增數據庫樣本量的充分性以及分布的合理性。
2.4.5算法訓練
依據適用人群、數據來源機構、采集設備、樣本類型等因素,提供訓練集、調優集(若有)關于疾病構成的數據分布情況。
算法訓練基于訓練集、調優集進行訓練和調優,應明確算法訓練所用的評估指標、訓練方式、訓練目標、調優方法,提供ROC曲線或混淆矩陣等證據(如:迭代次數-訓練CountIOU曲線和迭代冊數-召回率曲線)證明訓練目標滿足醫療要求,提供訓練數據量-評估指標曲線(如迭代次數-Loss曲線)等證據以證實算法訓練的充分性和有效性。
2.4.6算法性能評估
基于測試集對算法設計進行評估,確認軟件算法性能的效率、敏感性、特異性,性能應滿足算法設計要求。
算法性能評估應包括軟件對樣本滿意度評價的能力測試、泛化能力的測試、壓力測試(指采用罕見或特殊的真實數據樣本開展的算法性能測試)、對抗測試、重復性與再現性測試、敏感性與特異性測試、分析效率測試、算法性能影響因素分析、性能評估結果比較分析、偏差報告等研究。
通過樣本量估算確定測試集中陰、陽性樣本和壓力樣本的樣本量,提供測試集關于疾病構成(包括年齡和病理類型、異常細胞類型等)、數據來源的數據分布情況。明確對抗樣本的選擇原則;明確性能評估的可接受標準和標準制定依據。提交測試報告和細胞/組織形態圖示例。
若使用第三方數據庫開展算法性能評估,提供第三方數據庫的基本信息(如名稱、創建者、數據總量等)和使用情況(如測試數據樣本量、評估指標、評估結果等)。提交第三方數據庫數據樣本來源和本計算機輔助分析軟件產品的產品技術要求、說明書中指定的制片流程和圖像采集設備的一致性的評價(包含指定的樣本來源,即指定的切片制備流程和/或樣本保存液、抗體試劑、染色液等)和配套的圖像采集設備獲得的符合要求的數字病理圖片。
根據研究結論,確定軟件使用限制并在說明書中進行描述。
2.4.7算法可追溯性分析
提供算法可追溯性分析報告,即追溯算法需求、算法設計、源代碼(明確軟件單元名稱即可)、算法測試、算法風險管理的關系表。
(三)產品說明書和標簽樣稿
明確該產品適用范圍,明確產品適用的顯微鏡和圖像采集設備的名稱和型號,明確圖像參數及質量。明確病理切片或細胞涂片的制備流程及試劑廠家信息。明確軟件報告內容。對產品帶來的假陽/假陰性風險進行提示。
根據算法影響因素分析報告,在說明書明確產品使用限制和必要的警示提示信息。列明算法訓練總結和算法性能評估總結以及臨床評價總結。
附件3
病理圖像人工智能分析軟件臨床評價審評要點
本審評要點旨在指導注冊申請人對病理圖像人工智能分析軟件臨床評價注冊申報資料的準備及撰寫,同時也為技術審評部門提供參考。
本審評要點是對病理圖像人工智能分析軟件的一般要求,申請人應依據產品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由并提供相應的科學依據,同時依據產品的具體特性對注冊申報資料的內容進行充實和細化。
本審評要點是供注冊申請人和技術審評人員使用的指導性文件,但不包括審評審批所涉及的行政事項,亦不作為法規強制執行,應在遵循相關法規的前提下使用本審評要點。如果有能夠滿足相關法規要求的其他方法,也可以采用,但是需要提供詳細的研究資料和驗證資料。
本審評要點是在現行法規和標準體系以及當前認知水平下制定,隨著法規和標準的不斷完善,以及科學技術的不斷發展,相關內容也將適時進行調整。
一、適用范圍
病理圖像人工智能分析軟件是指基于數字病理圖像,采用深度學習等人工智能技術實現對病理圖像的分割、檢測等功能的醫療器械。數字病理圖像包括經數據成像設備獲得的顯微鏡下細胞或組織圖像、全玻片數字掃描技術(Whole Slide Imaging, WSI)的病理圖像等。產品在醫療機構和/或醫學實驗室使用,可輔助病理醫師為疾病的診斷、預后、治療等提供信息,不能作為臨床診斷決策的唯一依據。
本審評要點基于全玻片數字掃描技術( whole slide imaging,WSI)的病理圖像人工智能分析軟件產品臨床評價進行闡述,用于經數據成像設備獲得的顯微鏡下細胞或組織圖像分析的相關產品臨床評價可以適當參考本審評要點。
二、臨床評價路徑
病理圖像人工智能分析軟件臨床評價應符合《醫療器械臨床評價技術指導原則》要求。影響該軟件性能因素包括核心算法、算法訓練等多個方面。針對兩個不同的分析軟件,即使采用的核心算法相同,但是,不同的分析軟件在算法訓練過程中使用的訓練集不同,不同訓練集的標注可能存在差異,因此,針對該類產品臨床性能的確認應采用臨床試驗的方式,不適合采用同品種比對的方式。
三、臨床試驗
在開展臨床試驗之前,病理圖像人工智能分析軟件產品應完成產品開發,確保產品已經定型?;谠擃惍a品的特點,產品在開發過程中需采用滿足要求的數據對算法進行訓練,在算法訓練過程中,應保證訓練集數據標注的質量以及訓練集具有足夠樣本量,確保經過訓練的軟件在臨床前研究中性能穩定。在軟件開發過程中,有時存在算法調優的情況。需要注意的是,用于開展臨床試驗的產品必須為完成算法訓練及調優的產品。產品臨床試驗啟動后不能對算法進行訓練或調優。產品應進行充分的臨床前研究,以保證產品臨床試驗過程中,不會對受試者產生額外的傷害。
1.臨床試驗機構
考慮到病理圖像判讀容易在機構和閱片醫師間產生差異,產品臨床試驗建議采用多中心臨床進行,臨床試驗機構數量建議不少于3家。臨床試驗機構應獲得國家藥品監督管理局備案認可。臨床試驗機構應具有嚴格的質量管理體系,執行實驗室內部日常質量控制。
臨床試驗建議選擇具有相關學科優勢的臨床試驗機構。臨床試驗中應根據試驗設計設定不同資歷的病理醫師參與試驗,病理醫師資歷劃分應合理。
2.臨床試驗目的
產品臨床試驗應該能夠充確認產品臨床性能,證明產品能夠實現其宣稱的預期用途。病理圖像人工智能分析軟件的臨床應用,應對病理醫師的診療活動有所獲益,如:提高病理醫師診斷準確性,提高病理醫師閱片重現性,縮短病理醫師閱片時間等。臨床試驗應確認主要評價指標的優效性。
3.臨床試驗設計
根據產品特點和產品性能評價需要,病理圖像人工智能分析軟件臨床試驗可能包括不同的臨床試驗目的,有必要針對各個臨床試驗目的,分別進行科學的臨床試驗設計,包括選擇適當的臨床試驗設計類型。本審評要點以提高病理醫師診斷準確性或縮短閱片時間為例,進行臨床試驗設計闡述。
此類產品臨床試驗一般需考慮開展對照研究,對照研究有多種設計方法,根據產品特征及臨床試驗實際,可選擇多閱片者多數據樣本(multiple reader multiple case,MRMC)、隨機交叉自身對照等試驗設計。如臨床試驗采用其他設計,在闡明設計科學合理的前提下,也可用于評價產品臨床性能。以下僅詳細闡述多閱片者多數據樣本(multiple reader multiple case,MRMC)、隨機交叉自身對照兩種設計。
3.1多閱片者多數據樣本(multiple reader multiple case,MRMC)設計
如采用此種設計,整個臨床試驗由協調研究者組織,各臨床試驗機構閱片者整體進行分組,各臨床試驗機構入組的病例共同組成分析集。臨床試驗將參與的閱片者分為兩組。兩組病理醫師分別在軟件的輔助下及未使用軟件的情況下對入組的病理圖像(或病理切片)進行判讀,判讀結果以臨床參考標準為準,分別評價軟件輔助下及未使用軟件的情況下病理醫師診斷準確性。
試驗過程分為兩個階段,第一組病理醫師第一階段在使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀;經一定的洗脫期后,第二階段在不使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀。第二組醫師第一階段在不使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀;經一定的洗脫期后,第二階段在使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀。該試驗中醫師使用軟件輔助的判讀結果作為試驗組,不使用軟件輔助判讀的結果作為對照組,比較試驗組與對照組同臨床參考標準對比病理圖像(或病理切片)判讀的準確度。閱片過程中每名醫師需分別在使用軟件和不使用軟件的條件下都完成所有入組病理圖像(或病理切片)的閱片。
3.2隨機交叉自身對照設計
該設計應在每家臨床試驗機構單獨開展,臨床試驗協調研究者最終將各機構數據匯總統計。每家臨床試驗機構由資質滿足要求的研究者參與。臨床試驗過程中研究者開展兩個階段工作,一是,研究者使用軟件對病理圖像(或病理切片)進行判讀,二是,上述研究者未使用軟件分別對入組的病理圖像(或病理切片)進行判讀。判讀結果以臨床參考標準為準,分別評價軟件輔助下及未使用軟件的情況下病理醫師診斷準確性。
試驗過程將入組的病理圖像(或病理切片)隨機平均分為兩組,臨床試驗分為兩個階段,第一階段病理醫師在使用軟件輔助的條件下完第一組病理圖像(或病理切片)的判讀,同時在不使用軟件輔助的條件下完成第二組病理圖像(或病理切片)的判讀;經一定的洗脫期后,第二階段在不使用軟件輔助的條件下完成第一組病理圖像(或病理切片)的判讀,同時在使用軟件輔助的條件下完第二組病理圖像(或病理切片)的判讀。該試驗中醫師使用軟件輔助的判讀結果作為試驗組,不使用軟件輔助判讀的結果作為對照組,比較試驗組與對照組同臨床參考標準對比,病理圖像(或病理切片)判讀的準確度。閱片過程中每名醫師需分別在使用軟件和不使用軟件的條件下都完成所有入組病例圖像的閱片。
4.臨床試驗參考標準
臨床參考標準是指現有條件下臨床上可獲得的能夠用來確定受試者目標狀態的最佳方法,通常來自臨床和實驗室的醫學實踐,包括:現有條件下公認的、可靠的、權威的疾病診斷標準(如組織病理學檢查、影像學檢查、病原體分離培養鑒定、長期隨訪所得的結論等),疾病診療指南中明確的疾病診斷方法,行業內專家共識推薦的或臨床上公認的、合理的參考方法等。臨床參考標準可能是一種方法,也可能是多種方法相結合。
如根據產品臨床試驗要求,臨床試驗過程中需要以病理閱片結果作為參考標準。一般而言,病理閱片的參考標準為多位具有資深經驗的病理醫師組成的病理醫師專家組共同對病理切片進行判讀的結果,專家組中病理醫師的數量一般不少于3人。參考標準應明確病理結果判定的決策機制,特別是針對專家組中不同病理醫師判讀結果存在差異的情況下,應明確后續的處理措施及最終結果確定的依據。
5.臨床試驗入組人群
病理圖像人工智能分析軟件臨床研究入組的受試者應為產品預期適用人群。受試者應具有代表性,如針對腫瘤輔助診斷的產品,入組的受試者應包括各種組織類型、不同的腫瘤分級、分期以及相關良性疾病、其他易混淆、干擾病例等。
為了更加科學的評價產品性能,臨床試驗應包含部分病理醫師難以診斷的病例及陽性閾值臨近范圍內的病例。
根據產品評價要求,臨床試驗入組的病例應與算法訓練及調優的病例不同。
6.臨床評價指標
針對定性分析,臨床試驗評價指標特別是主要評價指標應根據臨床試驗目的及設計確定。臨床試驗主要評價指標為使用軟件的病理醫師與未使用軟件的病理醫師閱片與臨床參考標準對比的陽性一致率、陰性一致率;使用軟件的病理醫師與未使用軟件的病理醫師閱片效率;軟件獨立閱片與臨床參考標準的陽性一致率、陰性一致率等。
針對半定量/定量分析,臨床試驗應設置合理的評價指標如等級符合率、回歸分析的回歸系數、截距、相關系數和決定系數等。
臨床試驗應考慮整體的優效性評價,以定性分析為例,如:使用軟件的病理醫師與未使用軟件的病理醫師閱片同臨床參考標準對比的陽性一致率或陰性一致率的有效性;或者確保使用軟件的病理醫師與未使用軟件的病理醫師閱片同臨床參考標準對比的陽性一致率和陰性一致率的優效或非劣效前提下,閱片效率的優效性。
7.樣本量估算
樣本量一般根據臨床試驗的主要評價指標進行估算。需在臨床試驗方案中說明樣本量估算的相關要素及其確定依據、樣本量的具體計算方法。
7.1確認軟件提高閱片準確性的樣本量估算
該類產品臨床試驗的主要評價指標為使用軟件作為輔助的病理醫師與未使用軟件的病理醫師在閱片準確性方面的差異。軟件輔助病理醫師閱片準確性與病理醫師單獨閱片相比,準確性具有顯著提升,軟件的臨床意義才能被確認。因此,建議采用優效性模型或優效性模型與非劣效性模型結合進行樣本量估算。
以定性產品為例,臨床試驗應根據陽性一致率估算陽性病例數量,根據陰性一致率估算陰性病例數量。臨床試驗可針對陽性一致率、陰性一致率均采用優效性模型進行樣本量估算;也可選擇其中一個指標采用優效性模型進行樣本量估算,另一個指標采用非劣效性模型進行樣本量估算。
7.2確認軟件縮短閱片時間的樣本量估算
該類產品臨床試驗的主要評價指標為使用軟件作為輔助的病理醫師與未使用軟件的病理醫師在閱片時間等方面的差異。軟件輔助病理醫師閱片時間與病理醫師單獨閱片相比,閱片效率具有顯著提升,同時,軟件輔助病理醫師閱片與病理醫師單獨閱片相比,閱片準確性應無顯著差異,軟件的臨床意義才能被確認。因此,建議針對閱片時間的評價采用優效性模型進行樣本量估算,同時針對陽性一致率和陰性一致率采用非劣效性模型或優效性模型進行樣本量估算,臨床試驗樣本量應能夠同時滿足上述要求。
臨床試驗樣本量估算還應考慮主要評價指標有臨床實際意義的界值、主要評價指標的相關參數(如預期有效率、均值、標準差等)、Ⅰ類和Ⅱ類錯誤率以及預期的受試者脫落和方案違背的比例等。針對確認軟件縮短閱片時間的樣本量估算,應確??傃芯康蘑蝾愬e誤概率β設定不大于0.2。
若采用MRMC的試驗設計,樣本量計算需首先明確具體的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBMH分析法),并進一步明確受試醫師數量,顯著性α、把握度1-β、預計效應值,優效/非劣效界值,其中預計效應值可通過預試驗或調研并匯總分析目標病例檢出的診斷學研究文獻獲得。
8.統計分析
臨床試驗應采用合理的方式進行統計分析。以定性產品為例,臨床試驗中針對軟件作為輔助的病理醫師、未使用軟件的病理醫師、分析軟件閱片的準確性進行統計分析,應分別以臨床參考標準為對照,以2×2表的形式統計閱片結果的陽性一致率、陰性一致率及總一致率。同時針對二者的陽性一致率、陰性一致率及總一致率分別按照要求進行假設檢驗或區間分析。
確認軟件縮短閱片時間的臨床試驗還應針對閱片效率進行統計分析。
9.偏倚控制
為了控制臨床試驗的偏倚,研究過程中應針對病例/切片應進行設盲,使研究者在試驗過程中不知曉受試者疾病診斷或其他相關檢測等信息,從而避免引入偏倚。
臨床試驗涉及同一個病理醫師兩次閱片的情況,病理醫師在進行下一次閱片時應保留一段時間的記憶清除期(脫敏期),此段時間一般不少于兩周。每次閱片時建議人為納入一定數量的不同的干擾病例。干擾病例應同時具有陽性和陰性病例,將干擾病例混入分析組中,使研究者同時針對分析組中的病例及干擾病例進行操作,但干擾病例結果不納入統計分析。
針對適用于顯微鏡下組織或細胞圖像的產品,臨床試驗過程中應注意,臨床試驗開展過程應與產品臨床應用過程相符,即同一研究者參與顯微鏡下圖像的選擇與結果判讀全過程。
10.質量控制
臨床試驗開始前,應進行相關培訓,以確保研究者熟悉并掌握相關試驗方法,最大限度控制試驗誤差。整個試驗過程都應處于有效的質量控制下,最大限度保證試驗數據的準確性及可重復性。
臨床試驗應嚴格按照產品說明書進行操作,應根據相關要求進行必要的HE染色,應設置合理對照。
四、關于配套使用產品的要求
產品臨床試驗應明確配合使用的檢測試劑及圖像采集設備。產品配合使用的檢測試劑及圖像采集設備應固定,且與產品臨床前研究一致。
臨床試驗過程中軟件運行環境如:運行所需的硬件配置、軟件環境和網絡條件應與產品臨床前研究一致。其中硬件配置包括處理器、存儲器和外設器件,軟件環境包括系統軟件、支持軟件和安全軟件,網絡條件包括網絡架構(BS、CS)、網絡類型(廣域網、局域網、個域網)和帶寬。
五、產品適用范圍
病理圖像人工智能分析軟件僅在醫療機構與配套的檢測檢測試劑、病理圖像掃描儀配合使用。適用于病理檢測過程中對病理圖像的輔助識別,輔助病理人員識別出目標切片。本產品不單獨用于病理診斷,不單獨作為臨床診療決策依據,所有經軟件判讀的樣本最終結果需要醫師確認。該產品經培訓合格的醫師使用。圖像采集由指定型號的顯微鏡或圖像采集設備,并經培訓合格的人員對圖像質量進行認可。
六、參考文獻
[1] 原國家食品藥品監督管理局.醫療器械臨床試驗設計指導原則:食品藥品監管總局通告2018年第6號[Z].(2018-01-04)[2021-05-01].https://www.cmde.org.cn/CL0058/6
882.html.
[2] Xiao-Hua Zhou,Nancy A.Obuchowski,Donna K.McClish. 診斷醫學中的統計學方法(第二版) [M].北京:高等教育出版社,2016。
[3] 李衛.醫療器械臨床試驗統計方法(第二版) [M].北京:科學出版社,2016。