EU·PICS GMP Revision Series Structure/Ⅴ. Annex 22 – Artificial Intelligence

Annex 22의 핵심 구조 — Scope부터 Operation까지

KDKKDK22 2026. 2. 16. 08:23
반응형

Annex 22의 핵심 구조 — Scope부터 Operation까지

 

 

 

 

Annex 22의 핵심 구조
— Scope부터 Operation까지 —

 

 

🧠 Annex 22는 어떻게 구성되어 있나요?

Annex 22는 기존 Annex 11을 보완하는 AI 전용 세부 가이드라인입니다.
AI 모델의 개발부터 검증, 테스트, 운영에 이르는 전체 생애주기를 기준으로
체계적으로 구성되어 있으며, 그 목적은 명확합니다:

AI가 GMP 환경에서 안전하고 예측 가능하며
통제된 방식으로 작동하도록 보장하는 것.

 

이 가이드라인은
'Scope → Principles → Intended Use → Testing →
Explainability → Confidence → Operation'의 단계적 흐름으로 구성되며,
각 단계는 서로 긴밀하게 연결되어 있습니다.

 

 

📌 Scope — 어떤 AI가 규제 대상인가요?

Annex 22의 첫 번째 핵심은 규제 범위를 명확히 정의하는 것입니다.

🔹 적용 대상

  • 의약품 및 원료의약품 제조에 사용되는 AI 및 ML 모델
  • 품질, 환자 안전, 데이터 무결성에 직접적인 영향을 줄 수 있는 모든 모델
  • 단독 모델뿐만 아니라 서브모델을 포함한 복합 모델도 포함

🔹 제외 대상

동적 모델(Dynamic Model)

확률적 출력 모델(Probabilistic Output Model)

생성형 AI / LLM(Critical 용도에서)

이 단계를 통해 GMP 환경에서 "사용 가능한 AI"와 "사용할 수 없는 AI"가 명확히 구분됩니다.

 

 

🧩 Principles — Annex 22의 운영 철학

Annex 22는 다음과 같은 기본 원칙을 바탕으로 AI를 관리하도록 요구합니다:

  • QRM 기반 판단(Risk-based Approach) — 리스크 평가에 기반한 의사결정
  • 문서 기반 통제(Evidence-based Control) — 모든 판단과 변경사항을 문서로 입증
  • 역할 및 책임 명확화 — 누가, 무엇을, 언제 책임지는지 명시
  • 모델 이해 기반 운영(Technical Understanding) — 모델의 작동 원리에 대한 기술적 이해 필수

이는 Annex 11의 기본 철학을 계승하면서도, AI의 특성을 반영하여 요구 수준을 한층 강화한 형태입니다.

 

 

🎯 Intended Use — 모델이 무엇을 하는지 명확히 정의하기

AI에 대한 실질적인 규제는 바로 이 단계에서 시작됩니다.

🔹 구성 요소

  • 입력 데이터의 정의 (정상 케이스뿐 아니라 희귀 케이스도 포함)
  • 모델이 판단하는 출력(Output)의 범위
  • 하위 그룹(Subgroup) 정의 (장비 종류, 지역, 결함 유형 등)
  • 예상 가능한 오류 패턴 및 편향(bias)

🔹 HITL(Human-in-the-Loop)이 포함된 경우

  • 사람이 최종 판단에 대한 책임을 지는 구조 명확화
  • 검토 방식, 담당자의 교육 수준, 기록 요건을 문서화

Intended Use는 이후 Testing과 Operation 단계에서 모든 판단의 기준점이 됩니다.

 

🔸 Intended Use 구성요소

Intended Use 구성요소

 

 

 

🧪 Testing — 모델이 의도대로 작동하는지 검증하기

AI 모델 검증은 크게 세 가지 축으로 이루어집니다.

🔹 Acceptance Criteria (합격 기준)

  • Accuracy / Precision / Recall / F1-score 등의 성능 지표
  • Confusion matrix를 활용한 성능 판단
  • 품질 영향도에 따른 기준값 설정

🔹 Test Data (테스트 데이터)

  • 충분한 데이터 규모 확보
  • Intended Use에서 정의한 전체 샘플 공간을 대표할 수 있는 데이터
  • 라벨링의 정확성 확보 (시험기기 검증, 전문가(SME) 교차 검증 포함)
  • 전처리(Preprocessing) 절차의 문서화

🔹 Independency (독립성)

  • Train / Validate / Test 데이터의 완전한 분리
  • 개발자의 테스트 데이터 접근 금지
  • 소규모 조직의 경우 4-eyes principle (이중 검토 원칙) 적용

🔸 AI 테스트 데이터 분리 구조

AI 테스트 데이터 분리 구조

 

 

 

🧠 Explainability — 모델 판단의 정당성 확보

Critical GMP 영역에서 AI의 결정은 반드시 설명 가능(Explainable)해야 합니다.

🔹 요구사항

  • 어떤 특성(Feature)이 모델 판단에 기여했는지 확인 가능해야 함
  • SHAP, LIME, Heatmap 등 설명 가능한 AI(XAI) 기법 활용
  • 전문가(SME)의 리뷰 및 정당성 승인 필요

Explainability는 모델이 "왜 그렇게 판단했는가"를 명확히 설명할 수 있어야 하며,
이는 품질 리스크 평가의 핵심 요소입니다.

 

 

📊 Confidence — 출력 결과의 신뢰도 관리

Annex 22는 예측 및 분류 결과에 대한 신뢰도 점수(Confidence Score) 관리를 요구합니다.

  • 신뢰도가 낮은 경우 "Undecided(판단 보류)" 옵션을 적용할 수 있음
  • 신뢰도 임계값 설정 필수
  • Drift(데이터 변화) 탐지와 함께 지속적으로 모니터링

 

 

🔧 Operation — 모델 운영 단계의 핵심 통제

AI 모델은 검증을 통과한 이후에도 지속적으로 관리되어야 합니다.

🔹 Change Control (변경 관리)

다음과 같은 변경이 발생할 경우 모델 재테스트가 필요합니다:

  • 공정(Process) 업데이트
  • 카메라 또는 센서 변경
  • 입력 패턴의 변화
  • 알고리즘 또는 파라미터 변경

🔹 Performance Monitoring (성능 모니터링)

  • Accuracy, Drift, Outlier 등을 주기적으로 점검
  • 성능 저하가 발생하면 즉시 재평가 수행

🔹 Input Space Drift Detection (입력 공간 변화 탐지)

  • 입력 데이터가 초기 Sample Space 범위 내에 있는지 지속적으로 감시

🔹 Human-in-the-loop (HITL)

  • 모델 판단에 대한 일관된 검토 기록 보유
  • Critical 영역에서는 전수 검토도 가능

🔸 Annex 22 운영 단계 통제도

Annex 22 운영 단계 통제도

 

 

 

📌 요약 정리

구조 핵심 내용 의미
Scope 적용 및 비적용 모델 정의 GMP에 사용 가능한 AI 선정
Intended Use 모델의 목적과 범위 명확화 Testing 및 Operation의 기준점
Testing 성능 검증 및 데이터 독립성 PQS 기반 모델 품질 확보
Explainability 판단 근거 확인 품질 및 규제 대응 가능성 확보
Operation 변경 관리, 드리프트 탐지, HITL 지속적인 신뢰성 유지

 

 

 

📎 참고자료

반응형