
Annex 22의 핵심 구조
— Scope부터 Operation까지 —
🧠 Annex 22는 어떻게 구성되어 있나요?
Annex 22는 기존 Annex 11을 보완하는 AI 전용 세부 가이드라인입니다.
AI 모델의 개발부터 검증, 테스트, 운영에 이르는 전체 생애주기를 기준으로
체계적으로 구성되어 있으며, 그 목적은 명확합니다:
AI가 GMP 환경에서 안전하고 예측 가능하며
통제된 방식으로 작동하도록 보장하는 것.
이 가이드라인은
'Scope → Principles → Intended Use → Testing →
Explainability → Confidence → Operation'의 단계적 흐름으로 구성되며,
각 단계는 서로 긴밀하게 연결되어 있습니다.
📌 Scope — 어떤 AI가 규제 대상인가요?
Annex 22의 첫 번째 핵심은 규제 범위를 명확히 정의하는 것입니다.
🔹 적용 대상
- 의약품 및 원료의약품 제조에 사용되는 AI 및 ML 모델
- 품질, 환자 안전, 데이터 무결성에 직접적인 영향을 줄 수 있는 모든 모델
- 단독 모델뿐만 아니라 서브모델을 포함한 복합 모델도 포함
🔹 제외 대상
❌ 동적 모델(Dynamic Model)
❌ 확률적 출력 모델(Probabilistic Output Model)
❌ 생성형 AI / LLM(Critical 용도에서)
이 단계를 통해 GMP 환경에서 "사용 가능한 AI"와 "사용할 수 없는 AI"가 명확히 구분됩니다.
🧩 Principles — Annex 22의 운영 철학
Annex 22는 다음과 같은 기본 원칙을 바탕으로 AI를 관리하도록 요구합니다:
- QRM 기반 판단(Risk-based Approach) — 리스크 평가에 기반한 의사결정
- 문서 기반 통제(Evidence-based Control) — 모든 판단과 변경사항을 문서로 입증
- 역할 및 책임 명확화 — 누가, 무엇을, 언제 책임지는지 명시
- 모델 이해 기반 운영(Technical Understanding) — 모델의 작동 원리에 대한 기술적 이해 필수
이는 Annex 11의 기본 철학을 계승하면서도, AI의 특성을 반영하여 요구 수준을 한층 강화한 형태입니다.
🎯 Intended Use — 모델이 무엇을 하는지 명확히 정의하기
AI에 대한 실질적인 규제는 바로 이 단계에서 시작됩니다.
🔹 구성 요소
- 입력 데이터의 정의 (정상 케이스뿐 아니라 희귀 케이스도 포함)
- 모델이 판단하는 출력(Output)의 범위
- 하위 그룹(Subgroup) 정의 (장비 종류, 지역, 결함 유형 등)
- 예상 가능한 오류 패턴 및 편향(bias)
🔹 HITL(Human-in-the-Loop)이 포함된 경우
- 사람이 최종 판단에 대한 책임을 지는 구조 명확화
- 검토 방식, 담당자의 교육 수준, 기록 요건을 문서화
Intended Use는 이후 Testing과 Operation 단계에서 모든 판단의 기준점이 됩니다.
🔸 Intended Use 구성요소

🧪 Testing — 모델이 의도대로 작동하는지 검증하기
AI 모델 검증은 크게 세 가지 축으로 이루어집니다.
🔹 Acceptance Criteria (합격 기준)
- Accuracy / Precision / Recall / F1-score 등의 성능 지표
- Confusion matrix를 활용한 성능 판단
- 품질 영향도에 따른 기준값 설정
🔹 Test Data (테스트 데이터)
- 충분한 데이터 규모 확보
- Intended Use에서 정의한 전체 샘플 공간을 대표할 수 있는 데이터
- 라벨링의 정확성 확보 (시험기기 검증, 전문가(SME) 교차 검증 포함)
- 전처리(Preprocessing) 절차의 문서화
🔹 Independency (독립성)
- Train / Validate / Test 데이터의 완전한 분리
- 개발자의 테스트 데이터 접근 금지
- 소규모 조직의 경우 4-eyes principle (이중 검토 원칙) 적용
🔸 AI 테스트 데이터 분리 구조

🧠 Explainability — 모델 판단의 정당성 확보
Critical GMP 영역에서 AI의 결정은 반드시 설명 가능(Explainable)해야 합니다.
🔹 요구사항
- 어떤 특성(Feature)이 모델 판단에 기여했는지 확인 가능해야 함
- SHAP, LIME, Heatmap 등 설명 가능한 AI(XAI) 기법 활용
- 전문가(SME)의 리뷰 및 정당성 승인 필요
Explainability는 모델이 "왜 그렇게 판단했는가"를 명확히 설명할 수 있어야 하며,
이는 품질 리스크 평가의 핵심 요소입니다.
📊 Confidence — 출력 결과의 신뢰도 관리
Annex 22는 예측 및 분류 결과에 대한 신뢰도 점수(Confidence Score) 관리를 요구합니다.
- 신뢰도가 낮은 경우 "Undecided(판단 보류)" 옵션을 적용할 수 있음
- 신뢰도 임계값 설정 필수
- Drift(데이터 변화) 탐지와 함께 지속적으로 모니터링
🔧 Operation — 모델 운영 단계의 핵심 통제
AI 모델은 검증을 통과한 이후에도 지속적으로 관리되어야 합니다.
🔹 Change Control (변경 관리)
다음과 같은 변경이 발생할 경우 모델 재테스트가 필요합니다:
- 공정(Process) 업데이트
- 카메라 또는 센서 변경
- 입력 패턴의 변화
- 알고리즘 또는 파라미터 변경
🔹 Performance Monitoring (성능 모니터링)
- Accuracy, Drift, Outlier 등을 주기적으로 점검
- 성능 저하가 발생하면 즉시 재평가 수행
🔹 Input Space Drift Detection (입력 공간 변화 탐지)
- 입력 데이터가 초기 Sample Space 범위 내에 있는지 지속적으로 감시
🔹 Human-in-the-loop (HITL)
- 모델 판단에 대한 일관된 검토 기록 보유
- Critical 영역에서는 전수 검토도 가능
🔸 Annex 22 운영 단계 통제도

📌 요약 정리
| 구조 | 핵심 내용 | 의미 |
| Scope | 적용 및 비적용 모델 정의 | GMP에 사용 가능한 AI 선정 |
| Intended Use | 모델의 목적과 범위 명확화 | Testing 및 Operation의 기준점 |
| Testing | 성능 검증 및 데이터 독립성 | PQS 기반 모델 품질 확보 |
| Explainability | 판단 근거 확인 | 품질 및 규제 대응 가능성 확보 |
| Operation | 변경 관리, 드리프트 탐지, HITL | 지속적인 신뢰성 유지 |
📎 참고자료
- Annex 22 Draft (2025)
- EMA·PIC/S 공동 개정 문서
'EU·PICS GMP Revision Series Structure > Ⅴ. Annex 22 – Artificial Intelligence' 카테고리의 다른 글
| 제약·바이오 기업의 Annex 22 대응 전략—조직·프로세스·SOP 수준의 변화 (0) | 2026.03.02 |
|---|---|
| AI Validation과 Test Data 관리의 실제 — Annex 22 실무 적용 가이드 (0) | 2026.02.23 |
| GMP 최초의 AI 전용 가이드라인, Annex 22 등장 (0) | 2026.02.09 |