이번 아티클에서는 기업의 데이터가 전송 및 학습되는 과정에서 유출될 위험에 대비하는 데이터 보호 정책에 대해서 다룹니다.
데이터 처리에 따른 전송 보안 정책
•
주체
◦
데이터 보안팀이 주도, 개발팀이 참여
◦
목적
•
데이터 유출 위험 최소화
◦
개인정보보호법 준수
◦
기업 기밀 보호
•
도입 시기
◦
ChatGPT 등의 LLM 도입 전 데이터 전처리 단계부터 시작
◦
개인정보(이름, 주민번호 등)와 기밀정보를 가명/익명 처리
◦
업무 수행에 꼭 필요한 최소한의 정보만 선별하여 입력
•
ChatGPT를 사용하는 경우의 주요 보안 요소
◦
ChatGPT Enterprise 보안정책(Private Endpoint)에 따름
OpenAI/Azure OpenAI 정책: 유료 사용(엔터프라이즈 모드) 시, 데이터가 모델 학습에 사용되지 않도록 정책을 확인하고, Opt-out 옵션을 활성화
%%{init: {'theme': 'default', 'themeVariables': { 'fontSize': '16px'}}}%% flowchart LR A[User Interface] --> B{Authentication} B -->|Login| C[Users] C -->|Input| D[Content Filter] D -->|Filtered| E[ChatGPT] E -->|Response| F[Content Filter] F -->|Filtered| C subgraph Security B D F end subgraph Enterprise direction TB G[Private Endpoint] H[Data Opt-out] end E --- Enterprise
Mermaid
복사
온프레미스(On-premise) 환경에서의 주요 보안 요소
•
물리적 보안
◦
전용 GPU/CPU 서버 운영
◦
데이터센터급 인프라 구축
◦
네트워크 보안
◦
L2, L4 스위치로 네트워크 분리
◦
Infiniband 스위치로 고성능 격리 통신
•
데이터 보안
◦
DB 서버와 빅데이터DB 서버 분리
◦
GDS 스토리지로 대용량 데이터 격리 저장
◦
시스템 분리
◦
WAS, K8S 서버 분리로 접근 통제
◦
각 서버별 독립 스토리지 구성
데이터 학습시 발생할 수 있는 위험과 관련 보안 정책
•
접근 권한(Access Control) 관리
•
원천 데이터의 라이선스 확인
◦
◦
온프레미스 환경에서 오픈소스, 상용 라이브러리(NVIDIA 드라이버, CUDA, Docker, Keycloak 등)를 사용 시, 각자의 라이선스 조건과 EoS(End of Support) 일정을 준수하고 보안 취약점 패치가 끊긴 EoS 소프트웨어를 사용하지 않도록 함.
◦
LLM과 RAG 환경에서 라이선스 예시
graph TB subgraph RAG[RAG Environment] RDB[Database] RAPP[Application] RMON[Monitoring] RDB --> PostgreSQL[PostgreSQL<br/>MIT 라이선스와 유사한 등급의 PostgreSQL License] RAPP --> SpringBoot[Spring Boot<br/>Apache 2.0과 같은 상업적 이용가 등급] RAPP --> NodeJS[Node.js<br/>MIT 라이선스와 같은 상업적 이용가 등급] RMON --> Prometheus[Prometheus<br/>Apache 2.0] RMON --> Keycloak[Keycloak<br/>Apache 2.0] end subgraph LLM[LLM Environment] NVIDIA[Nvidia Stack] MODEL[Model Serving] NVIDIA --> Container[Container Toolkit<br/>Apache 2.0] NVIDIA --> CUDA[CUDA/Driver<br/>소프트웨어에 대한 라이선스 권한을 허가를 위한 NVIDIA LICENSE] MODEL --> VLLM[vLLM<br/>Apache 2.0 ] MODEL --> Transformers[Transformers<br/>Apache 2.0] end RAG <--> LLM
Mermaid
복사
•
데이터 처리
◦
민감정보 익명화/마스킹 자동화 도구 사용
◦
에어갭(Air-gap) 네트워크와 같이 물리적으로 완전히 분리된 네트워크 환경을 구성할 수 있음
▪
외부 인터넷과 차단된 네트워크 사용
▪
물리적으로 독립된 서버/장비/외장하드 사용
▪
데이터 반출입 시 보안 검사
•
AI 모델 학습 환경 보안
◦
학습데이터의 프라이빗 환경에서 사용 및 암호화 저장
◦
모델 학습 이력 로깅
◦
데이터 접근 권한 관리
◦
모델 가중치 보호
◦
담당자 교육
•
AI 모델 출력 보안
◦
추론 결과 필터링
◦
프롬프트 주입 및 재활용시 외부 인원에게 유출 방지
◦
응답 데이터 검증
결론 및 주요 내용 요약
1.
데이터 처리 보안
•
주체: 데이터 보안팀 주도, 개발팀 참여
•
시점: LLM 도입 전 데이터 전처리부터
•
방법: 개인정보 익명화, 최소 정보만 사용
2.
Enterprise 환경 보안
•
ChatGPT Enterprise Private Endpoint 사용
•
Opt-out 옵션 활성화로 학습 데이터 보호
3.
온프레미스 인프라 보안
•
물리적 분리: GPU/CPU 서버, 네트워크 격리
•
시스템 분리: DB, WAS, K8S 서버 독립 운영
4.
라이선스 관리
•
EoS(End of Support) 일정 준수
•
보안 취약점 패치 관리
•
각 컴포넌트별 라이선스 준수 (Apache 2.0, MIT 등)
5.
AI 모델 보안
•
에어갭 네트워크 구성
•
학습 데이터 암호화
•
모델 가중치 보호
•
출력 데이터 검증