🗂️

기업의 데이터 보안 정책

Author

송영숙/ML research · 정책총괄 , 김덕현 / Head of Development

데이터 처리에 따른 전송 보안 정책

•

주체

◦

데이터 보안팀이 주도, 개발팀이 참여

◦

목적

•

데이터 유출 위험 최소화

◦

개인정보보호법 준수

◦

기업 기밀 보호

•

도입 시기

◦

ChatGPT 등의 LLM 도입 전 데이터 전처리 단계부터 시작

◦

개인정보(이름, 주민번호 등)와 기밀정보를 가명/익명 처리

◦

업무 수행에 꼭 필요한 최소한의 정보만 선별하여 입력

•

ChatGPT를 사용하는 경우의 주요 보안 요소

◦

ChatGPT Enterprise 보안정책(Private Endpoint)에 따름

OpenAI/Azure OpenAI 정책: 유료 사용(엔터프라이즈 모드) 시, 데이터가 모델 학습에 사용되지 않도록 정책을 확인하고, Opt-out 옵션을 활성화

%%{init: {'theme': 'default', 'themeVariables': { 'fontSize': '16px'}}}%%
flowchart LR
    A[User Interface] --> B{Authentication}
    B -->|Login| C[Users]
    C -->|Input| D[Content Filter]
    D -->|Filtered| E[ChatGPT]
    E -->|Response| F[Content Filter]
    F -->|Filtered| C
    
    subgraph Security
        B
        D
        F
    end
    
    subgraph Enterprise
        direction TB
        G[Private Endpoint]
        H[Data Opt-out]
    end
    
    E --- Enterprise
Mermaid
복사

온프레미스(On-premise) 환경에서의 주요 보안 요소

•

물리적 보안

◦

전용 GPU/CPU 서버 운영

◦

데이터센터급 인프라 구축

◦

네트워크 보안

◦

L2, L4 스위치로 네트워크 분리

◦

Infiniband 스위치로 고성능 격리 통신

•

데이터 보안

◦

DB 서버와 빅데이터DB 서버 분리

◦

GDS 스토리지로 대용량 데이터 격리 저장

◦

시스템 분리

◦

WAS, K8S 서버 분리로 접근 통제

◦

각 서버별 독립 스토리지 구성

데이터 학습시 발생할 수 있는 위험과 관련 보안 정책

•

접근 권한(Access Control) 관리

•

원천 데이터의 라이선스 확인

◦

데이터 라이선스와 관련된 가이드라인 준수

◦

온프레미스 환경에서 오픈소스, 상용 라이브러리(NVIDIA 드라이버, CUDA, Docker, Keycloak 등)를 사용 시, 각자의 라이선스 조건과 EoS(End of Support) 일정을 준수하고 보안 취약점 패치가 끊긴 EoS 소프트웨어를 사용하지 않도록 함.

◦

LLM과 RAG 환경에서 라이선스 예시

graph TB
    subgraph RAG[RAG Environment]
        RDB[Database]
        RAPP[Application]
        RMON[Monitoring]
        
        RDB --> PostgreSQL[PostgreSQL<br/>MIT 라이선스와 유사한 등급의 PostgreSQL License]
        RAPP --> SpringBoot[Spring Boot<br/>Apache 2.0과 같은 상업적 이용가 등급]
        RAPP --> NodeJS[Node.js<br/>MIT 라이선스와 같은 상업적 이용가 등급]
        RMON --> Prometheus[Prometheus<br/>Apache 2.0]
        RMON --> Keycloak[Keycloak<br/>Apache 2.0]
    end
    
    subgraph LLM[LLM Environment]
        NVIDIA[Nvidia Stack]
        MODEL[Model Serving]
        
        NVIDIA --> Container[Container Toolkit<br/>Apache 2.0]
        NVIDIA --> CUDA[CUDA/Driver<br/>소프트웨어에 대한 라이선스 권한을 허가를 위한 NVIDIA LICENSE]
        MODEL --> VLLM[vLLM<br/>Apache 2.0 ]
        MODEL --> Transformers[Transformers<br/>Apache 2.0]
    end
    
    RAG <--> LLM
Mermaid
복사

•

데이터 처리

◦

민감정보 익명화/마스킹 자동화 도구 사용

◦

에어갭(Air-gap) 네트워크와 같이 물리적으로 완전히 분리된 네트워크 환경을 구성할 수 있음

▪

외부 인터넷과 차단된 네트워크 사용

▪

물리적으로 독립된 서버/장비/외장하드 사용

▪

데이터 반출입 시 보안 검사

•

AI 모델 학습 환경 보안

◦

학습데이터의 프라이빗 환경에서 사용 및 암호화 저장

◦

모델 학습 이력 로깅

◦

데이터 접근 권한 관리

◦

모델 가중치 보호

◦

담당자 교육

•

AI 모델 출력 보안

◦

추론 결과 필터링

◦

프롬프트 주입 및 재활용시 외부 인원에게 유출 방지

◦

응답 데이터 검증

결론 및 주요 내용 요약

데이터 처리 보안

•

주체: 데이터 보안팀 주도, 개발팀 참여

•

시점: LLM 도입 전 데이터 전처리부터

•

방법: 개인정보 익명화, 최소 정보만 사용

Enterprise 환경 보안

•

ChatGPT Enterprise Private Endpoint 사용

•

Opt-out 옵션 활성화로 학습 데이터 보호

온프레미스 인프라 보안

•

물리적 분리: GPU/CPU 서버, 네트워크 격리

•

시스템 분리: DB, WAS, K8S 서버 독립 운영

라이선스 관리

•

EoS(End of Support) 일정 준수

•

보안 취약점 패치 관리

•

각 컴포넌트별 라이선스 준수 (Apache 2.0, MIT 등)

AI 모델 보안

•

에어갭 네트워크 구성

•

학습 데이터 암호화

•

모델 가중치 보호

•

출력 데이터 검증