home
🗂️

기업의 데이터 보안 정책

Author
송영숙/ML research · 정책총괄 , 김덕현 / Head of Development
Category
Service
Tags
dataset
Security policy
Published
2025/01/03
5 more properties
이번 아티클에서는 기업의 데이터가 전송 및 학습되는 과정에서 유출될 위험에 대비하는 데이터 보호 정책에 대해서 다룹니다.

데이터 처리에 따른 전송 보안 정책

주체
데이터 보안팀이 주도, 개발팀이 참여
목적
데이터 유출 위험 최소화
개인정보보호법 준수
기업 기밀 보호
도입 시기
ChatGPT 등의 LLM 도입 전 데이터 전처리 단계부터 시작
개인정보(이름, 주민번호 등)와 기밀정보를 가명/익명 처리
업무 수행에 꼭 필요한 최소한의 정보만 선별하여 입력
ChatGPT를 사용하는 경우의 주요 보안 요소
ChatGPT Enterprise 보안정책(Private Endpoint)에 따름
OpenAI/Azure OpenAI 정책: 유료 사용(엔터프라이즈 모드) 시, 데이터가 모델 학습에 사용되지 않도록 정책을 확인하고, Opt-out 옵션을 활성화
%%{init: {'theme': 'default', 'themeVariables': { 'fontSize': '16px'}}}%%
flowchart LR
    A[User Interface] --> B{Authentication}
    B -->|Login| C[Users]
    C -->|Input| D[Content Filter]
    D -->|Filtered| E[ChatGPT]
    E -->|Response| F[Content Filter]
    F -->|Filtered| C
    
    subgraph Security
        B
        D
        F
    end
    
    subgraph Enterprise
        direction TB
        G[Private Endpoint]
        H[Data Opt-out]
    end
    
    E --- Enterprise
Mermaid
복사

온프레미스(On-premise) 환경에서의 주요 보안 요소

물리적 보안
전용 GPU/CPU 서버 운영
데이터센터급 인프라 구축
네트워크 보안
L2, L4 스위치로 네트워크 분리
Infiniband 스위치로 고성능 격리 통신
데이터 보안
DB 서버와 빅데이터DB 서버 분리
GDS 스토리지로 대용량 데이터 격리 저장
시스템 분리
WAS, K8S 서버 분리로 접근 통제
각 서버별 독립 스토리지 구성

데이터 학습시 발생할 수 있는 위험과 관련 보안 정책

접근 권한(Access Control) 관리
원천 데이터의 라이선스 확인
데이터 라이선스와 관련된 가이드라인 준수
온프레미스 환경에서 오픈소스, 상용 라이브러리(NVIDIA 드라이버, CUDA, Docker, Keycloak 등)를 사용 시, 각자의 라이선스 조건과 EoS(End of Support) 일정을 준수하고 보안 취약점 패치가 끊긴 EoS 소프트웨어를 사용하지 않도록 함.
LLM과 RAG 환경에서 라이선스 예시
graph TB
    subgraph RAG[RAG Environment]
        RDB[Database]
        RAPP[Application]
        RMON[Monitoring]
        
        RDB --> PostgreSQL[PostgreSQL<br/>MIT 라이선스와 유사한 등급의 PostgreSQL License]
        RAPP --> SpringBoot[Spring Boot<br/>Apache 2.0과 같은 상업적 이용가 등급]
        RAPP --> NodeJS[Node.js<br/>MIT 라이선스와 같은 상업적 이용가 등급]
        RMON --> Prometheus[Prometheus<br/>Apache 2.0]
        RMON --> Keycloak[Keycloak<br/>Apache 2.0]
    end
    
    subgraph LLM[LLM Environment]
        NVIDIA[Nvidia Stack]
        MODEL[Model Serving]
        
        NVIDIA --> Container[Container Toolkit<br/>Apache 2.0]
        NVIDIA --> CUDA[CUDA/Driver<br/>소프트웨어에 대한 라이선스 권한을 허가를 위한 NVIDIA LICENSE]
        MODEL --> VLLM[vLLM<br/>Apache 2.0 ]
        MODEL --> Transformers[Transformers<br/>Apache 2.0]
    end
    
    RAG <--> LLM
Mermaid
복사
데이터 처리
민감정보 익명화/마스킹 자동화 도구 사용
에어갭(Air-gap) 네트워크와 같이 물리적으로 완전히 분리된 네트워크 환경을 구성할 수 있음
외부 인터넷과 차단된 네트워크 사용
물리적으로 독립된 서버/장비/외장하드 사용
데이터 반출입 시 보안 검사
AI 모델 학습 환경 보안
학습데이터의 프라이빗 환경에서 사용 및 암호화 저장
모델 학습 이력 로깅
데이터 접근 권한 관리
모델 가중치 보호
담당자 교육
AI 모델 출력 보안
추론 결과 필터링
프롬프트 주입 및 재활용시 외부 인원에게 유출 방지
응답 데이터 검증

결론 및 주요 내용 요약

1.
데이터 처리 보안
주체: 데이터 보안팀 주도, 개발팀 참여
시점: LLM 도입 전 데이터 전처리부터
방법: 개인정보 익명화, 최소 정보만 사용
2.
Enterprise 환경 보안
ChatGPT Enterprise Private Endpoint 사용
Opt-out 옵션 활성화로 학습 데이터 보호
3.
온프레미스 인프라 보안
물리적 분리: GPU/CPU 서버, 네트워크 격리
시스템 분리: DB, WAS, K8S 서버 독립 운영
4.
라이선스 관리
EoS(End of Support) 일정 준수
보안 취약점 패치 관리
각 컴포넌트별 라이선스 준수 (Apache 2.0, MIT 등)
5.
AI 모델 보안
에어갭 네트워크 구성
학습 데이터 암호화
모델 가중치 보호
출력 데이터 검증