Search

채팅 Data S3 Tier 전략

1. 버킷 구조

raw: 수집 직후 원본(JSON)
curated: 정제·중복제거 후 Parquet (Atenta, Lambda Trigger)
agg: 집계 데이터(API·리포트용, AWS Bedrock AI 정제)

2. 파티션 설계

dt=channelUUID/YYYY/MM/DD/
→ 채널 먼저 그다음 날짜로 필터링

3. 스토리지 클래스 & 수명주기

구간
0~30일
31~90일
90일+
raw
Standard
Intelligent-Tiering
Glacier Deep Archive
curated
Standard
Standard-IA
Glacier Instant Retrieval
agg
Standard
Standard-IA
삭제

4. 파일 규칙

raw: JSONL 128~512MB 단위
curated: Parquet(Snappy), 512MB 단위
작은 파일 쌓이면 주기적으로 머지

5. 처리 흐름

1.
Ingest → raw 저장
2.
ETL: 정제+중복제거 → curated
3.
집계: 주·월 단위 통계 → agg
4.
Lifecycle 정책으로 자동 티어링·삭제