1. 버킷 구조
•
raw: 수집 직후 원본(JSON)
•
curated: 정제·중복제거 후 Parquet (Atenta, Lambda Trigger)
•
agg: 집계 데이터(API·리포트용, AWS Bedrock AI 정제)
2. 파티션 설계
•
dt=channelUUID/YYYY/MM/DD/
→ 채널 먼저 그다음 날짜로 필터링
3. 스토리지 클래스 & 수명주기
구간 | 0~30일 | 31~90일 | 90일+ |
raw | Standard | Intelligent-Tiering | Glacier Deep Archive |
curated | Standard | Standard-IA | Glacier Instant Retrieval |
agg | Standard | Standard-IA | 삭제 |
4. 파일 규칙
•
raw: JSONL 128~512MB 단위
•
curated: Parquet(Snappy), 512MB 단위
•
작은 파일 쌓이면 주기적으로 머지
5. 처리 흐름
1.
Ingest → raw 저장
2.
ETL: 정제+중복제거 → curated
3.
집계: 주·월 단위 통계 → agg
4.
Lifecycle 정책으로 자동 티어링·삭제
