채팅 Data S3 Tier 전략

•

raw: 수집 직후 원본(JSON)

•

curated: 정제·중복제거 후 Parquet (Atenta, Lambda Trigger)

•

agg: 집계 데이터(API·리포트용, AWS Bedrock AI 정제)

•

dt=channelUUID/YYYY/MM/DD/

→ 채널 먼저 그다음 날짜로 필터링

•

raw: JSONL 128~512MB 단위

•

curated: Parquet(Snappy), 512MB 단위

•

작은 파일 쌓이면 주기적으로 머지

Ingest → raw 저장

ETL: 정제+중복제거 → curated

집계: 주·월 단위 통계 → agg

Lifecycle 정책으로 자동 티어링·삭제