IT이야기
데이터 레이크(Data Lake)란? 데이터 웨어하우스와 차이 완벽 정리
딜레이라마
2026. 4. 9. 09:28
반응형
1️⃣ 데이터 레이크(Data Lake)란?
**데이터 레이크(Data Lake)**는 구조화된 데이터와 비정형 데이터를 원본 그대로 저장하는 데이터 저장소입니다.
대표적인 특징은 다음과 같습니다.
✔ 대용량 데이터 저장
✔ 다양한 데이터 형식 저장
✔ 데이터 분석 및 머신러닝 활용 가능
기업에서는 데이터 레이크를 통해 다양한 데이터를 모아 데이터 기반 의사결정을 수행합니다.
2️⃣ 데이터 레이크 등장 배경
기존 기업들은 데이터를 **데이터 웨어하우스(Data Warehouse)**에 저장했습니다.
하지만 데이터가 폭발적으로 증가하면서 다음과 같은 문제가 발생했습니다.
- 비정형 데이터 처리 어려움
- 높은 저장 비용
- 유연하지 않은 스키마 구조
이 문제를 해결하기 위해 등장한 것이 데이터 레이크입니다.
3️⃣ 데이터 레이크 구조
일반적인 데이터 레이크 구조는 다음과 같습니다.
데이터 수집
↓
데이터 저장 (Data Lake)
↓
데이터 처리
↓
데이터 분석
↓
데이터 저장 (Data Lake)
↓
데이터 처리
↓
데이터 분석
데이터는 다양한 소스에서 수집됩니다.
예시
- 웹 로그
- 모바일 이벤트
- IoT 데이터
- 이미지 데이터
이 데이터들은 정제되지 않은 상태로 데이터 레이크에 저장됩니다.
4️⃣ 데이터 레이크 vs 데이터 웨어하우스
두 기술의 차이를 정리하면 다음과 같습니다.
구분데이터 레이크데이터 웨어하우스
| 데이터 형태 | 정형 + 비정형 | 정형 데이터 |
| 저장 방식 | 원본 그대로 저장 | 정제 후 저장 |
| 스키마 | Schema on Read | Schema on Write |
| 사용 목적 | 데이터 분석 / AI | BI 분석 |
즉,
- 데이터 레이크 → 유연한 분석 환경
- 데이터 웨어하우스 → 정형 분석 환경
이라고 볼 수 있습니다.
5️⃣ 데이터 레이크 주요 기술
데이터 레이크는 다양한 기술과 함께 사용됩니다.
대표 기술
- Hadoop
- Apache Spark
- Trino
- Delta Lake
- Iceberg
특히 최근에는 클라우드 기반 데이터 레이크가 많이 사용됩니다.
예시
- AWS S3 Data Lake
- Azure Data Lake
- Google Cloud Storage
6️⃣ 데이터 레이크의 장점
데이터 레이크의 주요 장점은 다음과 같습니다.
✔ 저렴한 저장 비용
✔ 대용량 데이터 처리
✔ 다양한 데이터 분석 가능
이 때문에 많은 기업들이 데이터 레이크 기반 데이터 플랫폼을 구축하고 있습니다.
📌 결론
데이터 레이크는 현대 데이터 플랫폼에서 매우 중요한 역할을 합니다.
특히 다음 분야에서 활용됩니다.
- 빅데이터 분석
- 머신러닝 데이터 저장
- 로그 데이터 분석
데이터 엔지니어라면 데이터 레이크 아키텍처를 이해하는 것이 매우 중요합니다.
반응형