1️⃣ Spark와 Flink란?데이터 엔지니어링에서 대용량 데이터를 처리할 때 사용하는 대표 기술입니다.✔ Apache Spark배치 처리 중심마이크로 배치 스트리밍 지원대규모 데이터 처리에 강점✔ Apache Flink진짜 스트리밍 처리실시간 데이터 처리 최적화낮은 지연(latency)2️⃣ 핵심 차이: 처리 방식가장 중요한 차이는 데이터 처리 방식입니다.🔹 Spark (마이크로 배치)데이터를 작은 배치 단위로 묶어서 처리 일정 시간마다 처리약간의 지연 발생🔹 Flink (진짜 스트리밍)데이터가 들어오는 즉시 처리 실시간 처리매우 낮은 지연3️⃣ Spark vs Flink 비교항목SparkFlink처리 방식마이크로 배치진짜 스트리밍지연 시간중간매우 낮음사용 사례배치 + 스트리밍실시간 처리학습 난이..
1️⃣ 데이터 웨어하우스란?데이터 웨어하우스(Data Warehouse)는분석과 리포팅을 위해 정제된 데이터를 저장하는 시스템입니다.일반적인 데이터 흐름은 다음과 같습니다.데이터 수집 ↓데이터 정제 (ETL) ↓데이터 웨어하우스 저장 ↓BI 분석 즉, 데이터를 바로 저장하는 것이 아니라👉 분석하기 좋은 형태로 가공해서 저장합니다.2️⃣ 데이터 웨어하우스 특징데이터 웨어하우스는 다음과 같은 특징을 가지고 있습니다.✔ 정형 데이터 중심테이블 형태의 구조화된 데이터 저장✔ 빠른 쿼리 성능BI 분석에 최적화된 구조✔ 데이터 통합여러 시스템의 데이터를 하나로 통합✔ 히스토리 데이터 관리과거 데이터를 장기간 저장3️⃣ 데이터 웨어하우스 아키텍처일반적인 구조는 다음과 같습니다.Source System ↓ETL / ..
1️⃣ ETL과 ELT란 무엇인가?데이터 엔지니어링에서 데이터를 처리하는 방식은 크게 두 가지가 있습니다.✔ ETL (Extract, Transform, Load)데이터 추출 → 데이터 변환 → 데이터 저장 ✔ ELT (Extract, Load, Transform)데이터 추출 → 데이터 저장 → 데이터 변환 즉 핵심 차이는 변환(Transform)이 언제 수행되는가입니다.2️⃣ ETL 방식 설명ETL은 전통적인 데이터 처리 방식입니다.동작 방식1️⃣ 데이터 추출 (Extract)2️⃣ 데이터 변환 (Transform)3️⃣ 데이터 저장 (Load)특징✔ 데이터를 미리 정제✔ 정형 데이터 중심✔ 데이터 품질 안정적단점처리 속도 느림유연성 부족대용량 데이터 처리 어려움3️⃣ ELT 방식 설명ELT는 최근 많..
1️⃣ 데이터 레이크(Data Lake)란?**데이터 레이크(Data Lake)**는 구조화된 데이터와 비정형 데이터를 원본 그대로 저장하는 데이터 저장소입니다.대표적인 특징은 다음과 같습니다.✔ 대용량 데이터 저장✔ 다양한 데이터 형식 저장✔ 데이터 분석 및 머신러닝 활용 가능기업에서는 데이터 레이크를 통해 다양한 데이터를 모아 데이터 기반 의사결정을 수행합니다.2️⃣ 데이터 레이크 등장 배경기존 기업들은 데이터를 **데이터 웨어하우스(Data Warehouse)**에 저장했습니다.하지만 데이터가 폭발적으로 증가하면서 다음과 같은 문제가 발생했습니다.비정형 데이터 처리 어려움높은 저장 비용유연하지 않은 스키마 구조이 문제를 해결하기 위해 등장한 것이 데이터 레이크입니다.3️⃣ 데이터 레이크 구조일반적인..
1️⃣ Kafka란 무엇인가?Apache Kafka 는 대규모 데이터를 실시간으로 수집하고 처리할 수 있는 분산 스트리밍 플랫폼입니다.Kafka는 원래로그 수집데이터 파이프라인 구축을 위해 만들어졌지만 지금은 실시간 데이터 플랫폼의 핵심 기술로 사용되고 있습니다.대표 특징✔ 높은 처리량✔ 확장성✔ 내구성2️⃣ Kafka 아키텍처 구조Kafka 시스템은 여러 구성 요소로 이루어져 있습니다.기본 구조는 다음과 같습니다.Producer ↓Kafka Broker ↓Topic ↓Consumer 각 구성 요소의 역할을 살펴보겠습니다.3️⃣ Kafka 주요 구성 요소① ProducerProducer는 Kafka로 데이터를 보내는 역할을 합니다.예시웹 서비스 로그사용자 이벤트시스템 로그Producer는 데이터를 Top..
1️⃣ 실시간 데이터 파이프라인이란?실시간 데이터 파이프라인은 데이터가 생성되는 즉시 수집하고 처리하는 시스템입니다.기존 데이터 처리 방식은 보통 **배치 처리(Batch Processing)**였습니다.예시하루에 한 번 데이터 처리일정 시간마다 데이터 분석하지만 실시간 시스템에서는 데이터가 발생하자마자 처리합니다.2️⃣ 실시간 데이터 파이프라인 구조일반적인 구조는 다음과 같습니다.데이터 생성 ↓스트리밍 시스템 ↓데이터 처리 ↓데이터 저장 ↓분석 / 서비스 이 구조를 통해 기업은 실시간 분석과 빠른 의사결정이 가능합니다.3️⃣ 실시간 데이터 파이프라인 핵심 기술실시간 데이터 플랫폼에서는 여러 기술이 함께 사용됩니다.① 데이터 스트리밍대표 기술Apache KafkaKafka는 대규모 데이터를 안정적으로 스..
1️⃣ 데이터 엔지니어란 무엇인가?데이터 엔지니어는 데이터 인프라를 구축하고 관리하는 개발자입니다.주요 역할은 다음과 같습니다.✔ 데이터 수집✔ 데이터 파이프라인 구축✔ 데이터 저장 시스템 설계✔ 데이터 처리 및 분석 지원즉 데이터 과학자나 분석가가 사용할 데이터 플랫폼을 만드는 역할입니다.2️⃣ 데이터 엔지니어 핵심 기술데이터 엔지니어가 되기 위해 필요한 기술은 크게 4가지 영역으로 나눌 수 있습니다.① 프로그래밍데이터 처리를 위해 프로그래밍 언어가 필요합니다.대표 언어PythonJavaScala특히 Python은 데이터 엔지니어링에서 가장 많이 사용됩니다.② 데이터베이스데이터 저장과 관리를 위해 DB 기술이 필요합니다.대표 기술PostgreSQLMySQL또한 대용량 데이터를 위한 NoSQL도 많이 사..
1️⃣ 데이터 메시(Data Mesh)란 무엇인가?데이터 메시(Data Mesh)는 도메인 중심의 분산 데이터 아키텍처입니다.쉽게 말하면데이터 플랫폼을 하나의 중앙 조직이 관리하는 것이 아니라 각 도메인 팀이 책임지는 구조입니다.예를 들어 기업 조직이 다음과 같이 나뉘어 있다고 가정해 보겠습니다.커머스 팀마케팅 팀고객 분석 팀기존 방식에서는 데이터 플랫폼 팀이 모든 데이터를 관리했습니다.하지만 데이터 메시에서는각 팀이 자신의 데이터를 직접 관리하고 제공하는 방식입니다.이러한 접근 방식은 데이터 확장성과 조직 효율성을 높이는 데 목적이 있습니다.2️⃣ 왜 데이터 메시가 등장했을까?대규모 기업에서는 데이터 플랫폼이 점점 복잡해지는 문제가 있습니다.대표적인 문제는 다음과 같습니다.✔ 중앙 데이터 팀의 병목 현..
1️⃣ 데이터 레이크하우스란 무엇인가?데이터 플랫폼은 그동안 두 가지 방식으로 발전해 왔습니다.데이터 레이크 (Data Lake)특징다양한 데이터 저장 가능대용량 데이터 처리 가능구조화/비정형 데이터 저장대표 기술HadoopObject Storage하지만 문제도 있었습니다.데이터 관리 어려움쿼리 성능 문제데이터 품질 관리 어려움데이터 웨어하우스 (Data Warehouse)특징빠른 분석 쿼리정형 데이터 중심BI 분석에 최적화대표 기술SnowflakeGoogle BigQueryAmazon Redshift하지만 단점도 있습니다.저장 비용 증가유연성 부족비정형 데이터 처리 어려움2️⃣ 그래서 등장한 것이 “레이크하우스”데이터 레이크하우스는 두 시스템의 장점을 결합한 구조입니다.즉데이터 레이크의 유연성 + 데이..
1️⃣ AI 시대인데 왜 데이터 엔지니어가 더 중요할까?많은 사람들이 AI 시대라고 하면“모델 개발자”나 “AI 연구자”를 먼저 떠올립니다.하지만 실제 기업 현장은 다릅니다.AI 프로젝트의 대부분은 아래 문제에서 막힙니다.데이터가 여러 시스템에 흩어져 있음데이터 품질이 낮음실시간 데이터 파이프라인 부재운영 환경(Production) 구축 어려움그래서 최근 기업에서는AI보다 먼저 데이터 인프라를 구축하는 경우가 많습니다.2️⃣ AI 프로젝트의 80%는 데이터 문제AI 프로젝트를 진행해 본 기업들이 공통적으로 말하는 것이 있습니다.“AI 모델보다 데이터 준비가 훨씬 오래 걸린다”대표적인 작업은 다음과 같습니다.데이터 수집데이터 정제데이터 파이프라인 구축데이터 레이크/웨어하우스 구축실시간 데이터 처리이 모든 ..