1️⃣ 데이터 레이크하우스란 무엇인가?데이터 플랫폼은 그동안 두 가지 방식으로 발전해 왔습니다.데이터 레이크 (Data Lake)특징다양한 데이터 저장 가능대용량 데이터 처리 가능구조화/비정형 데이터 저장대표 기술HadoopObject Storage하지만 문제도 있었습니다.데이터 관리 어려움쿼리 성능 문제데이터 품질 관리 어려움데이터 웨어하우스 (Data Warehouse)특징빠른 분석 쿼리정형 데이터 중심BI 분석에 최적화대표 기술SnowflakeGoogle BigQueryAmazon Redshift하지만 단점도 있습니다.저장 비용 증가유연성 부족비정형 데이터 처리 어려움2️⃣ 그래서 등장한 것이 “레이크하우스”데이터 레이크하우스는 두 시스템의 장점을 결합한 구조입니다.즉데이터 레이크의 유연성 + 데이..
1️⃣ AI 시대인데 왜 데이터 엔지니어가 더 중요할까?많은 사람들이 AI 시대라고 하면“모델 개발자”나 “AI 연구자”를 먼저 떠올립니다.하지만 실제 기업 현장은 다릅니다.AI 프로젝트의 대부분은 아래 문제에서 막힙니다.데이터가 여러 시스템에 흩어져 있음데이터 품질이 낮음실시간 데이터 파이프라인 부재운영 환경(Production) 구축 어려움그래서 최근 기업에서는AI보다 먼저 데이터 인프라를 구축하는 경우가 많습니다.2️⃣ AI 프로젝트의 80%는 데이터 문제AI 프로젝트를 진행해 본 기업들이 공통적으로 말하는 것이 있습니다.“AI 모델보다 데이터 준비가 훨씬 오래 걸린다”대표적인 작업은 다음과 같습니다.데이터 수집데이터 정제데이터 파이프라인 구축데이터 레이크/웨어하우스 구축실시간 데이터 처리이 모든 ..