화려한 대시보드와 머신러닝 모델, 그리고 비즈니스를 변화시크는 통찰력 뒤에는 데이터가 있다. = 데이터를 잘 가공해야 한다. 원본 데이터뿐만 아니라 가치를 제공하기 위해 수많은 소스에서 수집되어 정리, 처리 및 결합된 데이터다. 데이터의 진정한 가치는 그것이 정제되어 소비자게에 전달된 후의 잠재력에 있다. = 잘 정제된 데이터가 보기에도 좋다. 데이터 파이프라인이 무엇인지 이야기하고 현대의 데이터 생태계에 어떻게 적용되는지 보여준다. 일괄처리 vs 스트리밍 데이터 수집, 직접 구축하는 것 vs 제품을 구매하는 것 등과 같이 파이프라인을 구현할 때의 일반적인 고려 사항과 주요 결정 사항을 다룬다 = 이부분이 이책에서 배워야 할 핵심 가치일듯. 데이터 파이프라인이란? 데이터 파이프라인은 다양한 소스에서 새로..
일반적으로 데이터베이스, 큐, 캐시 등을 매우 다른 범주에 속하는 도구로 생각한다. 데이터베이스와 메시지 큐는 표멵거으로 비슷하더라도 (둘 다 얼마동안 데이터를 저장) 매우 다른 접근 패턴을 갖고 있어 서로 다른 성능 특성이 있기 때문에 구현 방식이 매우 다르다. 그러면 모든 것을 왜 데이터 시스템이라는 포괄적 용어로 묶어야 할까? 데이터 저장과 처리를 위한 여러 새로운 도구는 최근에 만들어졌다. 새로운 도구들은 다양한 사용사례(use case)에 최적화 되었기 때문에 더 이상 전통적인 분류에 딱 들어맞지 않는다. 예를들어 메시지 큐로 사용하는 데이터스토어인 레디스가 있고, 데이터베이스처럼 지속성을 보장하는 메시지 큐인 아파치 카프카도 있다. 분류 간 경계가 흐려지고 있다. 두 번째로 점점 더 많은 애플..