맵리듀스란? 맵리듀스는 데이터 처리를 위한 프로그래밍 모델이다. 하둡은 다양한 언어로 작성된 맵리듀스 프로그램을 구동시킬 수 있다. 맵리듀스는 태생 자체가 병행성을 고려하여 설계되었고, 누구든지 충분한 장비만 갖추고 있다면 대규모 데이터 분석을 할 수 있다. 맵리듀스는 대용량 데이터셋에서 그 진가가 드러난다. 예제를 통해서 맵리듀스의 프로그래밍 모델을 살펴보도록 하자. 1. 기상 데이터셋 █ 지구 전지역에서 매시간 데이터를 수집하는 기상 센서들은 대량의 로그 데이터를 모으는데, 이러한 데이터는반구조적(semi-structed)이면서 레코드 지향적(record-oriented)이기 때문에 맵리듀스를 이용한 데이터 분석에 적합하다. █ 데이터는 국립기후자료센터(NCDC, http://www.ncdc.noaa..