하둡이란 ? 하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 하둡은 구글이 논문으로 발표한 GFS(Google File System)과 맵리듀스를 2005년 더그커팅이 구현한 결과물이다. 하둡은 분산시스템인 HDFS(Hadoop Distributed File Syste)에 데이터를 저장하고, 맵리듀스를 이용해 데이터를 처리한다. 하둡은 여러 대의 서버에 데이터를 저장하고, 저장된 각 서버에서 동시에 데이터를 처리하는 방식이다. 하둡은 기존의 RDBS(Oracle,MS-SQL,MySQL등)을 대치하는 것이 아니다. 즉 트랜잭션이나 무결성을 보장해야 하는 데이터처리에는 적합하지 않다. 하둡은 배치성으로 데이터를 저장하고 처리하는데 적합한 시스템이다. 쇼핑물에서 회원가입이나..