FANDOM


http://blog.hanb.co.kr/183




2007년 11월 마이크로소프트의 CEO인 스티브 발머는"10년 후에는 사내에서 운용되는 서버는 클라우드로 이행되어 사라진다."라고 말했다. 선마이크로시스템즈의 CTO인 그렉 파파도폴라스의 2006년 11월 발언은 더욱 충격적이다. "세상에는 단 5대의 컴퓨터만 있으면 된다. 구글, 마이크로소프트, 야후, 아마존, 이베이, 세일즈포스닷컴이다."

유수 기업의 경영자가 위와 같이 강력한 발언을 할 수 있었던 배경은 "곧 클라우드 컴퓨팅 시대가 된다."라는 확신이 있었기 때문이다.

클라우드 컴퓨팅이 뜬구름 잡는 소리로 여겨질지 모르겠지만, 구글, 아마존, 세일즈포스닷컴 등은 이미 이를 통해 비즈니스를 하고 있다. 허다 못해 전혀 상관없을 것 같은 AT&T도 뛰어들었고, 세일즈포스닷컴은 2009년 11억 달러, 2007년 아마존은 1억 달러 정도의 매출을 올렸으니, 클라우드 컴퓨팅이 그저 "허상"만은 아닌 게 확실하다.


[그림 1] 클라우드 컴퓨팅 서비스 분류와 주요 서비스

클라우드 컴퓨팅은 서비스 유형에 따라 HaaS, PasS, SaaS 등으로 분류되며, 과정과 이유, 서비스가 어떻게 되었든 간에, 메인프레임 시대인 1980년대, 크라이언트 서버 시대인 1990년대, 웹 컴퓨팅 시대인 2000년대를 거쳐 2010년대에는 클라우드 컴퓨팅 시대가 활짝 열릴 것이다.

왜 클라우드 컴퓨팅 시대가 올 수밖에 없는지에 대한 아주 단편적인 예를 들어 보자. 뉴욕타임스는 1851년부터 1980년 12월까지 약 130년 분량의 신문기사 1,100만 매를 "아마존 S3"에 저장하고, '아마존 EC2"와 하둡(Hadoop)을 이용하여 PDF로 변환했다. 이 시스템은 약 4TB 크기의 데이터를 24시간도 안되는 처리 시간만에 PDF 파일로의 변환을 완료했다. (참고로, 이는 일반적인 서버를 이용하면 약 14년 걸리는 어마어마한 처리 작업이다.)

필자는 위 예를 기술적으로 접근하고자 한다. 14년 걸릴 일을 24시간 안에 해결해준, 나아가 클라우드 컴퓨팅 시대를 열 수 있도록 초석을 마련해준 기술이 있었으니 이름하여 하둡이다.

사실 클라우드 컴퓨팅 시대를 열 수 있도록 해준 공이 하둡에만 있지는 않다. 강력하면서도 무료로 제공되는 수많은 오픈 소스들이 있었기 때문에 가능했고, 하둡도 그러한 오픈 소스 중의 하나일 뿐이다. 클라우드 컴퓨팅을 가능하게 하려면, 소프트웨어적으로는 가상화 기술과 분산처리 기술이 꼭 필요하다.

가상화 기술은 잘 알려진 VMware와 Xen 등이 있는데, 아무래도 오픈 소스인 Xen을 더 선호하고 있다. 분산처리 기술로는 단연 하둡이 독보적이다. 하둡은 현재 아파치(Apache)의 최상위 프로젝트로서 비영리단체에 소속되어 있던 덕 커팅에 의해 개발되었다. 현재 덕 커팅은 야후에 몸담고 있고, 야후는 덕 커팅의 하둡 프로젝트를 지원하다가, 오픈소스화 하면서 아파치 프로젝트로 자리 잡게 되었다.

하둡은 구글이 개발한 맵리듀스(MapReduce)를 오픈소스로 구현한 결과물이다(물론 구글은 GFS(Google File System)에서 맵리듀스 기술을 구현하여 엄청 유용하게 현업에 사용하고 있다.). 앞서 들었던 뉴욕타임스의 놀라운 성능은 하둡의 맵리듀스 기능을 통해 일궈낸 산물이다. 맵리듀스는 다수 컴퓨터에서 정크(Chunk) 단위로 분산처리하고, 그 결과를 추려내는 데이터 프로세싱 기법의 하나이다.

이미 구글은 수십, 수백만대 이상의 저가 컴퓨터(마치 우리가 지금 쓰는 개인용 PC 사양)로 신뢰할 수 있는 대용량 고성능 분산 시스템을 구축해, 검색 부분에서 타의 추종을 불허하는 독보적인 선두주자가 되었다. (2008년 8월 미국 검색 엔진 시장 점유율 : 구글 약 63%, 야후 19.6%, MS 8.3, 기타 9.1% by comScore)

2010년, 구글과 세일즈포스닷컴이 일궈낸 성과 덕분인지 국내 기업의 조짐이 심상치 않다. 지난 2009년 네이버 콘퍼런스에서 하둡 관련 강연이 있었고, 웹월드 콘퍼런스 등에서도 마찬가지였다. 무엇보다 직접 기술을 다루는 강연이 아닌, 방송 서비스 사업에 관련된 분야에서도 하둡이 빠지지 않았다.


하둡이 이렇게 회자되는 이유는, 과거에는 데이터 처리를 고성능 서버에 의존하여도 만족할만한 성과와 성능을 보였으나, 오늘날에는 처리해야 하는 데이터 용량이 기하급수로 커지고 있어, 기존의 방식으로는 해결되지 않는 과제가 많다는 데 있다. 이러한 과제를 해결하지 않으면 경쟁사와의 경쟁에서 도태될 수도 있지도 않을까?



하둡의 활용처는 무수하다. 하둡은 너무나 뜨겁다. 쇳물이다. 이 쇳물이 굳으면 어떤 모습을 할지 상상하기 힘들다. 지난 수개월간 오라일리의<Hadoop:The Definitive Guide>의 번역 출간 작업을 해왔다. 이 책은, HDFS(하둡의 파일 시스템)와 MapReduce(분석을 담당하는 프로그램)를 가장 큰 비중으로 다루고 있다. 또한 서브 프로젝트인 HBASE(하둡 데이터베이스), Pig(병렬 처리를 위한 고성능 데이터-흐름 언어와 실행 프레임워크), ZooKeeper(분산 어플리케이션을 위한 고성능 서비스)도 포괄적으로 다루고 있어, 이 한 권의 책이 하둡 바이블 역할을 하기에 충분하다.

기획자나 역자 모두 하둡이 너무나 뜨거워 부담된다. 가능하면 최신 버전(2009년 9월 14일 현재 0.20.1)에서 동작하는 내용과 소스를 담고자 하다 보니 생각보다 오랜 시간이 걸렸다. 새싹이 필 무렵이면 세상의 빛을 보지 않겠는가?

Ad blocker interference detected!


Wikia is a free-to-use site that makes money from advertising. We have a modified experience for viewers using ad blockers

Wikia is not accessible if you’ve made further modifications. Remove the custom ad blocker rule(s) and the page will load as expected.