본문 바로가기
hadoop study

Hadoop Study Session #1-2 빅데이터(BigData) 등장 배경과 중요성

by first author 2023. 12. 19.
728x90
반응형
본 포스팅은 제가 2013년 네이버 하둡스터디 카페에 포스팅했던 공개 강의 글입니다.
This is a public lecture that I posted on Naver Hadoop Study Cafe in 2013.

 

이전시간에는 빅데이터의 개념과 특징을 살펴보았습니다.

 

이번세션에서는 빅데이터의 등장 배경과 중요성에 대해서 알아보도록 하겠습니다.

 

빅데이터라는 용어는 실제로 하둡의 근원이 되는 구글에서는 사용하지 않았습니다. 자연스럽게 데이터가 커지기 시작하며, 단순히 큰 데이터를 빅데이터라고 부르기 시작하였고 이러한 큰 데이터를 처리하기 위한 기술 등을 산업계에서 빅데이터로 부르며 용어가 퍼져나가게 되었습니다.

 

그렇다면 빅데이터가 왜 등장하게 되었는가.. 아주 많은 이유가 있지만.. 그중에서도 몇가지 정도만 설명을 드리겠습니다.

 

첫번째로, 세계 많은 기업들이 기업의 고객 데이터를 트랙킹하고 수집하는 행위가 증가하게 되었습니다. 따라서 더 많은 데이터 스토리지와 정교한 분석 능력이 필요하게 되었습니다.

두번째로는, 유투브와 같은 멀티미디어 콘텐츠 사용에 따른 비정형 데이터(예, 멀티미디어 컨텐츠와 이 컨텐츠를 사용하는 정보)가 증가 하게 되었습니다. 특히 대용량 멀티미디어 컨텐츠의 생산 및 동영상의 고화질화로 인한 인터넷 드래픽이 급증하게 되며, 이러한 컨텐츠를 저장하기 위한 대용량의 저장공간이 필요했고, 이를 실시간으로 제공하기 위한 대용량 데이터 처리 기술이 필요하게 되었습니다.

세번째로는 SNS의 급격한 확산을 들을 수 있는데요.. 대표적으로 페이스북과 트위터 등을 들을 수 있습니다. 페이스북에서는 '10년 기준으로 일인당 생성 컨텐츠가 월 평균 90개씩 생성되고 있다고 합니다. 또한 페이스북에서 사용자가 수행하는 동작을 저장하고 분석하기 위해 하둡을 사용하는데, 1일 데이터 처리량이 약 15TB정도의 크기가 된다고 합니다. 그리고 페이스북에서의 메세징 시스템에 축적되는 메세지 양은 한달에 약 1,350억개로 메세지당 140byte씩 계산하면 매달 17TB~25TB 이상의 데이터가 발생한다는 것을 알 수 있습니다.

 

이미 빅데이터는 우리의 곁에 가까이 다가와 있는 기술이며, 이러한 빅데이터 처리 기술 없이는 유투브, 페이스북 등과 같이 전세계인들과 소통할 수 있는 것은 불가능하다고 볼 수 있습니다.

 

최근 빅데이터는 뜨거운 화제입니다.
위에서 설명드린 세계 최대 소셜네트워킹 서비스 업체인 페이스북을 비롯해 세계 최고의 인터넷 검색 엔진을 가지고 있는 구글, 최대 유통업체인 아마존까지 글로벌 IT업체들이 빅데이터 시장을 주목하고 발전시키고 있습니다. 이들 업체들은 빅데이터가 클라우드 컴퓨팅과 만나 새로운 시장 패러다임으로 자리잡게 될것으로 보고 시장을 주도하기위해 분주하게 움직이고 있습니다.

아래 그림들을 살펴보면.. 적어도 2017년까지는 빅데이터 시장과 기술이 꾸준히 상승하고 고도화 될 것으로 예상하고 있으며, 빅데이터 기술의 중심에 있는 것이 하둡이라고 볼 수 있습니다.

[그림 1] '12 ~ '17 빅데이터 시장 전망

 

그렇다면 이번에는 빅데이터의 중요성에 대해서 살펴보도록 하겠습니다.

2010년 이미 세계는 스마트폰이 확산되고 SNS 사용이 확대되며, M2M 센터등이 구축됨으로써 ZettaByte(1,000,000PB)시대에 진입했다고 합니다. 디지털 데이터는 해마다 약 8배의 속도로 증가하고 있다고 합니다. 위 그림에서 보면 데이터는 2010년을 기준으로 급속도로 증가하고 있는 것을 보실 수 있습니다. 또한 전세계 각 기업의 BigData 보유 규모는 거대한 가치를 창출할 정도의 정보를 응축하고 있는 수준에 도달했다고 볼 수 있으며, 미국의 대다수의 기업이 100TB 이상의 정보를 보유하고 있으며, 이미 상당수는 1PB 이상을 보유하고 있습니다. 

반응형

 

교육에서 들은 것인데, 빅데이터 기술을 도입한 SKT나 KT 모두 조만간 1PB정도의 데이터를 축적할 수 있을 것이라고 예상하고 있다니.. 이미 저희 나라는 후발 주자에 속하는 것을 알 수 있습니다. 잠시 다른길로 샜네요.. 계속해서 중요성에대해서 설명 드리도록 하겠습니다. 이런 빅데이터는 불가능한 비즈니스 서비스를 성공적인 비즈니스로 전환하는데 아주 중요한 역할을 했는데요, 예를들면 캐나다 의회의 수백만 건의 문서를 활용하여 IBM에서는 영어-불어 자동 번역 시스템을 개발했고, 구글에서는 이미 예전부터 수억 건의 자료를 활용하여 50개 언어간 자동 번역 시스템을 개발했습니다. 이는 수백만건에서 수억건의 방대한 자료 없이는 불가능한 일이죠. 그리고 현재 IT업체의 뜨거운 감자는 클라우드 컴퓨팅에서도 말했듯이 더이상 IBM, 마이크로소프트같은 기업이 아닌 빅데이터를 기반으로 성장한 글로벌 기업들(예, Google, Amazon, Facebook, NETFLIX) 이라는 것입니다. Google은 최초로 BigData 처리기술을 개발하였으며, 이를 이용하여 세계에서 가장 정교한 검색결과를 제공하는 검색엔진을 보유하였으며, Facebook은 BigData 처리기술을 이용하여 소셜 네트워크 서비스를 제공하고 있으며, Amazon은 BigData 처리기술을 이용하여 사용자 정보 처리를 통한 추천 시스템에서 전체 매출의 30%가 발생하고 있습니다. 이정도만 봐도 빅데이터가 얼마나 큰 가치를 가지고 있고 중요한지 알 수 있습니다.

 

[그림 2] 빅데이터 동향 (출처:   http://article.joinsmsn.com/news/article/article.asp?totalid=8513577)

 

이상 빅데이터의 등장배경과 중요성에 대한 공개강의를 마치겠습니다. 얼마나 여러분에게 와닿았는지는 모르겠지만..ㅎ 그래도 부족한 글솜씨와 지식을 여러분께 공유해드리는데 노력하고 있으니 많은 응원 부탁드리겠습니다.

 

다음 시간에는 빅데이터의 처리 흐름, 기술 분류, 기술 스택에 대해 살펴보는 시간을 가지도록 했습니다.

 

2023.12.19 - [hadoop study] - Hadoop Study Session #1-1 빅데이터 (BigData)

 

Hadoop Study Session #1-1 빅데이터 (BigData)

본 포스팅은 제가 2013년 네이버 하둡스터디 카페에 포스팅했던 공개 강의 글입니다. This is a public lecture that I posted on Naver Hadoop Study Cafe in 2013. 이번 세션에서는 하둡에 대해 본격적으로 공부하기

takeanoteof.tistory.com

 

728x90
반응형

댓글