빅데이터가 근 몇년간 크게 대두되고 있습니다. 수집된 정보를 바탕으로 다양한 분석을 하여 활용할 수 있는 빅데이터 산업이 미래의 먹거리로서 인식한 세계적인 기업들이 빅데이터를 구축하고 관련 전문가를 확보하기 위한 경쟁 중이라는 기사를 본 적도 있습니다. 수집된 데이터 속에서 우리가 원하는 자료나 정보를 얻는 방법으로 통계학은 매우 중요하다고 합니다. 그런데, 학창시절에 잠시 배웠던 통계학은 어렵게 암기만 했던 기억만 있었고, 다시 공부하고 싶지 않은 분야이기도 합니다. 이 책에서는 중학교 수준으로 전공자가 아니어도 쉽게 이해하도록 설명되어 있다고 합니다.
통계학이란 무엇인지 계략적인 학문에 대한 이야기를 시작으로 일상에서 이미 활용하고 있는 통계 방법에 대해서 설명합니다. 빅데이터 시대인 만큼 데이터와 연관지어 통계학을 설명합니다. 데이터는 수량 데이터와 범주 데이터의 두 종류가 있다고 합니다. 수량 데이터는 양적 데이터라고 표현하고, 범주형 데이터는 질적 데이터라고 표현하기도 합니다.
수량 데이터에서는 데이터가 흩어진 상태를 파악하는 것이 중요하고, 범주형 데이터에서는 비율을 파악하는 것이 방법이 필요합니다. 여기까지만 공부하여도 우리가 많이 들었던, 제곱합, 분산 및 표준편차라는 것을 알게 된다는 것이 신기했습니다. 우리가 접하는 통계 자료에는 다양한 표나 그래프로 나타나는 형태가 많이 있습니다. 이와 같이 가시화 하기 위해서 확률 밀도 함수, 히스토그램이 이용된다는 것도 배웠습니다. 이 후의 단계에서 본격적인 데이터 분석을 위해 지금까지 공부한 내용을 총 동원하여 활용하는 방법을 설명하고 있습니다. 솔직히, 처음 보면 무슨 식인지 알 수도 없는 수식을 통해 유의미한 확률을 가진 정보를 얻는 과정을 확인하였습니다. 이 과정을 통해 여론조사를 통해 발표하는 내용이나 오차범위가 무엇인지 알 수 있었습니다. 책에서 설명한 통계학이 그렇게 어렵고 복잡한 학문이 아니라, 아주 합리적인 분석 방법을 수식으로 정의되었다는 것을 알게 된 시간이었습니다. 일본어로 쓰여진 책을 번역한거라 어색한 부분도 군데군데 찾아볼 수 있었지만, 부담없이 쉽게 읽어지는 책이었습니다.