로그인 공지사항 FAQ QnA
  • New Arrival
  • BestBooks
  • Category
  • Book Cafe
  • My Books
  • 후기공유
  • 읽고 싶은 책 요청
세상에서 가장 쉬운 통계학입문
5.0
  • 조회 403
  • 작성일 2022-11-24
  • 작성자 박래봉
0 0
현대 사회에서 가장 필요한 능력은 무엇일까? 글쓰기 능력일까? 말하기 능력일까? 코딩능력일까? 나는 통계학적 사고라고 생각했다. 우리는 수 많은 데이터 속에서 살아가기 때문이다. 기술의 발달로 인해 수 많은 데이터들을 접할 수 있게 됐다. 또한, 관리하고 분석할 수 있게 됐다. 이에 따라 데이터 활용능력은 중요해졌다. 똑같은 데이터를 보고도 활용 방법에 따라 큰 차이가 있기 때문이다. 그래서 데이터 활용능력의 기초가 되는 통계학적 사고는 매우 중요하다. 어떤 데이터가 중요한지 알 수 있기 때문이다. 데이터를 기반으로 사고하는 능력이기 때문이다. 따라서, 통계학적 사고의 기초인 통계학의 기초에 대해 다시 한번 배우고 싶었다.
저자는 수학 수필가다. 실생활에 필요한 수학을 쉽게 설명하는 작가다. 저자는 통계학을 시작하는 사람들을 위한 입문서를 쓰고 싶었다. 통계학이 일상생활과도 많은 연관이 있다는 사실을 알려주고 싶었다. 또한, 복잡한 수학적 개념 없이도 쉽게 이해할 수 있음을 알려주고 싶었다. 그래서 이 책을 쓰게 됐다.
나는 이 책에서 데이터들을 활용할 수 있는 기초 지식을 얻었다. 데이터들이 의미가 있는지 없는지 판단할 수 있는 지식을 얻었기 때문이다. 이 책은 데이터들의 값이 유의미한지 통계적으로 분석하는 방법을 알려준다. 다른 책들과 다른 점은 어려운 수학적 지식없이 통계적 검증의 과정을 쉽게 설명을 해준다는 점이다. 저자는 통계학적 용어를 일상 생활과 연결지어서 설명을 해준다. 이 책은 내가 실생활에서 궁금했던 데이터들을 바탕으로 직접 검정할 수 있는 능력을 키워주는 책이다.
저자는 과거 중학교 수학내용부터 설명을 시작한다. 통계학에는 크게 두가지가 있다. 기술 통계와 추리 통계다. 기술 통계란 관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내는 기술이다. 추리 통계란 부분으로 전체를 추측하는 것이다. 즉, 통계를 배우는 이유는 데이터 자체로는 아무것도 알 수 없기 때문이다. 통계를 이용해 데이터에서 유의미한 결과를 만들어내는 것이다. 다시 말해, 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리 정돈해서 의미 있는 정보만 추출하기 위해서 통계를 배우는 것이다. 앞으로도 주장을 할 때에도 통계학적 검증을 통해 데이터에서 의미 있는 정보를 뽑아 근거로 활용해야겠다고 생각했다.
통계에는 크게 두 가지 표현법이 있다. 그래프와 통계량이다. 그래프는 우리가 아는 막대그래프부터 모든 종류의 그래프를 포함한다. 통계량은 숫자 하나로 특징을 대표하는 값이다. 평균이 대표적인 통계량이라고 볼 수 있다. 즉, 내가 데이터를 활용하기 위해서는 그래프를 만들거나, 통계량을 통해 활용해야겠다고 생각을 했다. 저자는 통계학적 사고에서 가장 중요한 통계량을 표준편차라고 말하고 있다. 평균값만으로는 오차가 크게 생길 수 있기 때문이다. 표준편차란 흩어져 있는 데이터 상태를 추정하는 통계량이다. 주식시장에서는 변동성을 표준편차로 표현한다. 이처럼 우리가 데이터를 가지고 사고를 할 때에도 평균에만 집착하는 것이 아니라, 표준편차로 같이 생각해야 한다. 평균은 모두를 대표할 수 없기 때문이다. 이는 <<평균의 종말>>에서도 잘 나와 있다. 평균을 기반으로 한 사고는 틀렸음을 알 수 있다.
저자는 평균과 표준편차를 안다면, 정규분포를 만들 수 있다고 말한다. 정규분포란, 키, 동전 던지기 등에서 흔히 볼 수 있는 그래프다. 불확실성이 없는 일반적인 분포다. 즉, 불확실성이 없는 이상적인 상황에서 데이터를 검증할 수 있다. 그러나, 우리의 현실은 불확실성이 넘친다. 우리 사회는 수 많은 요소들이 서로 상호작용을 하는 복잡계이기 때문이다. 그렇기에, 저자는 우리 현실 속에 존재하는 분포인 카이제곱 분포와 t 분포에 대해서도 설명을 해준다. 또한, 각 분포에서 갖는 값이 의미가 있는지 통계적으로 검증하는 방법에 대해 알려준다.
이런 통계학적 검증이 왜 중요할까? 바로, 우리는 전수조사를 하기에는 한계가 있기 때문이다. 즉, 모든 것을 조사하는데는 시간적, 금전적으로 많은 비용이 든다. 그렇기에, 우리는 부분을 통해 전체를 예측하는 방법을 쓴다. 통계학적 검증의 핵심은 부분을 통해 전체에 속하는지 알아보는 것이다. 즉, 표본집단을 보고 모집단을 추정하는 것이다. 이는 일상생활속에서도 매우 중요하다. 해당 데이터를 보고, 의미가 있는 값인지 판단할 수 있기 때문이다. 예를 들면 된장국을 끓일 때 한 숟가락을 떠 먹어보고 맛있는지 판단을 할 수 있는 방법이다. 일상 속에서 매우 유용한 사고 방식이라고 할 수 있다. 앞으로 데이터를 바라볼 때, 의미 있는 데이터인지 아닌지 통계적으로 사고를 하자.
이 책은 작은 표본만을 가지고 전체를 추정하는 방법에 대해 알려준다. 부분으로 전체를 추정해보는 사고는 현대 사회에서 매우 필요한 사회다. 부분의 데이터가 의미가 있는 데이터인지 아닌지 알 수 있기 때문이다. 통계적으로 추정하는데에는 기본적인 수학적 능력도 필요로 한다. 하지만, 저자의 말대로 중학교 수학을 기반으로 천천히 따라간다면 충분히 이해할 수 있는 능력이라 생각한다. 이런 통계학적 사고를 기반으로 프로그램도 학습해보자. 통계적 검증을 할 수 있는 R프로그램도 공부를 해보자.

이 책은 기본적인 통계학 개념을 쉽게 정리해 준다. 머리가 굳은지라 여러 번 읽어 가며 습득해야 하지만 익숙한 개념들이라 그리 어렵지는 않다. 계산도 덧셈, 뺄셈, 곱셈, 나눗셈, 제곱과 루트 정도만 나와서 계산 자체는 어렵지 않다. 하지만 글로 이해한 것을 수식과 연관지어 생각하는 것이 쉽지만은 않다.
다행인 것은 책 자체가 그다지 공식을 중요하게 다루지 않는다는 점과 각 강의마다 연습 문제가 있어 내가 제대로 이해해서 적용할 수 있는지 점검할 수 있다. 그리고 학생들의 시험 점수나 주식에 관한 예제로 설명을 해 주고 있어 접근하기가 수월하다는 점이다.
평균값, 표준편차 등을 설명하면서 주식 수익률의 표준편차가 변동성이라고 알려준다. 또한 샤프지수를 알아봄으로써 잘 운용되는 금융상품의 의미도 알려주고 있다. 주식에 관해 잘 모르지만 이런 개념도 있다는 것을 통계학 책을 보며 배울 수 있다는 게 신기했다.
통계학의 묘미는 부분에서 전체를 관측하는 것이라고 한다. 모든 데이터를 모집단이라고 하는데, 우리가 흔히 보게 되는 통계적 추정은 관측된 데이터로 모집단에 대해 추리하는 작업이라고 설명한다. 통계적 추정이라는 것이 20세기가 되어 확립된 개념이라 오래되지 않았지만, 우리가 익히 알고 있는, 부분의 사실로 전체를 추론한다는 귀납적 추론의 형태라고 한다.
결국 통계적 추정의 목표는 부분의 데이터를 가지고 모집단 전체에 대한 어떠한 추측을 하는 일인 것이다. 솔직히 책의 내용을 따라가면 각 강의의 연습문제를 충분히 풀 수 있지만, 개념을 제대로 이해하는 것은 너무 어렵게만 느껴진다. 정확한 개념이 있어야 제대로 데이터를 바라보고 원하는 방식대로 적용할 수 있을 텐데, 아직 갈 길이 먼 것 같다.
저자는 맺음말에 언급하고 있다. 통계학 이론에는 어떤 종류의 비약(飛躍)이 있다는 것. 통계학은 이런 비약을 통해서만 현실과 밀접한 관계를 가질 수 있고 이것이야말로 통계학의 진면목이라고 생각한다고 말이다.
확실히 쉬운 설명에 도움을 많이 받았지만, 개념이 제대로 정리되지 않은 상태이긴 하다. 책 한 권과 하나의 강의만 가지고 통계학을 이해하기는 힘들 것이다. 학자들처럼 다 이해하길 원하진 않는다. 다만 주변에서 통계적 추정을 접했을 때 잘못된 해석을 하지 않을 정도의 지식만 얻을 수 있게 공부를 해보고자 한다.
등록
도서 대출
대출이 불가능합니다.
취소 확인
알림
내용
확인