로그인 공지사항 FAQ QnA
  • New Arrival
  • BestBooks
  • Category
  • Book Cafe
  • My Books
  • 후기공유
  • 읽고 싶은 책 요청
다크데이터
5.0
  • 조회 398
  • 작성일 2023-11-16
  • 작성자 함병찬
0 0
본서에서 주요내용 중 관심있는 부분을 요약해보고자 한다.

ㅇ과학에서 데이터의 위상
과학의 근본적인 과정은 관측된 데이터로 이론을 검증하여, 이론과 데이터가 불일치하면 해당 이론을 버리거나 수정하는 일이다. 하지만 우리는 불일치가 새로운 통찰을 줄 수도 있다는 것을 깨달아야 한다.
이론과 데이터가 일치하지 않으면, 데이터에 오류가 있기 때문일 수 있다.
데이터는 언제나 오류, 측정의 불확실성, 표본 왜곡, 그리고 다른 여러 문제점을 안고 있으며,
데이터 오류는 실존하는 가능성이라는 것이다.
그래서 과학자들은 정확한 측정 도구를 제작하고 정밀하게 통제된 조건하에서 측정하려고 온갖 노력을 다 기울인다. 측정 대상이 질량, 길이, 시간, 은하 사이의 거리, 지능, 의견, 복지, GDP, 실업, 인플레이션이든 다른 어떤 것이든 간에 말이다. 정확하고 신뢰할 만한 데이터는 제대로 된 과학에 필수적이다.

ㅇ데이터 결과값에 대한 파라메터에 관하여
예를 들어 다우존스산업평균지수는 미국의 30개 민간 대기업들의 개별 주가의 합을 다우 제수Dow divisor로 나눈 값이다.
하지만 기업은 생겼다 사라진다. 그리고 다우존스를 구성하는 기업들은 이 지수가 처음 시작된 1896년 이래로 50번 넘게 바뀌었다. 특히 재정적 어려움에 처하거나 경제 상황이 바뀔 때 기업들이 지수에서 빠질지 모른다. 다시 말해 다우지수는 전체 기업 실적을 대표하지 않고 꽤 잘나가는 기업들만 대표한다.
마찬가지로 시가총액이 큰 500개 기업의 가중치 적용 주가 평균인 S&P500에 속한 기업들도 다른 기업과 비교하여 실적이 악화될 때 지수에서 빠진다. 어느 기업을 빼는 결정은 반드시 사전에 입수한 데이터를 기반으로 내려져야 한다(데이터를 소급 적용해서는 안 된다!).

ㅇ데이터 수집원에서 일어나는 왜곡에 대하여
예를 들어 구글의 검색 알고리즘은 더 효율적으로 작동하기 위해 끊임없이 업데이트된다.
하지만 이 변경의 세부사항은 그런 과정에 깊이 관여하는 사람들을 제외하고는 대체로 모든 사람에게 알려지지 않는다. 최근의 변경 내용으로는 등급을 매길 때 웹페이지 품질 평가 점수의 도입, 조작으로 보이는 웹사이트의 강등, 검색어의 의도에 더 잘 맞추기 위한 자연어 처리, 모바일 친화적인 페이지의 등급 격상, 그리고 구글의 지침을 위반하는 웹사이트 식별 등이 있다. 이 모든 변경 사항은 타당하고 유익해 보이지만, 요점은 구글이 데이터 수집의 속성을 바꾼다는 사실 자체다. 다시 말해 이전에 수집된 데이터와 변경 후에 수집된 데이터를 비교하기가 어렵다(DD 유형 7: 시간에 따라 변하는 데이터). 특히 경제 및 사회복지 지표들의 값이 달라질 수 있는데, 기본적인 현실이 바뀌어서가 아니라 현실을 다루기 위해 수집되는 데이터가 바뀌었기 때문이다. 이른바 지표 표류indicator drift가 생기는 것이다. 이런 변화의 밑바탕에 다크 데이터가 도사리고 있다.
등록
도서 대출
대출이 불가능합니다.
취소 확인
알림
내용
확인