• 실제 본격적 데이터 분석에 앞서 데이터를 살펴보는 과정
  • 주어진 데이터에 대한 감 잡기

포함하는 것

  • 데이터 분포 평균, 분산, 중간값, 단변량 이변량 여부
  • 시각화
  • 데이터 변형
  • 이상치 탐색
  • 결측치 처리
  • 통계 분석

데이터 종류

  1. 정형 데이터
  • 일반적인 숫자, 범주 데이터
  • 행렬 형태로 표현 용이
  • 각 변수는 고유 의미가 명확
  • 통계, 기계학습, 딥러닝으로 분석
  1. 비정형 데이터
    • 정형이 아닌 다른 모든 데이터 (음성, 이미지, 텍스트 등)
    • 정형으로 변환해서 사용
    • 각 변수의 의미를 찾기 어려움
    • 주로 딥러닝으로 분석

데이터의 차원. 즉 변수의 수가 많으면 분석이 매우 어려움

수치형 데이터

  • 데이터가 숫자로 되어 있음

연속형 데이터

모든 실수값이 가능한 연속 실수

이산형 데이터

이산적인 변수 값만 가능

범주형 데이터

  • 데이터가 범주로 되어있음. 클래스, 팩터

명목형 데이터

순서가 없음. 성별, 지역,

순서형 데이터

순서가 있음. 상중하, 등급제

데이터 요약

대표값

평균 Mean

중간값, 중앙값 Median

가운데 있는 값. 짝수개면 가운데 두 개의 평균

최빈값 Mode

가장 많이 나타나는 값

분포 표현

분산 Variance, 표준편차 Standard Deviation

Max, Min

최대값 최소값

백분위수 Percentile

크기 순서로 값들을 세웠을 때 하위 N%에 해당하는 값을 N% Percentile 이라 함

이변량 데이터의 경우

변수와 변수 사이의 관계가 중요

  • 산점도 : 두 변수의 값을 2차원 좌표 상에 점으로 표현

  • 추세선 : 두 변수 사이의 관계를 선의 형태로 표현

  • 공분산 : Covariance

  • 상관계수 : Correlation

  • 공분산은 달라도 상관계수가 같을 수 있음

  • 공분산은 스케일의 영향을 받지만, 상관계수는 그렇지 않음

  • 승수비 : Odd Ratio. 1에 가까울수록 관련없고, 멀어질수록 관련이 높음

  • 이변량 데이터 요약

수치형 시각화범주형 시각화
수치형 데이터산점도, 상관계수박스플롯, SMD
범주형 데이터박스플롯, SMD모자이크 플롯, Odd Ratio