2018년 4월 3일 화요일

Basic Statistical Descriptions of Data

  • Measuring the central tendency
    • Mean
      • 모든 numeric data의 합 / data의 갯수
    • Median
      • 가운데 값
      • data의 개수가 홀수이면 중간에 위치한 값. data의 개수가 짝수라면 두 중간 값의 평균값
    • Mode 
      • 최빈값
    • Symmetric vs. Skewed data
      • Symmetric
      • positively skewed
        •  
      • negatively skewed
  • Measuring the dispersion of data
    •  Quartiles
      •  Q1(25th percentile), Q2(median), Q3(75th percentile)
      • Inter-quartile range(IQR): Q3 - Q1
      • Five number summary: min, Q1, median, Q3, max
      • Outlier: 1.5 * IQR보다 크거나 작은 values
    • Variance and Standard deviation
  • Graphic displays of basic statistical descriptions
    • Boxplot
      • 5-number summaries에 따라 numeric data를 graphically 보여주는 방법
    • Histogram
      • data의 distribution을 보여주는 graphical representation.
    • Quantile plot
    • Quantile-quantile(q-q) plot
      • 각 축에 두 데이터의 quantiles를 plotting해서 두 probability distribution을 비교하는 graphical method 
      • 두 distribution이 동일하면, Q-Q plot은 y=x line을 따름
      • Q-Q plot의 기울기가 급하면, y축에 대당하는 데이터의 분포가 더 퍼져있음을 의미함
      • 'S' 모양을 한다면, 둘 중 하나의 데이터의 distribution이 더 skew되어 있음을 의미함.
    • Scatter plot

댓글 없음:

댓글 쓰기