- Measuring the central tendency
- Mean
- 모든 numeric data의 합 / data의 갯수
- Median
- 가운데 값
- data의 개수가 홀수이면 중간에 위치한 값. data의 개수가 짝수라면 두 중간 값의 평균값
- Mode
- 최빈값
- Symmetric vs. Skewed data
- Symmetric
- positively skewed
- negatively skewed
- Measuring the dispersion of data
- Quartiles
- Q1(25th percentile), Q2(median), Q3(75th percentile)
- Inter-quartile range(IQR): Q3 - Q1
- Five number summary: min, Q1, median, Q3, max
- Outlier: 1.5 * IQR보다 크거나 작은 values
- Variance and Standard deviation
- Graphic displays of basic statistical descriptions
- Boxplot
- 5-number summaries에 따라 numeric data를 graphically 보여주는 방법
- Histogram
- data의 distribution을 보여주는 graphical representation.
- Quantile plot
- Quantile-quantile(q-q) plot
- 각 축에 두 데이터의 quantiles를 plotting해서 두 probability distribution을 비교하는 graphical method
- 두 distribution이 동일하면, Q-Q plot은 y=x line을 따름
- Q-Q plot의 기울기가 급하면, y축에 대당하는 데이터의 분포가 더 퍼져있음을 의미함
- 'S' 모양을 한다면, 둘 중 하나의 데이터의 distribution이 더 skew되어 있음을 의미함.
- Scatter plot
Freakombination
2018년 4월 3일 화요일
Basic Statistical Descriptions of Data
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기