3.7 요약(Summary)

이번 장에서는 데이터 전처리 과정을 통해 평점 데이터를 정규화하고 이진화하는 방법에 대하여 살펴보았습니다. 데이터 정규화는 정규화(Normalization) 외에도 척도화(Scaling) 또는 재척도화( Re-scaling), 표준화(Standardization), 일반화(Regularization) 등 유의어들을 총칭하기도 합니다. 여기에서는 이 유의어들의 총칭을 정규화라고 하고 정규화 안에서 매우 혼동되기 쉬운 세 가지 유의어인 척도화, 표준화, 정규화(벡터 정규화)에 대하여 살펴보았습니다. 또한, 임곗값을 사용하는 이진화 방법인 임계 이진화에 대하여도 살펴보았습니다.

  • 척도화
  • 표준화(벡터)
  • 정규화(임계)
  • 이진화

다음으로 전체 평점 혹은 사용자나 아이템 간의 평점 성향의 차이를 고려하거나 고유 특성을 두드러지게 하는 방법을 살펴보았습니다. 여기에서는 사용자 $u$가 아이템 $i$에 매긴 평점 $r_{ui}$를 $m$명의 사용자(행)와 $n$개의 아이템(열)로 가지는 $m \times n$행렬인 사용자-아이템 평점 매트릭스인 $R$로, 정규화 또는 이진화된 $m \times n$ 행렬인 사용자-아이템 평점 매트릭스는 $R'$로 정의하였습니다. 전체 평점 대상인 경우에는 사용자 $u$가 아이템 $i$에 매긴 전체 평점 집합 $R$을 대상으로 하지만, 사용자 그룹 평점인 경우에는 사용자 $u$가 평점을 매긴 아이템 집합 ${I_u}$의 평점을, 아이템 그룹 평점인 경우에는 아이템 $i$에 매겨진 사용자 집합 ${U_i}$의 평점을 대상으로 하였습니다.

  • 전체 평점
  • 사용자 그룹 평점
  • 아이템 그룹 평점

마지막으로 평점 데이터를 정규화 및 이진화하는 방법을 살펴보았습니다.

  • 평균 중심화
  • Z점수화
  • 최소-최대화
  • 소수 스케일링화
  • 임계 이진화

표. 정규화와 이진화 방법

구분 입력 적용 기준 출력
평균 중심화 원본 평점 데이터(정수/실수형) 전체/사용자/아이템 정규화된 평점 데이터(실수형)
Z점수화 원본 평점 데이터(정수/실수형) 전체/사용자/아이템 정규화된 평점 데이터(실수형)
최소-최대화 원본 평점 데이터(정수/실수형) 전체/사용자/아이템 정규화된 평점 데이터(실수형)
소수 스케일링 원본 평점 데이터(정수/실수형) 전체 정규화된 평점 데이터(실수형)
임계 이진화 원본 평점 데이터(정수/실수형) 전체 이진화된 평점 데이터(이진형)

이번 장에서는 대표적인 평점 정규화와 이진화 방법에 대하여 살펴보았습니다. 다음 장에서는 평점 데이터를 사용하여 사용자-사용자 또는 아이템-아이템 간 유사도를 계산하는 방법을 주제로 살펴볼 것입니다.

무비렌즈 비교 차트 정규화 챠트 추가? 마지막 아님 각 섹션 말미에?

한글:822 영어:105 숫자:2

추천 시스템: 워크북

Comments

Do you have a problem, want to share feedback, or discuss further ideas? Feel free to leave a comment here! Please follow Rust's code of conduct. This comment thread directly maps to a discussion on GitHub, so you can also comment there if you prefer.

Instead of authenticating the giscus application, you can also comment directly on GitHub.