4. 유사도 계산

4장에서는 두 데이터 간 유사한 정도를 측정하는 방법인 유사도(Similarity)에 대하여 살펴봅니다. "사용자-사용자 간" 유사도는 사용자와 유사한 사용자를 찾아서 그들이 좋아하는 아이템을 추천하거나 또는, " 아이템-아이템 간" 유사도는 사용자가 좋아하는 아이템을 찾고 이와 유사한 아이템을 추천하기 위한 방법입니다.

이번 장에서는 사용자가 아이템에 매긴 평점 데이터로 유사도를 계산하는 방법에 대하여 살펴봅니다. 여기에서는 유사도 계산에 관련된 모든 내용을 자세히 다루지는 않습니다. 대신 유사도 계산을 위해 필요한 기본적인 개념과 방법들을 살펴봅니다. 또한, 예제 데이터를 사용하여 실제로 유사도 계산이 이루어지는 일련의 과정들을 단계별로 직접 계산해 보고 미리 구현된 Apache Spark와 R 예제 프로그램으로 데이터셋들을 직접 읽어 들여 직접 계산해본 과정과 결과가 맞는지 한번 더 확인해 볼 것입니다.

이번 장을 학습하면 여러분은 다음 개념을 이해할 수 있어야 합니다.

  • 유사도와 거리
  • 사용자-사용자 또는 아이템-아이템 간 유사도
  • 이진 속성 데이터의 유사도

이번 장을 학습하면 여러분은 다음을 계산할 수 있어야 합니다.

  • 코사인 유사도(Cosine Similarity)
  • 피어슨 상관계수(Pearson Correlation Coefficient)
  • 맨해튼 거리(Manhattan Distance)
  • 유클리드 거리(Euclidean Distance)
  • 민코우스키 거리(Minkowski Distance)
  • 단순 일치 계수(Simple matching Coefficient)
  • 자카드 계수(Jaccard Coefficient)
  • 확장 자카드 계수(Extended Jaccard Coefficient)

이번 장에서 다루는 내용은 아래와 같습니다.

  • 4.1 “유사도와 거리”에서는 유사도와 거리(비유사도)에 대한 개념을 개략적으로 살펴봅니다.
  • 4.2 “코사인 유사도”에서는 내적 공간에서의 두 벡터 간 사잇각인 코사인 값을 사용하여 유사도를 계산하는 방법에 대해 살펴봅니다.
  • 4.3 “피어슨 상관계수와 유사도”에서는 두 벡터의 공분산 값을 각 벡터의 표준편차의 곱으로 나눠서 표준화한 피어슨 상관계수를 사용하여 유사도를 계산하는 방법에 대해 살펴봅니다.
  • 4.4 “유클리드 거리와 유사도”에서는 N차원의 공간에서 두 데이터 포인트 간의 거리를 나타내는 확장 유클리드 거리를 사용하여 유사도를 계산하는 방법에 대해 살펴봅니다.
  • 4.5 “이진 속성과 유사도”에서는 두 집합 사이의 유사도를 측정하는 방법 중 하나인 확장 자카드 계수를 사용하여 이진 데이터의 유사도를 계산하는 방법에 대해 살펴봅니다.
한글:769 영어:213 숫자:32

추천 시스템: 워크북

Comments

Do you have a problem, want to share feedback, or discuss further ideas? Feel free to leave a comment here! Please follow Rust's code of conduct. This comment thread directly maps to a discussion on GitHub, so you can also comment there if you prefer.

Instead of authenticating the giscus application, you can also comment directly on GitHub.