코사인 유사도 조사 내용

코드 내에서 코사인 유사도 적용되는 부분
similarities = cosine_similarity(additives_tfidf)
Python
복사
문서의 유사도 성능
각 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지(DTM, Word2Vec 등)
문서 간의 단어들의 차이를 어떤 방법(유클리드 거리, 코사인 유사도 등)으로 계산했는지

코사인 유사도(Cosine Similarity)

내적공간의 두 벡터간 각도의 코사인 값 이용하여 측정된 벡터간의 유사한 정도
어떤 개수의 차원에도 적용 가능, 다차원의 양수 공간에서의 유사도 측정에 자주 이용
정보 검색 및 텍스트 마이닝 분야
단어 하나하나 각각의 차원 구성, 문서는 각 단어가 문서에 나타나는 회수로 표현되는 벡터값 가짐
데이터 마이닝 분야에서 클러스터들감의 응집도를 측정하는 방법
양수 공간이라는 조건만 만족하면 얼마나 많은 차원 공간에서든지 거리 측정하는 것이 가능
두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 유사도
두 벡터의 방향이 완전이 동일한 경우 → 1/ 90°의 각 → 0/ 180°로 반대의 방향 → -1 ⇒ -1 ≤ 코사인 유사도 ≤1 ⇒ 1에 가까울수록 유사도 ↑ ⇒ 두 벡터가 가리키는 방향이 얼마나 유사한가
문서 단어 행렬이나 TF-IDF 행렬 통해서 문서의 유사도 구하는 경우 → 각각의 특징 벡터 A, B