S34L04 – 상관관계 추출

html
Python을 사용한 상관 분석을 통한 도서 추천 생성

목차

추천 시스템 소개
참조 데이터 수집
데이터 변수 설정
Pandas를 사용한 관련 데이터 추출
상관관계 계산
상관관계 정렬 및 분석
추천 시스템 최적화
결론


추천 시스템 소개
다시 돌아오신 것을 환영합니다, 친구들! 오늘 세션에서는 도서 상관관계를 생성하고 이러한 상관관계를 활용하여 개인화된 추천을 제공하는 방법을 탐구할 것입니다. 이 강의가 끝나면 Python과 Pandas를 사용하여 간단한 추천 시스템을 만드는 기본 단계를 이해하게 될 것입니다.

추천 시스템 소개
우리는 편의를 위해 맞춤 메서드를 생성하는 것부터 시작합니다. 이 메서드를 통해 사용자는 ISBN 번호를 입력할 수 있으며, 해당 번호를 통해 관련 도서에 대한 자세한 정보를 가져옵니다. 예를 들어, ISBN을 사용하여 존 그리샴(John Grisham)의 도서 제목인 The Painted House를 식별할 수 있습니다. 존 그리샴은 흥미진진한 이야기와 이를 바탕으로 한 인기 영화로 유명한 소설가입니다.

참조 데이터 수집
우리의 추천 시스템이 강력하도록 하기 위해, 우리는 Google의 검색 기능을 활용합니다. "John Grisham"을 검색함으로써 그의 도서 목록과 사람들이 함께 검색하는 관련 작가들에 대한 정보를 얻을 수 있습니다. 이 "사람들이 함께 검색하는 항목" 섹션은 예비 추천 목록으로 사용됩니다. 여기에는 가족 구성원, 협력자 또는 유사한 글쓰기 스타일을 가진 다른 작가들이 포함될 수 있습니다. 예를 들어, "Harry Potter" 시리즈로 유명한 J.K. 롤링(J.K. Rowling)을 포함시켜 추천 알고리즘의 효율성을 테스트할 수 있습니다.

데이터 변수 설정
간단하고 명료하게 하기 위해, 우리는 저자 이름과 도서 제목을 기반으로 변수 이름을 할당합니다. 예를 들어 john_grisham_painted_house와 같이 명명합니다. 이 명명 규칙은 데이터를 효율적으로 조직하고 참조하는 데 도움이 됩니다.

Pandas를 사용한 관련 데이터 추출
Pandas를 사용하여 데이터셋에서 ISBN과 관련된 열을 추출합니다. 이는 데이터를 보다 관리하기 쉬운 형식으로 변환하는 피벗 테이블을 통해 수행됩니다. ISBN을 피벗 테이블에 전달한 후, 다양한 관련 도서를 나타내는 여러 행을 포함하는 시리즈를 얻습니다.

상관관계 계산
추출된 데이터를 사용하여 Pandas의 상관관계 함수를 활용해 다른 도서 간의 상관계수를 계산합니다. 상관관계는 사용자 상호작용이나 선호도를 기반으로 두 도서가 얼마나 밀접하게 관련되어 있는지 식별하는 데 도움이 됩니다. 이 단계는 복잡한 계산으로 인해 경고를 생성할 수 있지만, 결과적인 상관관계는 귀중한 통찰력을 제공합니다.
가독성을 높이기 위해 상관 관계 시리즈를 데이터프레임으로 변환하고 열 이름을 "correlation"으로 변경합니다. 그런 다음 None 또는 NA 값을 데이터셋에서 제거합니다.

상관관계 정렬 및 분석
상관관계를 내림차순으로 정렬하면 가장 높은 유사도 점수를 가진 도서를 우선순위로 둘 수 있습니다. 이는 가장 관련성 높은 추천이 먼저 나타나도록 보장합니다. 예를 들어, The Painted House가 다른 도서와 높은 상관관계를 가지고 있다면, 그 도서가 추천 목록에 눈에 띄게 표시될 것입니다.
분석을 통해 총 1,587개의 유사한 도서를 관찰했습니다. 그러나 모든 상관관계가 강하거나 긍정적인 것은 아닙니다. 일부 도서는 부정적이거나 매우 낮은 상관관계를 보여 약한 관계를 나타냅니다. 이러한 낮은 또는 부정적인 상관관계를 필터링하여 추천의 정확성을 유지하는 것이 중요합니다.

추천 시스템 최적화
초기 상관관계는 기초를 제공하지만, 정확한 추천을 위해서는 충분하지 않습니다. 이후 세션에서는 이러한 상관관계를 최적화하여 추천 엔진을 향상시키는 방법을 다룰 것입니다. 이 최적화는 데이터 처리 방법을 개선하고, 사용자에게 관련성 있고 의미 있는 추천을 제공하는 것을 포함할 것입니다.

결론
오늘의 강의는 Python과 Pandas를 사용하여 기본적인 추천 시스템을 구축하는 방법에 대한 종합적인 개요를 제공했습니다. 관련 데이터를 추출하고, 상관관계를 계산하며, 결과를 정렬함으로써 기능적인 추천 엔진의 기초를 마련했습니다. 앞으로의 강의에서는 이러한 과정을 정제하여 보다 정확하고 개인화된 도서 추천을 제공하는 데 중점을 둘 것입니다.
오늘 세션에 참여해 주셔서 감사합니다! 이 강의가 유익했기를 바랍니다. 더 많은 튜토리얼을 기대해 주세요, 그리고 즐거운 코딩 되세요!