S34L04 – Extraindo correlações

Gerando Recomendações de Livros Usando Análise de Correlação em Python

Índice

  1. Introdução ao Sistema de Recomendação
  2. Coletando Dados de Referência
  3. Configurando as Variáveis de Dados
  4. Extraindo Dados Relevantes com Pandas
  5. Calculando Correlações
  6. Ordenando e Analisando Correlações
  7. Otimizando o Sistema de Recomendação
  8. Conclusão

Introdução ao Sistema de Recomendação

Bem-vindos de volta, amigos! Na sessão de hoje, vamos explorar como gerar correlações de livros e utilizar essas correlações para fornecer recomendações personalizadas. Ao final desta palestra, você entenderá os passos fundamentais para criar um sistema de recomendação simples usando Python e Pandas.

Introdução ao Sistema de Recomendação

Começamos discutindo a criação de um método personalizado projetado para conveniência. Este método permite que os usuários insiram um número ISBN, que então recupera informações detalhadas sobre o livro correspondente. Por exemplo, usando o ISBN, podemos identificar o título do livro como The Painted House de John Grisham—um renomado romancista celebrado por suas histórias envolventes e suas adaptações em filmes populares.

Coletando Dados de Referência

Para garantir que nosso sistema de recomendação seja robusto, aproveitamos as capacidades de busca do Google. Ao pesquisar por “John Grisham”, podemos acessar uma lista de seus livros e autores relacionados que as pessoas também pesquisam. Esta seção “As Pessoas Também Procuram Por” serve como uma lista preliminar de recomendações. Pode incluir membros da família, colaboradores ou outros autores com estilos de escrita semelhantes. Por exemplo, podemos incluir J.K. Rowling, famosa pela série “Harry Potter”, para testar a eficácia do nosso algoritmo de recomendação.

Configurando as Variáveis de Dados

Para simplicidade e clareza, atribuímos um nome de variável baseado no nome do autor e no título do livro, como john_grisham_painted_house. Essa convenção de nomenclatura ajuda na organização e referência eficiente dos nossos dados.

Extraindo Dados Relevantes com Pandas

Usando o Pandas, extraímos a coluna associada ao ISBN do nosso conjunto de dados. Isso é realizado através de uma tabela dinâmica, que transforma nossos dados em um formato mais gerenciável. Após passar o ISBN para a tabela dinâmica, obtemos uma série contendo inúmeras linhas, indicando vários livros relacionados.

Calculando Correlações

Com os dados extraídos, utilizamos a função de correlação do Pandas para calcular os coeficientes de correlação entre diferentes livros. A correlação nos ajuda a identificar quão intimamente relacionados dois livros estão com base nas interações ou preferências dos usuários. Esta etapa pode gerar avisos devido a cálculos complexos, mas as correlações resultantes fornecem insights valiosos.

Para melhorar a legibilidade, convertemos a série de correlação em um DataFrame e renomeamos a coluna para “correlation”. Em seguida, lidamos com quaisquer valores None ou NA removendo-os do nosso conjunto de dados.

Ordenando e Analisando Correlações

Ordenar as correlações em ordem decrescente nos permite priorizar os livros com as maiores pontuações de similaridade. Isso garante que as recomendações mais relevantes apareçam primeiro. Por exemplo, se The Painted House tiver uma alta correlação com outro livro, esse livro será destacado em nossas recomendações.

Em nossa análise, observamos que há um total de 1.587 livros similares. No entanto, nem todas as correlações são fortes ou positivas. Alguns livros mostram correlações negativas ou muito baixas, indicando relações mais fracas. É essencial filtrar essas correlações baixas ou negativas para manter a precisão de nossas recomendações.

Otimizando o Sistema de Recomendação

Embora as correlações iniciais forneçam uma base, elas não são suficientes para recomendações precisas. Em sessões subsequentes, nos aprofundaremos na otimização dessas correlações para aprimorar nosso motor de recomendação. Essa otimização envolverá o refinamento de nossos métodos de processamento de dados e a garantia de que as recomendações sejam relevantes e significativas para os usuários.

Conclusão

A palestra de hoje forneceu uma visão abrangente sobre a construção de um sistema de recomendação básico usando Python e Pandas. Ao extrair dados relevantes, calcular correlações e ordenar os resultados, estabelecemos as bases para um motor de recomendação funcional. Em futuras palestras, focaremos no refinamento desses processos para oferecer recomendações de livros mais precisas e personalizadas.

Obrigado por participar da sessão de hoje! Espero que você tenha achado esta palestra esclarecedora. Fique atento para mais tutoriais e boa programação!

Partilhe o seu amor