S34L02 – Preparando los datos

Creando un Sistema de Recomendación Usando el Conjunto de Datos Book Crossing

Tabla de Contenidos

  1. 1. Selección del Conjunto de Datos
  2. 2. Comprendiendo la Estructura del Conjunto de Datos
  3. 3. Preparación y Exploración de Datos
  4. 4. Manejo de los Datos de Calificaciones
  5. 5. Visualización de la Distribución de Calificaciones
  6. 6. Preparación para el Sistema de Recomendación
  7. 7. Abordando Desafíos de Datos
  8. 8. Próximos Pasos
  9. Conclusión

¡Bienvenidos de nuevo, amigos! En esta guía, profundizaremos en la construcción de un sistema de recomendación, detallando los pasos esenciales involucrados. Para agilizar nuestro proceso, algunos pasos preliminares ya están cubiertos, lo que nos permite enfocarnos en los aspectos centrales de la construcción del sistema.

1. Selección del Conjunto de Datos

Para nuestro sistema de recomendación, utilizaremos el Conjunto de Datos Book Crossing, una colección integral diseñada para recomendaciones de libros. Mientras que el conjunto de datos Movie Lens es popular y fácil de usar—frecuentemente presentado en tutoriales en plataformas como YouTube—hemos elegido un conjunto de datos más complejo para proporcionar una comprensión más profunda de los sistemas de recomendación.

Acceso al Conjunto de Datos:

  • Conjunto de Datos Book Crossing: Enlace al Conjunto de Datos *(Asegúrate de reemplazar esto con el enlace real)*
  • Formato: Disponible como volcado SQL o archivos CSV. Para nuestros propósitos, usaremos el formato CSV.

Al descargar los archivos CSV, encontrarás tres archivos principales:

  • Libros: Aproximadamente 75 MB
  • Usuarios: Aproximadamente 30 MB
  • Calificaciones: Aproximadamente 12 MB

Dado el tamaño del conjunto de datos, manejarlo de manera eficiente es crucial, pero sus datos ricos lo hacen invaluable para construir un sistema de recomendación robusto.

2. Comprendiendo la Estructura del Conjunto de Datos

Archivo de Libros:

  • Campos: ISBN, Título del Libro, Autor, Año de Publicación, Editorial, URLs de Imágenes, etc.
  • Identificador Clave: ISBN (Número Estándar Internacional de Libros) sirve como el identificador único para cada libro, asegurando que no haya duplicados.

Archivo de Usuarios:

  • Campos: ID de Usuario, Ubicación, Edad
  • Identificador Clave: ID de Usuario identifica de manera única a cada usuario.

Archivo de Calificaciones (BX Book Rating):

  • Campos: ID de Usuario, ISBN, Calificación del Libro
  • Importancia: Este archivo vincula a los usuarios con los libros que han calificado, formando la columna vertebral de nuestro sistema de recomendación.

3. Preparación y Exploración de Datos

Utilizaremos Pandas y NumPy para la manipulación de datos y Matplotlib’s Pyplot para la visualización.

Cargando los Datos:

Explorando los Datos:

  • Libros: Contiene información detallada sobre cada libro, con ISBN como el identificador único.
  • Usuarios: Contiene demografías de los usuarios.
  • Calificaciones: Mapea a los usuarios con los libros que han calificado, junto con las puntuaciones de calificación.

4. Manejo de los Datos de Calificaciones

El conjunto de datos Calificaciones es fundamental ya que conecta a los usuarios con sus preferencias de libros. Sin embargo, tanto ID de Usuario como ISBN no son claves únicas en este archivo, lo que significa:

  • Un usuario puede calificar múltiples libros.
  • Un libro puede ser calificado por múltiples usuarios.

Calculando Calificaciones Promedias:

Para entender la recepción general de cada libro, calcularemos la calificación promedio.

5. Visualización de la Distribución de Calificaciones

Comprender la distribución de las calificaciones ayuda a identificar posibles sesgos o problemas de escasez de datos.

Perspectivas:

  • Sesgo de Datos: Un gran número de libros han sido calificados por muy pocos usuarios, mientras que unos pocos han obtenido miles de calificaciones.
  • Implicaciones: Este desequilibrio puede afectar el rendimiento del sistema de recomendación, llevando a recomendaciones que favorecen libros populares.

6. Preparación para el Sistema de Recomendación

Antes de construir el sistema de recomendación, es esencial crear una tabla dinámica que estructure los datos apropiadamente, típicamente con usuarios como filas, libros como columnas y calificaciones como valores.

Creando una Tabla Dinámica:

7. Abordando Desafíos de Datos

  • Esparsidad: Con muchos libros teniendo pocas calificaciones, es vital implementar técnicas que puedan manejar o mitigar la esparsidad, como la factorización de matrices.
  • Problema de Arranque en Frío: Para nuevos usuarios o libros sin calificaciones, estrategias como el filtrado basado en contenido o aprovechar las demografías de usuarios pueden ser beneficiosas.

8. Próximos Pasos

En tutoriales posteriores, exploraremos la construcción detallada de la tabla dinámica, aplicando técnicas de filtrado colaborativo y optimizando el sistema de recomendación para manejar efectivamente las complejidades del conjunto de datos.


Conclusión

Construir un sistema de recomendación usando el Conjunto de Datos Book Crossing ofrece una experiencia de aprendizaje integral, destacando las complejidades de manejar conjuntos de datos grandes y del mundo real. Al comprender la estructura de los datos, abordar desafíos como la esparsidad y preparar los datos de manera metódica, estableces una base sólida para crear un sistema de recomendación efectivo y confiable.

¡Feliz codificación!

Comparte tu aprecio