Análisis de datos aplicado: ¿Son los capítulos de Los Simpson cada vez peores?

Los simpson

Nota importante: Este artículo contiene gráficos incrustados no adaptados para móvil. Si accedes a través de un dispositivo móvil, posiblemente no puedas ver parte del contenido.

Hacía tiempo que quería publicar esta entrada de blog, tras una buena temporada sin escribir nada nuevo. Os traigo un ejemplo muy sencillo de cómo podemos aplicar la ciencia de datos y la visualización al análisis de los contenidos televisivos.

La ciencia de datos es una disciplina que mezcla distintos campos de conocimiento, que abarcan desde el conocimiento científico y las metodologías de investigación, hasta los procesos de extracción de datos y su transformación. Todo ello nos acerca a una comprensión de los datos que, de otro modo, seria imposible. Este caso de estudio está inspirado en el que Víctor Pascual realiza en la asignatura de Visualización de Datos del máster en comunicación y Marketing Digital de la UAB.

Hipótesis de partida

Me considero un fan de Los Simpson. Creo que sus guionistas han logrado plasmar y caricaturizar situaciones de familia que trascienden las barreras culturales. Tienen un humor mundano y auténtico. Para mi, esta fue la base de su éxito. Pero siempre que hablo con mi familia o amigos sobre la evolución de la serie, coincidimos en que ha ido a peor. Los nuevos capítulos, aunque son brillantes desde un punto de vista técnico y artístico, han perdido la chispa. ¿Es esto una opinión generalizada? ¿Realmente han ido a peor? ¿O se trata de una percepción personal que no responde a la realidad?

Recolección y tratamiento de los datos

Detector de tostón activado: ahora viene un rollazo. Si no te interesa, pasa directamente a la visualización de los datos

Lo primero que necesito para confirmar o refutar la hipótesis, son datos. Para saber si mi opinión coincide con la del resto de la audiencia, voy a analizar la opinión de la audiencia en internet. En la red podemos encontrar muchos sitios de reviews de series, y posiblemente la más importante sea IMDB. El portal lleva muchos años recopilando información sobre series y películas, y cuenta con una base sólida de usuarios que participan aportando su opinión sobre los contenidos. Está será mi muestra: los usuarios que votan y contribuyen con su opinión en IMDB.

El siguiente paso, es recolectar los datos. Los Simpson se emite desde 1989, tiene 31 temporadas y más de 670 capítulos. ¿Cómo puedo gestionar esta cantidad de datos? Una opción, es visitar cada capítulo y anotar manualmente los votos que ha obtenido y la cantidad de veces que ha sido votado. Otra opción es usar técnicas de automatización.

Hay dos maneras de recolectar datos de un sitio web de forma automatizada. El primero es acceder a los mismos mediante una API (Aplication Program Interface). Las API son como puertas de entrada que permiten consultar las bases de datos de los sitios web usando lenguajes de programación. Son creadas por las personas que gestionan estas bases de datos, y suelen tener limitaciones de uso y condiciones. En el caso concreto de IMDB, no tienen una API habilitada que permita el acceso a los datos de su Base de Datos, por lo que es necesario usar métodos alternativos. Concretamente, el Web Scrapping. El scrapping es una técnica que consiste en “rascar” los datos visibles de un sitio web para almacenarlos y, a posteriori, trabajar con ellos. Es como “capturar” lo que hay en el HTML de un sitio web de forma sistemática.

Para hacer scrapping hay muchas herramientas y extensiones de navegador, pero yo he querido desarrollar una herramienta propia escrita en Python3, que permite, mediante una línea de comando, obtener los datos, procesarlos y descargarlos en formato de Excel.

Podéis encontrar el código de este pequeño programa aquí: «IMDB Scraper and Statistics». En el repositorio también tenéis las instrucciones, tanto de instalación como de uso.

Un apunte sobre la ciencia de datos

Una parte fundamental de la ciencia de datos, es la transformación de los datos que tenemos a nuestra disposición para generar nueva información derivada, que permita una mayor comprensión de los datos originales. Vamos a poner un ejemplo absurdo: en mi jardín tengo un manzano, y diariamente cuento la cantidad de manzanas que tiene. Si anoto esta cifra durante una semana, puedo obtener una nueva información: la media diaria de manzanas que hay en el árbol durante una semana. Si prolongo esta recolección de datos durante un año, podré saber cuantas manzanas me ofrece mi árbol mensualmente, anualmente y por estación. Mi manzano es la fuente de datos, y únicamente me indica cuantas manzanas tiene cada día, pero a partir de este dato yo puedo llegar a prever cuantas manzanas voy a poder recolectar la próxima semana, durante los próximos meses, o dentro de 3 años. Puedo, incluso, crear un algoritmo que introduzca las probabilidades climáticas, o las posibilidades de enfermedad del manzano, para afinar la predicción.

Ahora imaginad que dispongo de cientos de hectáreas, donde tengo plantados cientos de miles de manzanos. La ciencia de datos deja de ser un juego y se transforma en una necesidad empresarial. Debo hacer predicciones, prever la producción y trabajar con probabilidades climáticas, si quiero que mi negocio sea sostenible. Evidentemente la ciencia de datos es mucho más compleja, pero a través de este ejemplo creo que es posible observar cómo, a partir de un dato simple, podemos crear nueva información que nos permita generar modelos matemáticos, algoritmos y predicciones de futuro útiles para el negocio.

El dataset

Regresando a Los Simpson, mientras leías el anterior párrafo he descargado los datos de IMDB usando mi herramienta Python. Aquí te dejo el dataset con el voy a trabajar

Como verás, si abres el dataset, tenemos 1 capitulo por fila. Las columnas son las variables de cada capítulo, y en cada fila tenemos las métricas. Vamos por partes. Primero voy a distinguir entre dos tipos de datos: los que me ofrece IMDB, y los que yo creo (nuevos) a partir de los originales. Vamos a llamarlos “Datos Originales” y “Datos Derivados”.

Originalmente, IMDB me ofrece estos datos:

  • El nº de capitulo
  • El nombre de la serie
  • El Nombre del capitulo
  • El nº de temporada
  • Los votos de cada capítulo (cantidad)
  • La puntuación Media de cada capitulo
  • Fecha de publicación del capítulo

Si trasladamos esto a las columnas del dataset, obtenemos lo siguiente:

  1. (Original) El nº de capitulo en el global de la serie.
  2. (Original) El nombre de la serie.
  3. (Original) El nº de capitulo dentro de la temporada.
  4. (Original) El nombre del episodio.
  5. (Original) Fecha de lanzamiento.
  6. (Original) Puntuación media otorgada por los usuarios de IMDB.
  7. (derivado) Media de puntuación de toda la serie.
  8. (derivado) Variación de la puntuación respecto al capitulo anterior.
  9. (derivado) Variación porcentual de la puntuación respecto al capitulo anterior.
  10. (derivado) Desviación porcentual del la puntuación respecto al global de la serie.
  11. (Original) Cantidad de votos.
  12. (derivado) Media de votos por capitulo de toda la serie.
  13. (derivado) Variación de la cantidad de votos respecto al capitulo anterior.
  14. (derivado) Variación porcentual de la cantidad de votos respecto al anterior capitulo.
  15. (derivado) Desviación porcentual de la cantidad de votos respecto al global.

Veamos de donde sale cada dato derivado que he ido creando:

  • Columna 7: Media de puntuación de toda la serie. Es el producto de la suma de todas las estrellas de todos los capítulos, dividido entre el número de capítulos totales de la serie. Este dato es interesante para saber cuál es el punto medio de puntuación de la serie. Gracias a este punto medio, podemos saber qué capítulos están por encima, y qué capítulos están por debajo de la media.
  • Columna 8: Variación de la puntuación respecto al capitulo anterior: se calcula restando al puntuación de un capítulo y la del capitulo inmediatamente anterior. Este dato nos permite saber si un capitulo es mejor o peor que el anterior. Si la variable es positiva, significa que el capitulo es mejor que el anterior, si es negativa, significa que la calidad de los capítulos empeora.
  • Columna 9: Variación porcentual de la puntuación respecto al capitulo anterior: Esta variable expresa lo mismo que la anterior pero en formato porcentual. La razón para hacer esto, es tener un indicador que nos permita medir mejor la magnitud del cambio. Pongamos un ejemplo: si un capitulo obtiene 7,3 estrellas, y el siguiente 6,1. La variación es de -1,2 estrellas. Así es como quedará expresado en la columna 8. Pero cuesta saber si este cambio es grande, o pequeño. Si lo expresamos mediante un porcentaje, el cambio es del -16% de la puntuación, lo que es un cambio importante.
  • Columna 10: Desviación porcentual del capitulo respecto a la media de la serie. Esta métrica es extremadamente útil, ya que es un indicador porcentual muy claro para saber si el capitulo está por encima o por debajo de la media del global de estrellas de la serie.
  • Las columnas 12, 13, 14 y 15, siguen exactamente la misma lógica, pero tomando como base la cantidad de votos obtenidos. De este modo, podemos saber si la gente vota más o menos, y cómo la participación ha ido cambiando de capitulo a capítulo a lo largo de la serie.

Vamos a visualizar Datos

Si has llegado hasta aquí, te felicito: ya has superado la parte más difícil de este artículo, y has leído el equivalente a 3 páginas de Word (Calibri cuerpo 11 interlineado 1.15). Si no has aguantado, no pasa nada, pero debes saber que la impaciencia es uno de los mayores frenos del conocimiento.

Para refutar o confirmar mi hipótesis, lo primero que debemos conocer, es la cantidad de votos de esta serie en IMDB, y su distribución por temporadas. Este dato es necesario porque cuantos más votos tiene un capitulo o temporada, más estable o fiable es la cifra media de puntuación, también nos dará una idea de la cantidad de gente interesada en dar su opinión. Tal como se puede observar en el gráfico 1, la cantidad de votos decrece a medida que avanzamos temporadas. La temporada 31 (la última en el momento de publicar este análisis) no llega a 5.000 votos, mientras que la temporada 2, la más votada, supera los 50.000.

Es necesario valorar si menos de 5.000 votos son representativos de la opinión general sobre la calidad de la temporada.

Veamos ahora la puntuación media de cada temporada. Este, posiblemente, sea el dato que necesitamos para responder a la pregunta. En el gráfico 2 se puede ver la evolución de la puntuación.

Los datos muestran que la puntuación de la serie decrece tras la 6ta temporada, momento cumbre en el que alcanza una calificación media de 8,5 estrellas. El descenso no es muy pronunciado.

Nos queda analizar en detalle, por capítulos, cuál ha sido la evolución de la serie. En el grafico 3 podemos ver una tabla de calor con todos los capítulos de la serie. Se observa que a medida que avanza la serie, disminuye la intensidad del color (más oscuro = mayor puntuación). Además, es posible localizar capítulos que han sido excepcionalmente malos y buenos en el contexto de cada temporada.

Por ejemplo: El capitulo número 3 de la sexta temporada (Título: Another Simpsons Clip Show) fue excepcionalmente malo, con una calificación de 5,9 estrellas, en una temporada cuya media es de 8,5. Ocurre lo mismo con el capitulo 11 de la novena temporada, o el capitulo 17 de la temporada 13. Si se hace el ejercicio inverso, es posible localizar los capítulos excepcionalmente buenos dentro de cada temporada.

Sin embargo, a medida que avanza la serie y nos aproximamos a las últimas temporadas, estas variaciones de puntuación no son tan evidentes, y la calidad de los capítulos (expresada por la puntuación otorgada por los usuarios) decrece de forma general y homogénea.

Finalmente, en el grafico 4 he representado los mismos datos que en el anterior caso, pero de un modo distinto.

En este último gráfico, se expresa el % de desviación de cada capitulo respecto a la media global de la serie. Esta forma de representar los datos no solo me permite ver si un capitulo es bueno, malo, o se encuentra en la media, sino que además me permite analizar en qué medida se aparta de la media, con una magnitud porcentual. La intensidad del color es la temporada. A más claro, más antigua.

Como podéis observar, el gráfico está repartido en 4 partes (cuadrantes), delimitados por el eje X/Y en el lugar donde se cruzan (punto 0,0).

De arriba izquierda abajo derecha, tenemos:

  • Superior izquierda: capítulos con más votos que la media, pero con una puntuación por debajo de la media
  • Superior derecha: capítulos con más votos que la media, y una calificación superior a la media
  • inferior izquierda: capítulos con una cantidad de votos inferior a la media y una puntuación inferior a la media
  • inferior derecha: capítulos con una cantidad de votos inferior a la media, pero una puntuación superior a la media

El gráfico nos muestra que las temporadas más antiguas, se encuentran ubicadas en el cuadrante superior derecho, lo que significa que tienen una cantidad de votos superior a la media, y la calificación también es superior a la media.

Por el contrario, las temporadas más recientes se encuentran en el cuadrante inferior izquierda, lo que significa que tienen una puntuación y cantidad de votos es inferior a la media.

Este gráfico también nos permite localizar capítulos exepcionalmente buenos y excepcionalmente malos. El episodio nº 22 de la temporada 23 (Lisa Goes Gaga) ha sido votado por encima de la media, y la puntuación ha sido mucho más negativa que la media.

Conclusiones

A la pregunta: ¿Es una percepción personal la perdida de calidad de la serie?

Resupuesta: los datos muestran una tendencia a la baja en las puntuaciones medias de cada temporada a medida que la serie avanza. Si se analiza en detalle la puntuación por capítulos, también se puede observar un decrecimiento progresivo de la puntuación por capítulo. Esto nos llevaría a pensar que realmente se está produciendo una caída de la calidad de la serie, que se expresa con votos negativos.

Quedarnos con estos datos supone un gran error, ya que también es cierto que existe una bajada importante de participación en cantidad de votos a lo largo de las temporadas. Para saber si la cantidad de votos tiene relación con la puntuación, es necesario aplicar el modelo matemático de regresión lineal, donde podemos ver si existe una relación directa entre la cantidad de votos, y la puntuación obtenida. Es decir, averiguar si: cuando se vota más, los votos son positivos, y cuando se vota menos, son negativos. Ver gráfico 5.

En definitiva, existe una correlación entre votos y puntuación. Y esto deriva en dos posibles conclusiones:

Conclusión 1: No es posible saber si la calidad de la serie ha caído, porque los usuarios no está participando de forma equitativa. La cantidad de votos está directamente relacionada con la puntuación, por lo que cabe pensar que a menos votos, menor puntuación, y es posible preveer cual será la puntuación de un capitulo dependiendo de la cantidad de votos que obtenga. Fin de la discusión.

De aquí se derivan varias hipótesis. ¿Por qué se produce esta correlación?

Es posible que los votantes más positivos hayan dejado de participar, quizás ha caído la audiencia, la serie no logra engagement, o la audiencia es más reticente a dar su opinión sobre la calidad de un producto cuando el producto es malo. También podemos valorar si IMDB ha perdido usuarios… y solo quedan aquellos fieles que son más críticos. Esto exige una mayor investigación.

Conclusión 2: A pesar de lo anterior, los gráficos en detalle y los casos que escapan de la media demuestran que existe una alta participación en los extremos: Cuando el capitulo es excepcionalmente malo, la cantidad de votos supera la media. Ocurre lo mismo, cuando el capitulo es excepcionalmente bueno, la cantidad de votos se incrementa.

Este comportamiento me lleva a pensar que existe una audiencia dispuesta a dar su opinión, y que se activa o moviliza para premiar y castigar el trabajo de los guionistas, pero se mantiene ligeramente pasiva cuando la calidad del capitulo es media. La gente no vota, a no ser que el capítulo sea muy malo, o muy bueno.

Entonces, ¿cuál es la conclusión? Creo que es imposible contestar a la pregunta y refutar/confirmar la hipótesis con los datos que ofrece IMDB. La percepción personal juega un papel fundamental, y la diferencia de votos entre temporadas nos genera un sesgo muy importante que nos impide sacar conclusiones claras.

Para confirmar o descartar que la correlación entre votos / puntuación afecte, deberíamos realizar el análisis con más series puntuadas en IMDB, y analizar si se cumple el mismo patrón: menos votos = menor puntuación. Si este patrón no es general, podemos pensar que la puntuación realmente responde a la calidad del capitulo.

Fin

Hasta aquí

Si, es un artículo largo y pesado


Puntúa este post ;)
Esto apestaBah, ni chica ni limonáPasable¡Oh! Me gusta tu rollo¡Genial! ¡Justo lo que quería! (2 Votos, puntuación media: 5,00 de 5)
Loading...

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *