El COVID-19 está invadiendo las noticias.
Noticias por aquí. Noticias por allá.
Cifras por aquí. Cifras por allá.
Es normal. Estamos inmersos en una situación que nunca hemos vivido a nivel mundial en un mundo tan globalizado. En la era de los datos.
Por ello he querido utilizar los datos de HOY 29/03/2020 para estimar lo que puede pasar en en un futuro.
Y que nos sirva esta situación, para aprender algo nuevo sobre técnicas y ciencia de datos.
Y cómo presentar un proyecto de datos.
A nivel emocional es el artículo / proyecto que más me ha costado escribir.
Porque los datos son neutros. Pero la interpretación de estos datos es lo que hiela el corazón. O sentirte muy feliz porque has encontrado algo súper positivo para tu proyecto.
En este caso más bien estoy en la primera situación.
Mirando el lado positivo de las cosas, vamos a utilizar el COVID-19 para ejemplificar cómo podemos ordenar un proyecto de ciencia de datos.
Cómo lo podemos presentar de manera eficaz.
Y sobretodo que nos sirva para aprender de ciencia de datos y utilizarla para explicar cosas y solucionar problemas.
Que es la misión de Conceptos Claros.
¡Vamos a ello!
El objetivo del análisis y los datos del 29/03/2020
Del COVID-19 se pueden obtener muchos datos de muchas fuentes.
En este proyecto he decidido utilizar datos globales, públicos, que los puedes descargar librementes día a día a través de este enlace:
https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data
Pocas variables y sencilla para que el proyecto sea simple.
De cada país se han recogido las variables siguientes:
- Confirmados
- Fallecidos
- Recuperados
- Además de la fecha de los registrados.
Al tener fecha quiere decir que tenemos series temporales. (variables en función del tiempo)
Por ejemplo en España a día 29/03/2020 podemos representar estos gráficos:
Los dos primeros gráficos corresponden a casos confirmados. Los dos siguientes de fallecidos.
El primer gráfico muestra los datos acumulados, que son la suma total de casos que hemos tenido para una determinada fecha.
Sumamos día a día los valores y los acumulamos.
Y el segundo gráfico representa la distribución temporal de esta variable de confirmados. Es decir que representan los nuevos confirmados que tenemos aparecen cada día. (el segundo gráfico es la derivada del primer gráfico)
En el gráfico 3 y 4 es lo mismo pero para los fallecidos.
En Italia aparecen los siguientes datos:
Y si quieres también puedes ver los datos de China y vas a entender mucho mejor la diferencia entre los dos gráficos:
Fíjate que en gráfico de la izquierda es una curva acumulada tipo sigmoide.
Y a la derecha puedes intuir una montaña que es la famosa curva de los contagios del virus COVID-19 en función del tiempo. (si resigues los puntos rojos del gráfico de la derecha con el ratón vas a dibujar una curva)
Dicho esto, vamos a ver cómo podemos estimar esta curva que puedes intuir con el ratón en China a través de los datos de España e Italia.
En el fondo queremos “predecir” qué va a pasar con las variables de fallecidos, confirmados en España e Italia hasta el 01/06/2020, dos meses más allá del 29/03/2020. (que son datos que al día de este estudio se pueden utilizar)
Y además conocer en qué día estará el pico de los contagios y de los fallecidos. (El máximo de la curva).
Antes de saber los resultados una reflexión:
“TODA ESTIMACIÓN TIENE UN ERROR.
ESTE ERROR ES FRUTO DE LAS SUPOSICIONES QUE VAS A HACER”
Ahora te cuento las suposiciones.
Estrategia y suposiciones
Ahora ya conoces el objetivo del proyecto. (El primer punto que necesitas explicar en cualquier proyecto)
En este caso es básicamente estimar. “Predecir” lo que va a ocurrir.
Para poder estimar es necesario un modelo, un algoritmo. Una herramienta matemática que nos permita hacerlo.
Y esta herramienta matemática (modelo) lo vamos a entrenar a partir de unos datos ya conocidos.
La estrategia en este proyecto es:
- “Entrenamos” el modelo para los datos de China para capturar la dinámica del COVID-19.
- Y el siguiente paso, es trasladar la dinámica que hemos encontrado a los países que quieres estimar: España e Italia.
Este es el proceso:
Vamos a utilizar los datos de fallecidos de China para captar la dinámica ya que hemos encontrado mayor dispersión en la dinámica en los confirmados de China.
¿Qué suposiciones hacemos con esta estrategia?
La primera suposición: La dinámica del efecto del COVID-19 en China es similar a la del resto de países.
Esto ya te digo yo que no es así en la realidad. Pero te puede dar una idea de qué puede ocurrir si seguimos las mismas medidas que en China.
En el fondo estamos utilizando los datos del único país que ha terminado el COVID-19 para poder entrenar un modelo.
(Si tuviéramos más países y más datos el modelado y la estimación sería más efectiva. Este siempre es así)
La segunda suposición: no modelamos la intervención de las medidas de los países para poder estimar en distintos escenarios como es el caso del modelo SIR.
Aquí directamente estamos suponiendo que las medidas en el país que quieres estudiar son similares a China.
Y eso no ha sido así. Cometeremos error en este sentido.
También puede que cometamos errores porque los datos de China no se han contabilizando correctamente.
Con esto claro.
Lo bueno de este método es que es rápido y con pocos datos de tu país ya puedes estimar de forma aproximada del efecto del COVID-19.
Es sencillo y replicable. Se puede utilizar como método estándar de una primera estimación.
Cómo “entrenar” el modelo dinámico en China
El paso 1 tiene como objetivo captar la dinámica del virus en la población.
Por dinámica me refiero a cómo evoluciona el efecto del COVID-19 en el tiempo. En China ha sido así:
En el gráfico de la derecha puedes ver la dinámica del COVID-19.
Eso es lo que queremos modelar.
Vamos a utilizar un modelo que se utiliza para captar la dinámica del aumento de la población acumulada en el tiempo.
Es el modelo de Gompertz:
- k1 es el valor final de población acumulada cuando pase cuando se estabilice.
- Po es el valor de la población en el inicio del período.
- c es la constantes de crecimiento del modelo. Cuanto más grande más rápido se estabiliza el modelo.
- Y normalmente k2/po es parecida a k1 y es parte de la dinámica del modelo.
En azul puedes ver el modelo en la gráfica de datos acumulados.
Y a la derecha su derivada. Que nos da idea de la curva del COVID-19 en China.
Este es el modelo calculado con los datos de fallecidos en China:
Esa es la dinámica que replicaremos en Italia y España 🙂
Cómo replicar el modelo en otros países
El siguiente paso es trasladar esa dinámica a los países que queremos estimar el efecto del COVID-19.
La dinámica del modelo es la que ves en el gráfico de la izquierda que tienes a continuación:
Y para trasladar esa dinámica necesitamos dos parámetros: A y k para llevarlo a España.
A es el número final de la población.
Y k son los días de diferencia entre el modelo calculado en China y el nuevo país. Par poder poner a un mismo punto de partida.
¿Cómo vamos a obtener A y k?
Optimizando.
Lo entenderás mucho mejor en este vídeo:
La explicación de cómo traslado la dinámica de China a España e Italia.
El ejemplo en R para aquellos que queráis utilizarlo. Trabajo en abierto
Te muestra ahora todo el proceso en detalle en un vídeo para ejecutar el código en R
El vídeo resumen y estimaciones en España e Italia con datos del 29/03/2020
Te cuento un vídeo el resumen del artículo con todo lo que has visto y la estimaciones de Italia y España.
Esta es la tabla de estimaciones en Italia y España:
Siguientes pasos y take away
Estos son los siguientes pasos:
- Mejorar el modelo de Gompertz con un modelo SIR o con un mejor fit de la distribución temporal
- Dar los resultados con intervalos de confianza. Con un margen
- Mejorar la manera de trasladar el modelo dinámica de China al país que queremos proyectar la dinámica
- Permitir modificar la dinámica según un modelo SIR
Lo más importante de la lección
- El proceso de la estimación siempre es: elegir un modelo o algoritmo. modelar (aprender) en base a datos antiguos suficientes y estimar con nuevos datos
- El modelo es la parte clave del proceso y la cantidad de variables que puedes incluir nos dará mayor exactitud
- Hemos diseñado un método de estimación rápida aplicable a distintos países
- El proceso de presentación de un proyecto es el siguiente: 1. el estado actual y objetivos, 2. estrategia y proceso, 3. explicar el proceso, 4. resultados y 5. siguientes pasos.
Espero que te haya gustado este artículo y que te ayude a entender cómo puedes presentar un proyecto, de forma sencilla y práctica.
Además de aprender de los datos del COVID-19 y las estimaciones.
Un fuerte abrazo y ¡mucho ánimo!
Me gusta mucho el video y la aplicación de series temporales.
Cuidaos mucho familia, aquí estamos bien.