¿Por qué es importante una visualización adecuada de los datos y resultados? La visualización de datos es un aspecto relevante en la ciencia de datos, por lo que en esta clase veremos qué es la visualización de datos y por qué es importante. También, revisaremos algunos tipos de gráficos que nos ayudan a visualizar, explorar, entender y mostrar datos, y revisaremos algunas herramientas de visualización. En consecuencia, esta clase se compone de tres temas: el tema uno, visualización de datos y su importancia, el tema dos, tipos de gráficos, y el tema tres, herramientas de visualización de datos. Visualización de datos y su importancia. La visualización de datos es un campo de estudio interdisciplinario cuyo objeto es la representación de datos en formato gráfico. Según la página web de Tableau, que es uno de los software de visualización analítica más utilizados en el mundo, la visualización de datos es la representación gráfica de información y datos mediante el uso de elementos visuales como cuadros, gráficos y mapas. Las herramientas de visualización de datos proporcionan una forma accesible de ver y comprender tendencias, valores atípicos y patrones en los datos, entre otras muchas cosas. La importancia fundamental de la visualización de datos es que nos entrega herramientas para entender e interpretar los datos para mejorar los procesos de toma de decisiones en una organización. Así, la visualización de datos nos permite ordenar, describir, clasificar, interpretar y explicar la información disponible para apoyar diferentes procesos de toma de decisiones. Por ejemplo, este gráfico de dispersión nos permite observar la evolución de los nuevos casos de COVID en el tiempo, y a través de la observación, se puede entender cómo ha ido evolucionando la actual pandemia en Chile. Esta observación de los datos puede entregar antecedentes valiosos a las autoridades para definir medidas sanitarias apropiadas para hacer frente a la pandemia. ¿Qué se observa en el gráfico? Por ejemplo, se puede ver que en el invierno del 2020 y del 2021 hay un aumento considerable de casos nuevos. O que en septiembre del 2021 se alcanzó el nivel más bajo de contagios nuevos. También podemos ver que la caída en la cantidad de contagios nuevos fue más abrupta en julio del 2021 que en julio del año 2020. O incluso, que el máximo de contagios no alcanzó los 45 casos nuevos por cada 100.000 habitantes. Le invito a responder la siguiente pregunta. Recuerde que para responder esta pregunta debe trabajar con la base de datos disponible en el curso y Python. Tema dos, tipos de gráficos. Lo fundamental de una visualización de datos es que sea efectiva al describir la información, teniendo claro qué es lo que se quiere transmitir, logrando así un balance adecuado entre la forma y la funcionalidad. Lo primero es definir qué tipo de gráfico usar, teniendo siempre en mente lo que queremos transmitir con nuestro análisis de datos o lo que necesitamos observar de los datos. Para esto, tenemos que tener claras cuáles son las virtudes que presenta cada tipo de gráfico. Por ejemplo, en el caso anterior queríamos observar la evolución temporal de una serie de datos sobre nuevos contagios por COVID, y para ello se utilizó un gráfico de dispersión, ya que es el tipo de gráfico que nos permite observar más adecuadamente esa evolución. Veamos un ejemplo. Imagine que usted quiere graficar la información sobre cuántos pacientes llegaron a los hospitales de la red para cada tipo de GRD, según la información entregada en la tabla uno. Para visualizar gráficamente la información anterior, utilizaremos cada uno de los siguientes tipos de gráficos: gráfico de línea, gráfico circular o de área, gráfico de barra, gráfico de cajas y bigotes, "box plot", y diagramas de dispersión. Este gráfico de línea muestra la cantidad de pacientes que arribaron a la red por cada GRD. Tal como se observa, el gráfico se presenta con una línea que parece unir estos valores, lo que puede dar una sensación de temporalidad o relación entre estos, lo que no existe en este caso para estos datos. Este gráfico circular define la cantidad de pacientes que han arribado por cada GRD, de manera relativa al total. Esto se ve representado por la porción de círculo que le corresponde a cada GRD. Es un buen gráfico para ver la relación entre cada uno, pero no resulta tan efectivo cuando los totales son muy parecidos, como sucede en este caso. Así, no nos ayuda a ver claramente la diferencia en el valor para cada uno de los GRD, sobre todo si son distintos. Este gráfico de barra permite observar claramente el valor asociado a cada GRD, y al desplazar el comienzo del gráfico en el eje y, nos ayuda a evidenciar más claramente la diferencia en la cantidad de pacientes que han llegado por cada GRD. Las líneas horizontales permiten hacer una referencia clara de estas diferencias. Este gráfico, llamado gráfico de caja o "box plot", permite juntar la cantidad de pacientes de todos los GRDs en un mismo gráfico, mostrando la mediana, valor que divide el total de datos en dos mitades, y los valores dentro de la caja, que corresponden a los incluidos en el segundo y tercer cuartil. Claramente, este tipo de gráfico no resulta útil para visualizar lo que queremos. Este gráfico de dispersión nos muestra puntos en el eje x y, donde en x están los GRDs, del uno al 10, y en el eje y están los valores asociados al total de pacientes. Y existen muchos más tipos de gráficos. Como se puede ver, es importante saber qué mostrar y cómo mostrarlo, ya que dos o más tipos de gráficos pueden servir para mostrar la información, pero uno de ellos lo hará de mejor manera. En este caso, el gráfico de barras es el que muestra mejor la información sobre la cantidad de pacientes totales que han llegado al sistema hospitalario por GRD, ya que permite ver claramente que el GRD cinco es el que ha tenido más llegada de pacientes, y el GRD cuatro es el que menos llegadas ha tenido. En pocas palabras, el gráfico de barras permite apreciar de manera más clara la diferencia en cantidades para cada uno de estos GRDs. Le invito a responder la siguiente pregunta. Recuerde que para responder esta pregunta debe trabajar con la base de datos disponible en el curso y Python. Tema 3, herramientas de visualización de datos. Existen distintas herramientas y software que nos permiten analizar y visualizar los datos. Dentro de las más importantes se tienen las siguientes: Tableau, Microsoft Power BI, SAS, Python. Cabe destacar que existen más aplicaciones que las mencionadas, pero estas son las que son más comúnmente utilizadas. Las tres primeras herramientas corresponden a software que vienen con un sinfín de funcionalidades precargadas y programadas, pero a un alto costo comercial. Python nos permite realizar operaciones y visualizaciones personalizadas tan potentes como las que se pueden desarrollar con los software antes mencionados. La ventaja es que es un software de uso libre. En esta clase, se definió lo que se entiende por visualización de datos. Además, se dio a conocer la importancia que hay en realizar una correcta visualización de datos, la cual no solo se centra en la ciencia de datos, sino que es transversal a todas las profesiones en donde se quiera entender las grandes cantidades de información que estas poseen. También se definió qué es lo que se entiende por una buena visualización y vimos ejemplos de distintos tipos de gráficos, mostrando información sobre la cantidad de pacientes que llegan a una red de salud con diferentes GRDs. Por último, listamos algunos software comerciales para realizar visualización de datos.