Hemos comenzado a escuchar esta palabra prácticamente en todas partes. Pero, ¿qué es la ciencia de datos (“ciencia de datos”)? La ciencia de datos, que no es un nombre muy original, es la ciencia que estudia los datos. Se puede aplicar a prácticamente cualquier cosa que podamos convertir en (¡muchos!) Números, desde ciencia biomédica, marketing, patrones de personalidad, economía….
Se basa en el hecho de que cuando tienes una gran cantidad de datos juntos (big data o big data) hay enormes cantidades de capas de información que pueden ser muy útiles pero que se superponen y se ven todas al mismo tiempo. Da la idea de desorden y caos y le impide extraer información específica. Este big data contiene no solo una respuesta, sino múltiples respuestas a varias preguntas que los científicos de datos pueden hacerles. Pero sus respuestas son limitadas, tienes que hacerle las preguntas correctas.
Estas “preguntas” son las herramientas que utiliza la ciencia de datos. La ciencia de datos o ciencia de datos se basa en 3 herramientas: la programación;; la matemáticas y estadísticas; y el Experiencia en el campo de los estudios.
La programación
Solo una computadora (potente) puede procesar grandes cantidades de datos. Por tanto, el lenguaje de comunicación entre humanos y big data es la programación informática. Imagine una hoja de cálculo de Excel con 850.000 filas y 500 columnas, por nombrar un ejemplo muy pequeño de big data. Un ejemplo realista de datos masivos podría ser la información de todos los institutos de un país: número de alumnos, sexo, edad, notas, asistencia … Pueden ser datos de distinta índole que no se pueden estructurar ni adaptar a una tabla, como nosotros tú entiendes.
Matemáticas
Para organizar, procesar y analizar estas capas superpuestas de información, se utilizan varios enfoques matemáticos para reducir la complejidad de los datos sin perder información. Se aplican fórmulas y algoritmos a los datos para eliminar cualquier información que no sea necesaria para la “pregunta” que hicimos. De esta forma, los patrones aparecen y las respuestas convergen en un punto. Esta página muy intuitiva le dice cómo analizar datos usando matemáticas: (http://setosa.io/ev/principal-component-analysis/).
Volviendo al ejemplo que pusimos frente a los datos masivos de los institutos de un país, cuando aplicamos filtros y algoritmos para ceñirnos a la información sobre las calificaciones y el ausentismo recibido de los estudiantes, y “preguntamos a los datos” si existe tal relación entre las dos variables (calificaciones y absentismo) veríamos que una de las variables (calificaciones) parece depender de la otra (absentismo). El resultado de este análisis sería que las dos variables están relacionadas.
La experiencia en el campo
La piedra angular de la ciencia de datos es que el científico de datos tiene un amplio conocimiento del tema. De lo contrario, se sacarían muchas conclusiones sobre los datos que serían incorrectos sin conocimiento del campo de estudio. Si seguimos nuestro ejemplo de datos de estudiantes, con un análisis detallado y experiencia, ¡descubriríamos que todos están ausentes al menos un 28% por semana! independientemente de las notas obtenidas. Estos datos no tienen sentido. En este punto, debe analizar críticamente los datos para ver exactamente qué dice la respuesta de los datos a nuestra pregunta. La programación y las matemáticas fueron impecables, pero no agregamos ninguna información básica en el área de estudio de estos datos: solo se enseñan cinco de los siete días de la semana, y el fin de semana representa el 28% del total de la semana. En este caso, resultó que el resultado, que inicialmente nos pareció erróneo, terminó siendo un fracaso por desconocimiento del campo de estudio. Esto hace que el conocimiento en este campo sea la herramienta más importante para sacar conclusiones sobre big data.
(Imagen de https://towardsdatascience.com/introduction-to-statistics-e9d72d818745)
¿Qué proceso sigue un científico de datos?
Debido a su experiencia, el científico de datos hace una pregunta que cree que las grandes bases de datos pueden responder. Para responder, siga el proceso a continuación, que se puede resumir en 8 pasos:
1) Recuperación de los datos: los datos masivos suelen provenir de múltiples fuentes (variedad), pueden tener distintos volúmenes (volumen), se generan rápidamente (rapidez) y como son tantos, se debe comprobar que sean correctos (veracidad) . Son las cuatro “V” del Big Data.
2) Preprocesamiento de datos: Se realiza un tratamiento inicial de los datos en el que se limpian y filtran los datos que no cumplen con los criterios de calidad, no son de interés para el estudio, contienen errores …
3) Transformación e Integración: homogeneizar los datos provenientes de múltiples fuentes para que sean comparables entre ellos. Esto puede deberse a la estructuración (datos en formato de tabla) o la desestructuración de los datos (datos en un formato diferente como texto, imágenes …).
4) Análisis de datos: procese los datos utilizando varios algoritmos y métodos estadísticos para obtener resultados que respondan a las preguntas de los científicos de datos.
5) Interpretación de los datos: en este punto el científico de datos evalúa el resultado del análisis y aplica su experiencia en el campo para comprender, completar y corregir la información recibida de la computadora.
6) Validación de datos: Verifique que estos datos sean sólidos o estén cambiando debido a sesgos inherentes a los datos. Se puede validar de diferentes formas: utilizando datos fuera de proceso, utilizando técnicas diferentes a las utilizadas en el estudio … pero siempre es necesario obtener un resultado similar al obtenido originalmente para confirmar que los Resultados son reales y no debidos al azar o al sesgo.
7) Si es necesario, diseñar nuevos análisis o experimentos: En el proceso científico, esta parte se define como “Validar la hipótesis”. En el caso de que los datos no hayan sido validados o se necesite más información para producir resultados concluyentes para las preguntas formuladas por los científicos de datos, se incluyen más datos en los análisis o se reformulan los algoritmos para hacer diferentes preguntas a los científicos de datos.
8) Visualizar y presentar gráficamente los resultados de los datos: Es un proceso fundamental en cualquier trabajo con grandes bases de datos representar gráficamente la información resultante en su totalidad y con tantas capas como sea posible. Los gráficos son una forma rápida de interpretar los datos para tomar decisiones, y la tendencia en todos los artículos científicos y en la vida cotidiana en general es complicar y aumentar la cantidad de información obtenida en una sola imagen para completar.
(Imagen de https://datafloq.com/read/big-data-analytics-paving-path-businesses-decision/6110)


