Errores enormes (pero comunes) en el análisis de datos

October 10, 2022

357

[ad_1]

El análisis de datos no es particularmente útil si está plagado de errores. Los líderes empresariales deben guiarse por conocimientos reales y precisos que les permitan tomar mejores decisiones para guiar a sus organizaciones hacia el éxito. Sin embargo, el análisis de datos erróneos es un problema rampante, y le cuesta a la economía de los EE. UU. un estimado de $ 3.1 billones cada año.

Afortunadamente, algunos de los errores más comunes en el análisis de datos también son algunos de los más fáciles de superar. Esta guía de errores masivos de análisis de datos debería ayudar tanto a los profesionales de datos como a los líderes empresariales a superar las imprecisiones y desarrollar un sistema de análisis más sólido para todos.

No definir el problema

Muchas organizaciones recopilan la mayor cantidad de datos posible, pero un enfoque tan caótico del análisis de datos generalmente no es fructífero. Big data es más útil cuando los científicos de datos entienden qué problema se esfuerzan por resolver desde el principio; luego, pueden dirigir sus procesos de recopilación y análisis para brindar información adecuada.

Sin una definición completa del problema, ni los líderes empresariales ni los científicos de datos estarán satisfechos con las soluciones proporcionadas a través del análisis de datos.

Centrarse en las métricas incorrectas

Algunos tipos de datos son más fáciles de recopilar que otros, y algunos tipos de datos son mejores para demostrar el éxito organizacional. Sin embargo, al elegir ciertas métricas e ignorar todas las demás, los líderes no obtienen una visibilidad realista de los problemas que enfrenta su negocio.

Los ejecutivos deben trabajar junto con los científicos de datos para identificar las métricas con mayor probabilidad de revelar verdades útiles y realizar un seguimiento continuo de esas métricas para permitir una toma de decisiones más eficaz.

Creer que la correlación es causalidad

La correlación ocurre cuando dos variables parecen tener una relación. La causalidad se determina cuando hay evidencia de que una variable es directamente responsable de los cambios en otra. Con demasiada frecuencia, los líderes empresariales asumen que la correlación y la causalidad son lo mismo, que debido a que dos variables parecen estar relacionadas, una debe causar la otra.

Por ejemplo, las estadísticas de paracaidismo que indican que los paracaidistas tienen más probabilidades de sufrir tasas de mortalidad más altas no necesariamente indican que el paracaidismo esté causando muertes prematuras. Sin embargo, este es un error significativo que puede resultar en una toma de decisiones extremadamente pobre. Los equipos y ejecutivos de ciencia de datos deben trabajar para superar esta creencia.

Saltarse datos cualitativos

Muchos científicos de datos se sienten más cómodos trabajando con números, y los ejecutivos pueden ser víctimas de creer que los datos cuantitativos son más importantes porque son más difíciles de analizar.

Sin embargo, los datos cualitativos, o los datos basados en el idioma, pueden ser igual de valiosos y, en algunos casos, son más informativos que los datos numéricos. A menudo, los datos cualitativos responderán preguntas como “por qué”, lo que puede ayudar a guiar la toma de decisiones comerciales en una dirección positiva.

Descuidar la limpieza y normalización de datos

Los datos en su forma cruda son esencialmente inutilizables. Antes de que los científicos de datos puedan ejecutar datos a través de algoritmos y modelos, deben refinar sus datos, eliminando cualquier error que produzca imprecisiones en los conocimientos finales.

La limpieza implica la eliminación de errores como redundancias y errores tipográficos, así como la identificación de datos incompletos y obsoletos que podrían sesgar los resultados. La normalización de datos es el proceso de convertir datos en una forma consistente, como todas las medidas de tiempo en horas en lugar de medir el tiempo en minutos y días.

Las herramientas de análisis avanzado que utilizan capacidades de aprendizaje automático pueden realizar estas tareas automáticamente, pero sin estas herramientas, los líderes empresariales deben comprender cómo limpiar y normalizar sus datos a mano.

Seleccionar la visualización incorrecta

Hay docenas de variaciones de visualizaciones de datos, y cada una ofrece beneficios únicos. Los científicos de datos deben elegir una visualización en función de lo que quieren que logre la visualización, como mostrar cambios a lo largo del tiempo, ofrecer una vista de la distribución de datos, comparaciones de valores entre grupos y más. La visualización incorrecta resaltará las variables incorrectas en un conjunto de datos, lo que resultará en conocimientos menos efectivos y decisiones menos valiosas.

Ser víctima de varios prejuicios

El sesgo es casi imposible de eliminar por completo de la ciencia de datos, ya que tener sesgo es ser humano. Nuevamente, confiar más en las herramientas de ciencia de datos impulsadas por máquinas puede ayudar a mitigar algunas formas de sesgo, pero tanto los científicos de datos como los líderes empresariales deben ser conscientes de cómo sus sesgos pueden afectar la recopilación e interpretación de datos.

Comprender los tipos de sesgo más comunes, como el sesgo de confirmación y el sesgo histórico, es el primer paso para superar el sesgo.

Los errores importantes en el análisis de datos hacen retroceder a las organizaciones. Al invertir energía en eliminar errores en el proceso de análisis de datos, las empresas no solo pueden sobrevivir sino prosperar con big data.

[ad_2]

ssazglobe