Explorando algunos de los principales trucos utilizados por los expertos en datos

La ciencia de datos es genial. La idea de analizar datos para la toma de decisiones ha existido durante muchos años, pero la popularidad de la ciencia de datos se ha disparado junto con el crecimiento de las empresas FAANG en los últimos años. Independientemente de su puesto de trabajo, nivel de experiencia o industria, estoy seguro de que encontrará soluciones o productos altamente “basados ​​en datos” o impulsados ​​por Inteligencia Artificial. Estos son los 4 métodos principales utilizados por los científicos de datos para engañar a otros. Como investigadora y practicante de aprendizaje automático, yo mismo cometí estos “errores” en el pasado, ¡a veces incluso sin saberlo!

1) Medir las cosas de forma incorrecta

“Nuestro modelo alcanza una precisión del 98,9%”

Estoy seguro de que todos nos hemos encontrado con una afirmación similar a la anterior. En el mundo de la ciencia de datos, la precisión por sí sola simplemente no es suficiente para indicar rendimiento o valor. En primer lugar, ¡la precisión se puede interpretar de muchas maneras! Dependiendo de la tarea en cuestión, podría ser la precisión en la clasificación de la muestra correcta con una predicción, o 5 predicciones. Por definición, la precisión del top 1 obviamente siempre será menor que la precisión del top 5.

Además, la precisión puede ser una métrica muy engañosa. Por ejemplo, imaginemos una tarea en la que necesitemos detectar tumores cancerosos que solo se encuentran en el 1% de la población. ¡Se informaría que un modelo que simplemente predice “ningún tumor” todo el tiempo tiene una precisión del 99%! Este es claramente un modelo malo, ya que informaría erróneamente a los pacientes que realmente tienen cáncer. Aunque este es un ejemplo extremo de cómo falla la precisión como métrica, puede suceder en diversos grados en cualquier proyecto.

Recomendación: Cuando se le presente con una precisión o métrica muy optimista, pregunte acerca de otras métricas comunes utilizadas para la tarea específica.

2) Uso de datos de mala calidad

“Basura dentro basura fuera.” – George Fuechsel

Los peligros de utilizar datos de mala calidad se pueden resumir en la cita anterior. BDBF es uno de los principios básicos de todos los científicos de datos. El uso de datos de mala calidad generalmente se traduce a entrenar un modelo en datos que no es representativo para escenarios del mundo real, o – lo cual es peor – que los datos tienen algún tipo de sesgo. Los modelos entrenados con datos pésimos simplemente tendrán un rendimiento pésimo cuando se apliquen a situaciones prácticas. ¡Incluso los modelos más nuevos y de última generación sufren este problema! Combinado con el uso de métricas inadecuadas, BDBF puede producir modelos que prometen la luna, pero tienen el rendimiento de un contenedor de basura.

Recomendación: Al evaluar la propuesta de un científico de datos, ¡pida un vistazo a su conjunto de datos!

3) Divisiones inadecuadas de datos para entrenar y datos para probar de tren

El concepto de una división datos para entrenar y datos para probar es de conocimiento común entre cualquier científico de datos. Datos de entrenar permiten crear el modelo, mientras datos de prueba “simulan” datos obtenidos de escenarios de la vida real, ya que son datos que el modelo no ve. No existe una forma definitiva de comprobar si se ha realizado una división de prueba de tren adecuada. Pero sigue siendo importante averiguar los procedimientos exactos que se han realizado, ya que son determinante para los resultados obtenidos.

Recomendación: Descubra cómo se realizó la división de datos y los procedimientos de manejo + entrenamiento del modelo en los diferentes conjuntos de datos.

4) Venta descarada de AI / DL / ML

Casi todos los productos y soluciones en el espacio de la tecnología implican el uso de inteligencia artificial, aprendizaje profundo (Deep Learning) o aprendizaje automático (Machine Learning). Estas son las palabras clave más populares en el espacio de la ciencia de datos hoy en día, y las personas se suben al tren, ya sea que realmente tengan un boleto o no. IA / ML se puede usar en cosas que van desde automóviles autónomos hasta sistemas de iluminación inteligente, y el nivel de complejidad puede variar enormemente. Un engaño común es que los modelos de IA son una “caja negra” y difíciles de explicar. Sin embargo, cualquier científico de datos que vale su dinero podrá explicar su modelo en términos simples.

Recomendación: Pregunte siempre por el modelo exacto utilizado y una explicación sencilla de su funcionamiento arquitectónico.

Conclusión

La ciencia de datos puede ser un lío complejo para quienes no la conocen bien. Es importante para tomadores de decisión de estar bien informados. Tenga en cuenta estos trucos y siempre sienta curiosidad por saber lo que sucede detrás de escena y cómo funcionan las cosas. Puede contar con estos principios para guiar su viaje en la ciencia de datos.

Fuente: 4 ways Data Scientists Fool Everyone.

en_US