Los profesionales de la ciencia de datos y el aprendizaje automático han impulsado la adopción del lenguaje de programación Python, pero la ciencia de datos y el aprendizaje automático aún carecen de herramientas clave en los negocios y tienen espacio para crecer antes de convertirse en esenciales para la toma de decisiones, según Anaconda, el creador de un data. Distribución científica de Python.
Python pronto podría ser el lenguaje de programación más popular, compitiendo por el primer puesto con JavaScript, Java y C, según la clasificación de lenguaje que mire. Pero mientras la adopción de Python está en auge, los campos que lo impulsan (ciencia de datos y aprendizaje automático) aún están en pañales.
La mayoría de los encuestados (63 %) dijeron que usaban Python con frecuencia o siempre, mientras que el 71 % de los educadores dijeron que están enseñando aprendizaje automático y ciencia de datos con Python, que se ha vuelto popular debido a su facilidad de uso y fácil curva de aprendizaje. Un impresionante 88% de los estudiantes dijeron que les estaban enseñando Python como preparación para ingresar al campo de la ciencia de datos/aprendizaje automático.
Dada la audiencia de Anaconda, no sorprende que Python fuera, con mucho, el lenguaje más popular utilizado. Le siguieron SQL, R, JavaScript, HTML/CSS, Java, Bash/Shell, C/C++, C·, Typescript, PHP, Rust, Julia y Go.
Más de un tercio (37 %) de los 4299 profesionales, estudiantes y académicos de la ciencia de datos que respondieron a la encuesta en línea de Anaconda entre abril y mayo dijeron que sus organizaciones redujeron las inversiones en ciencia de datos, mientras que el 26 % aumentó su inversión y el 24 % dijo que las inversiones se mantuvieron estables. No está claro qué impacto ha tenido la pandemia en las inversiones en herramientas y tecnología de ciencia de datos.
Aún así, alrededor del 39 % dijo que «muchas» de sus decisiones comerciales se basan en la ciencia de datos, mientras que el 35 % dijo que solo algunas decisiones comerciales se basaron en los conocimientos de su equipo.
Una cuarta parte de los encuestados dijo que carecían de los recursos para un análisis efectivo, mientras que otra cuarta parte dijo que los tomadores de decisiones en su organización luchan con la alfabetización de datos, y el 11% dijo que ellos o su equipo no podían demostrar un impacto comercial.
Solo el 36% describió a los tomadores de decisiones de su organización como «muy alfabetizados en datos» y realmente entendieron la visualización y los modelos de datos. Un poco más de la mitad (52%) dijo que los tomadores de decisiones eran «en su mayoría alfabetizados en datos».
Anaconda también pidió a los encuestados que nominaran todas las habilidades que creen que su organización carecía actualmente. La principal habilidad que faltaba era la «gestión de big data» con un 38 %, mientras que el 26 % dijo que su organización carecía de matemáticas avanzadas, y una cuarta parte citó la falta de «conocimiento empresarial».
Otras habilidades comúnmente citadas que escasearon fueron el aprendizaje profundo (27 %), las habilidades de comunicación (22 %), la visualización de datos (22 %), el aprendizaje automático (21 %), Python (20 %) y la probabilidad y las estadísticas (19 %). .
El principal problema que la mayoría de la gente de ciencia de datos sintió que debía abordarse en inteligencia artificial y aprendizaje automático fue el «impacto social del sesgo en los datos y modelos» (31%), seguido de «impactos en la privacidad individual». Ambos problemas han sido resaltados por la adopción de IA y reconocimiento facial en los sistemas de vigilancia pública. El presidente de Microsoft, Brad Smith, pidió recientemente al gobierno que regulara el reconocimiento facial debido al sesgo racial.
Otras preocupaciones principales incluyeron la pérdida de empleos por la automatización (19 %), la guerra de información avanzada (15 %) y la falta de diversidad e inclusión en la profesión (10 %).
Solo el 10 % de los encuestados dijo que su organización había implementado una solución para garantizar la equidad y mitigar el sesgo, pero Anaconda descubrió que el 30 % planeaba implementar un paso el próximo año.
La explicabilidad y la interpretabilidad de los modelos ML fue otra gran brecha. Alrededor del 31 % dijo que su organización carecía de planes para garantizar la explicabilidad y la interpretabilidad, pero el 41 % dijo que había planes para implementar algunos pasos en los próximos 12 meses o que ya tenían un paso.
La mayoría de los encuestados (65 %) dijo que sus empleadores los alentaron a contribuir a proyectos de código abierto, pero el 18 % de los encuestados dijo que el apoyo de los empleadores al código abierto disminuyó debido al COVID-19 u otros factores.
Alrededor del 41% dijo que los errores de seguridad en el software de código abierto eran el principal obstáculo que impedía que su organización usara software de código abierto. Python y muchos de sus populares paquetes/bibliotecas de ciencia de datos y aprendizaje automático, como NumPy y TensorFlow, son proyectos de código abierto.
Es interesante que una cuarta parte de los encuestados dijo que no estaba asegurando su canalización de código abierto, mientras que el 20 % no sabía qué pasos estaba tomando su organización para garantizar que se gestionaran las vulnerabilidades. Anaconda proporciona un servicio empresarial para ayudar a las organizaciones a bloquear o incluir paquetes que cumplan con los estándares de una empresa. También tiene una biblioteca administrada de 7500 paquetes de código abierto para Python.