Tal como mencionaba The New York Times hace unos años, “Científico de datos, la profesión más sexy del siglo XXI”, el auge de esta profesión ha ido aumentado. Llevamos a cabo una entrevista a Marco Russo, consultor de datos en Paradigma y docente de varios programas y cursos de Analítica de datos, entre ellos profesor del Máster de Data Science en NEOLAND.
entr.: El Data Science, ¿es algo pasajero o deberíamos tenerlo en cuenta para el futuro?
Antes de contestar a esta pregunta, veamos estas dos gráficas muy interesantes. La primera es la tendencia de búsqueda en España referente a dos términos (data science y ciencias de datos). El aumento del interés de búsqueda se ha duplicado en desde octubre de 2018.
Pero en la misma medida, las búsquedas de Máster Data Science también ha aumentado un 60%, por lo que sí hay interés de parte de los internautas de entender porque está muy demandado este puesto.
En Linkedin si queremos buscar por científico de datos o data scientist los resultados a nivel España con estas dos palabras dan casi unos 1500 posiciones laborales abiertas (27 de octubre 2019). Entre ellas hay posiciones de consultorías, pero sí que son las empresas que demandan esta posición, y no creo que ahora mismo la demanda supere la oferta, se necesitará profesionales y con un buen nivel formativo.
entr.¿Qué ha pasado exactamente en España, hay una moda referente a ciencias de datos?
No, no es una moda, quizás deberíamos pensar cosa están buscando exactamente las empresas. Las posiciones abiertas de científico de datos además de tener una buena remuneración (de promedio en España está en 37,000 euros brutos más beneficios), proyectos que pueden tener una duración de unos 2 - 3 años a más, y posiciones con niveles desde junior a senior, refiriéndome a expertise en diferentes áreas y herramientas utilizadas, quizás 2 a más de 5 años de experiencia, y entre los skills requeridos, bien aquí bastante que hablar (que conozca un sector o no, que tenga pensamiento computacional, estadístico, matemático, desarrollador en cloud, entre otras cosas). Más que moda es la realidad que están afrontando ahora las empresas. Las mayoría ha tenido que realizar años de ingesta de datos, (sí lo que llamamos Big Data). Miles de millones de bytes recogidos en una o varios repositorios (data lake), seguramente con una cierta calidad (cuestionable), en una plataforma on-premise o en cloud, y que está esperando a profesionales que de un sentido a este trabajo, respuestas, mejoras y rentabilidad. El nuevo petróleo de este decenio, serán los “datos”.
entr. ¿Podría un científico de datos solucionar los problemas de una empresa?
Estaba leyendo un artículo (mismo escenario que ha pasado tanto en EEUU que en Europa), contaba que las empresas que no supieron organizar correctamente y gestionar proyectos de Big Data, o no tenían una planificación clara de cómo abordar un proyecto de Data Science, solamente el 15% de los proyectos logran ejecutarse. Es increíble, pensar que la parte restante, el 85% vaya a la “basura”. Por lo que, volviendo a la pregunta anterior, sí para muchas empresas ha sido una moda, no tuvieron en cuenta que los datos necesitan ser tratados de una forma, requería una inversión en tecnología e infraestructura, pero que además ya que tienen los datos, piensan que un científico de datos puede solucionar todos sus problemas de TI, o que todos los proyectos que quieren abordar sea fácil y alcanzable en poco tiempo. Creo que sigan esperando este “profesional”…
entr: ¿Pero, cuál es el rol de un científico de datos en una organización?
Buena pregunta. Se supone que el científico de datos podría dividirse en dos figuras más, o macro-roles:
científico de datos de negocio
científico de datos de TI
Y porque no podría ser uno solo, uno es puramente comercial y el otro trabajaría más con la rama de ingeniería, por lo que sería más lógico en desarrollo y TI. Ahora, ambas figuras podrían coexistir en una misma organización o solamente una (dependiendo de la envergadura del proyecto, organización, team, etc). Supongamos que estamos hablando de una grande empresa de telecomunicaciones, como es obvio no podría tener un solo científico de datos, así que serían varios según el proyecto, pero tendríamos estos roles principales:
- analistas de negocio y business analyst, (ambos tienen capacidades de entender cuál es el problema de negocio);
- data analyst, (tiene el expertise de extraer información valiosa de los datos), que junto con los últimos juega un papel fundamental al estar en un punto intermedio entre negocio y TI;
- data engineer y data architect, ambos son aquellos que organizan la infraestructura, cloud o on-premise y preparan los datos al servicio de los anteriores
- data scientist, que podría coordinar, organizar, planificar el team según un proyecto determinado, y a la vez, podría descubrir nuevas fuentes de datos, enriquecer lo que ya tiene, etc.
Podría existir el lead data scientist o el CDO junto con el CTO serían las figuras con más responsabilidades y liderando el departamento de data.
entr.: ¿Cómo es de importante un científico de datos en un proyecto?
Supongamos que necesitamos incrementar las ventas de una grande distribución, tenemos datos basado en las transacciones de los actuales clientes, y los analistas han detectado que existen patrones, además han detectado otras posibles fuentes de datos capaces de mejorar el resultado, pero no saben bien cómo introducirlos o ingestarlos, tampoco saben si añadir unas variables más, mejorarían el resultado. Podría ser un ejemplo muy básico, pero un analista de datos podría lograr a través de las técnicas de Data Mining, crear modelos basados en estas transacciones, utilizando uno o más algoritmos de clasificación y de regresión y obtener algunos de los resultados. Hay un pero, no estamos considerando las variables de otras fuentes de datos, y tampoco sabemos bien cómo llegar a ellas. Un data engineer podría realizar la tarea, pero tampoco sabe si funcionará o no. Es por este motivo que un data scientist al tener conocimientos (y no solo fundamentos), de Big Data, Estadística, Matemática, Minería de Datos, Algoritmos y Negocio, además de ser un muy buen Comunicador, podría validar el proyecto desde otro punto de vista, modificando los algoritmos según su criterio o simplemente creando uno nuevo, mejorando el flujo de ingesta de datos, mejorando la seguridad, mejorando la velocidad y la calidad. Todo esto supondría un coste y es probable que no sea del todo factible realizarlo. Es por esto que tendrá que coordinar con los analistas de negocios para ponderar costes e ingresos del proyecto y verificar si el margen operativo valga la pena.Desde este ejemplo, podemos entender perfectamente el rol de uno científico de datos, o llamado el Data Wizard, el mago de los datos.
entrev.: ¿Estudiar un Máster de Data Science podría cubrir la actual oferta?
Una parte seguramente sí, los roles son básicamente tres, analista de datos, científico de datos e ingeniero de datos. El primero tiene muy buenas capacidades analíticas, dará unas primeras pinceladas a la solución del problema, deberá conocer algoritmos, estadísticas y las herramientas principales de ingesta, manipulación, limpieza y visualización de los datos. El último perfil es puramente técnico y desarrollador, tendrá conocimientos avanzados de desarrollo en cloud, tema de seguridad, tema de coste, arquitectura etc. El científico de datos, además de los otros, tendrá que realizar operaciones de nuevas creaciones de modelos, mejorar los algoritmos actuales, etc. Un máster está abierto a todos aquellos que tienen uno de los 3 pilares bien definidos: Comunicación, Pensamiento estadístico y creativo, Desarrollo. Creo que con estos cualquier podría serlo, pero un máster no te convierte automáticamente en un científico de datos. Se necesita algo más que formación, pondría otras cualidades: perseverancia, constancia y esfuerzo - sacrificio. Esta pequeña parte que nos olvidamos siempre cuando estamos cursando un máster, la continuidad de practicar desde casa, en la oficina, y ser curiosos para realizar pequeños nuevos descubrimientos y probar cosas nuevas. Todo esto nos hace mejor profesional de los datos. Quizás las empresas exageran un poco el término de Data Scientist, podría ser incluso un simple Consultor de datos, Especialistas en datos, etc., pero el marketing es una arma potente de venta, ¿no? Sin embargo, estar al día con las nuevas tecnologías, experimentar, seguir formándose y tener disciplina, es algo que finalmente tiene su recompensa.
entrev.:Tú que eres docente y profesor de varios cursos y de un Máster de Data Science, ¿qué recomendaciones podrías dar a tus alumno/as y futuros?
Como siempre digo, podemos disponer de miles de recursos, tanto online o como presencial, charlas, cursos, másteres, etc. Pero ahí no termina. Como decía antes, necesitaremos marcar unos objetivos a la hora de cursar un Mooc, leer recursos, etc. Quizás nos faltará tiempo, pero nadie se ha convertido de médico o ingeniero en pocos meses, ¿verdad? Es por esto que hay que considerar que estamos hablando de una formación que complementa algo que deberíamos tener. Si somos programadores, o matemáticos o ingenieros, partimos con ventajas, o no. El resto de tendrán que armarse de constancia y practicar mucho, aprender los fundamentos de estadística y matemáticas de bachillerato, eso es importante.
entrev.:¿Utilizas alguna metodología que puedas mencionar?
Yo adopto la archiconocida Learn to Doing, ha funcionado conmigo y por qué no debería funcionar con el resto. Con la práctica se aprende mejor, y de una simple práctica realizada en aula (presencial o en remoto), podemos profundizar más con los recursos bibliográficos, materiales, modificar y adaptar nuestras mejoras, etc. Desde la práctica de fundamentos, casos reales y recursos para leer desde casa (¡parte importante!).
entrev.: Y, ¿referente a la planificación de estudio?
También es importante la planificación. Para alcanzar pequeños objetivos a través de la práctica nos ayuda a entender lo que seguirá después, es importante tener una planificación, dentros de unos límites marcados y con una cierta lógica. El Máster de Data Science que estoy impartiendo en NEOLAND comienza con los fundamentos de las dos herramientas más utilizadas, R Studio y Python. Es probable que más adelante nos venga la curiosidad para otros lenguajes, pensaremos en Java, Javascript, Scala o Julia. Sigue Big Data, con la fase de ingesta, en la que deberíamos tener una visión 360º del entorno cloud, de Amazon AWS, Google Cloud Platform GCP y Microsoft Azure, mostrando cómo funciona realmente un proyecto de Big Data y de Análisis de Datos, y también cómo aplicar Auto Machine Learning. Los módulos de Data Mining y Deep Learning son los dos pilares más importantes del máster, así como visualizar y validar a través de los datos los modelos, interpretar sus resultados y mejorarlos con otras técnicas, además de visualizarlos. El proyecto final es el premio, lo que llevará el estudiante en su curriculum y portfolio conjuntamente con el resto de casos que realizará durante el máster. No creo que haga falta algo más, abordar demasiado sería incluso asfixiante para el alumno y no tener una visión clara de lo que será después.
Muchas gracias Marco por contestar a nuestras preguntas, desde luego queda claro que la introducción del Data Science en el ámbito empresarial, es un paso fundamental para las empresas que quieran mantenerse dentro del paradigma futuro y una gran opción para formarse en ella.