Ciencia de datos en Administraciones Públicas orientadas al dato: ruta hacia un Gobierno Inteligente

Dentro del área de Inteligencia Artificial, el repositorio institucional de la universidad UOC ha publicado la tesis de máster en Ciencia de Datos “Análisis predictivo de datos abiertos sobre el uso turístico del servicio de alquiler compartido de bicicletas de Nueva York. Una perspectiva desde la Ciencia de Datos” (el documento íntegro puede descargarse en este link).

La tesis sigue la metodología de la ciencia de datos y ofrece un enfoque multidisciplinar. Comprende aspectos que van desde la predicción y el aprendizaje automático, hasta la visualización de datos, incluyendo la perspectiva organizacional con aspectos relacionados con su proyección estratégica y de gestión en un contexto de organización pública local.

Perspectiva general del trabajo desarrollado

En el mencionado trabajo, analizo un conjunto de datos abiertos sobre el uso del servicio de alquiler de bicicletas de Nueva York por usuarios habitualmente vinculados al turismo. El objetivo es doble: a) obtener respuestas sobre el uso segmentado del servicio y b) desde la perspectiva de machine learning, buscar el mejor modelo para predecir la demanda diaria de bicicletas, teniendo en cuenta clima (precipitaciones) y eventos (días festivos). Se entrenan siete modelos de aprendizaje supervisado, algunos de ellos basados en boosting y bagging, a partir de una implementación de algoritmos de clasificación que la literatura señala como relevantes en un contexto similar: Random Forest, Red Neuronal Artificial, C4.5 (J48), AdaBoost (AdaBoostM1), Naive Bayes y Red Bayesiana, así como -a partir de la búsqueda de hiperparámetros y clasificador óptimos- el algoritmo JRIP. Los modelos entrenados se utilizan posteriormente para predecir la demanda diaria de bicicletas por usuarios turistas. El modelo que mejores resultados obtiene en las predicciones es la Red Neuronal Artificial (Perceptrón Multicapa con Retropropagación).

Las conclusiones subrayan, entre otros aspectos, el hecho de que los objetivos organizativos deben guiar el proceso completo de la ciencia de datos. Los resultados avalan el hecho de que el proceso de tratamiento de los datos no es ni trivial ni se puede generalizar, y puede llegar a ser estratégico, debiéndose guiar desde el inicio por los objetivos de la organización.

Asimismo se enfatiza la importancia de que la literatura profundice en detalles sobre el preprocesado y procesado de los datos, tanto como lo hace con los algoritmos. A partir de los resultados de visualizaciones y machine learning, se realizan algunas propuestas a nivel de gestión operativa, pero también de planificación estratégica.

La importancia de la orientación al dato en las Administraciones Públicas (AAPP), para el avance hacia la fase de Gobierno Inteligente

A partir de los resultados obtenidos, una de las principales conclusiones apunta al hecho de  que para avanzar hacia lo que se conoce como Gobierno Inteligente, será necesario lograr una organización pública orientada al dato que, entre otros aspectos, necesitará incorporar el conocimiento y metodología de la ciencia de datos dentro del ecosistema organizacional público, dada su relevancia en diferentes procesos.

Quiero hacer énfasis aquí en el hecho de que esta orientación al dato debe entenderse perfectamente armonizada con la orientación al ciudadano propia de las AAPP.  De hecho, desde la perspectiva de la organización pública en el back-office, esta orientación al dato precisamente tendría un efecto amplificador sobre los beneficios de la interoperabilidad.

Entre otros aspectos, la importancia de las decisiones adoptadas en la fase de preparación de datos para el aprendizaje automático es manifiesta, dado que se comprueba que las mismas pueden llegar a tener implicaciones a nivel estratégico, debido a su posterior impacto en la capacidad predictiva de los modelos de aprendizaje automático.

Así, por ejemplo, una mínima variación en aspectos como el tipo asignado a una variable, puede tener consecuencias posteriormente en aspectos como el nivel de precisión, tanto en las fases de entrenamiento y test como en la predicción de los modelos.

Si se pretende conseguir un aprovechamiento óptimo de procesos basados en inteligencia artificial, la incorporación de científicos de datos en el ecosistema organizacional público acabará siendo imprescindible, dada la necesidad de alinear la cadena de procesos sobre los datos con los objetivos de la organización pública, teniendo en cuenta, en general, la singularidad de cada proceso en la búsqueda del mejor modelo. El impacto de las decisiones adoptadas, finalmente, puede llegar a tener un alcance estratégico.

Referencias

Jimenez-Gomez, C.E. (2018). Análisis predictivo de datos abiertos sobre el uso turístico del servicio de alquiler compartido de bicicletas de Nueva York (Tesis de master). Universitat Oberta de Catalunya, Barcelona, España. (URL:  http://openaccess.uoc.edu/webapps/o2/bitstream/10609/81516/9/carlosjgTFM0618memoria.pdf)

También te podría gustar...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *