¿Cómo utilizar ciencia de datos en la creación e implementación de políticas públicas?

La ciudad de Syracuse en Nueva York, logró predecir qué tuberías de agua se romperían en los próximos años. ¿Cómo? Usando tecnología.

La ciencia de datos puede ayudar a optimizar los recursos públicos, la experta del Tec. Liliana Millán. directora de la Iniciativa de Inteligencia Artificial en la Escuela de Gobierno y Transformación Pública del Tec de Monterrey

Hablar de ciencia de datos o de inteligencia artificial estos días parece como hablar de magia. Por lo que utilizaremos este espacio para aclarar qué hace la ciencia de datos en política pública y reajustar las expectativas. Para ello, utilizaré un ejemplo concreto con un problema real que nos permita identificar los diferentes elementos que habilita utilizar ciencia de datos en políticas públicas.

¿Qué hace la ciencia de datos en política pública?

Nuestro ejemplo sucede en la ciudad de Syracuse, Nueva York, en donde el departamento de agua tiene 40 años implementando diferentes soluciones para poder identificar de manera preventiva qué tuberías de agua son probables de que tengan una ruptura que provoque una fuga de agua.

¿Por qué esto es importante? y ¿por qué es un problema? La acción reactiva del gobierno obliga a ocupar los recursos limitados de la ciudad de Syracuse a arreglar las fugas actuales que en ocasiones llegan a ser hasta de 200 rupturas al año.

Al arreglar las rupturas se debe cerrar el agua que pasa por esas tuberías, lo que tiene implicaciones en la vida de las personas que viven en esa zona, así como escuelas, hospitales y negocios. En un mundo ideal, todas las tuberías tendrían mantenimiento preventivo, pero eso requiere de mucho dinero y recursos humanos; ambos escasos e imposibles de aumentar.

La solución propuesta a través de ciencia de datos consiste en utilizar toda la información que se tenga de calles, propiedades, tuberías y características del agua para predecir qué bloques de la ciudad tienen mayor probabilidad de tener una ruptura de tubería en los próximos tres años, sin aumentar los recursos con los que cuenta la ciudad de Syracuse.

La solución tiene un mejor desempeño que las soluciones actuales que implementa Syracuse, obteniendo una eficiencia al 1% del 67% y una cobertura al 1% del 7%. ¿Qué quiere decir esto?

Existen 5,263 bloques en Syracuse y la ciudad cuenta con recursos para dar mantenimiento únicamente a 52 bloques durante tres años, esto representa el 1% del total de bloques que se pueden mantener con los recursos actuales.

La solución de ciencia de datos está optimizada para identificar 52 bloques que considera deben tener mantenimiento porque es altamente probable que en los siguientes tres años sufran una ruptura. El modelo tiene una eficiencia del 62%, es decir de los 52 bloques predichos como que su tubería se rompería en los siguientes 3 años, el modelo acierta en 32 de ellos. Por otro lado, el modelo tiene una cobertura del 7% es decir los 32 aciertos del modelo corresponden al 7% de todas las rupturas de tuberías que hubo en los tres años.

Puede parecer que el desempeño del modelo es bajo, sin embargo, comparando con las soluciones actuales que la ciudad de Syracuse utiliza para priorizar el mantenimiento de 52 bloques tienen un máximo de desempeño de 48%, por lo que la solución de ciencia de datos resulta mejor que lo que hoy se aplica ocupando de mejor manera los recursos limitados existentes.

Así nos ayuda la ciencia de datos

Es importante resaltar cuatro puntos de la solución de ciencia de datos:

1) Es posible predecir con tiempo para aplicar una estrategia o política, en este caso se predice con 3 años de anticipación, lo que le permite a la ciudad de Syracuse organizar logísticamente soluciones con el departamento de caminos para realizar mantenimiento preventivo, ya que se requiere de romper el pavimento y volver a pavimentar una vez realizado el mantenimiento.

2) Es posible cuantificar el desempeño de la solución actual para comparar con la solución propuesta que utiliza machine learning.

3) Es posible optimizar la solución con base en la restricción de recursos que se tiene.

4) Por último, es posible darle un menú de opciones al tomador de decisiones para conocer el desempeño de la solución si se disminuye el número de recursos disponibles o bien si se aumenta el número de recursos disponibles. Este último punto, resulta de gran utilidad para el tomador de decisión, pues permite identificar sin ambigüedad cuánto más sube el desempeño si se aumentan recursos y cuánto se disminuye si se cuenta con menos recursos, ambos escenarios factibles en política pública.

Puedes leer más sobre este caso de uso en Using Machine Learning to Assess the Risk of and Prevent Water Main Breaks publicado en KDD 2018, August 19-23, 2018, London, United Kingdom, así como el video que explica la solución perteneciente a DSSG del que el Centro de Ciencia de Datos de la Escuela de Gobierno y Transformación Pública forma parte. (Liliana Millán. directora de la Iniciativa de Inteligencia Artificial en la Escuela de Gobierno y Transformación Pública del Tec de Monterrey).

Liliana Millán. directora de la Iniciativa de Inteligencia Artificial en la Escuela de Gobierno y Transformación Pública del Tec de Monterrey.

31 de maro, 2022

Imagen de Gerd Altmann en Pixabay