Opendata: Cuestion de enchufes y cargadores
Situación actual
El análisis más simple puede venir de analizar las fuetnes que anuncian que hay un nuevo dataset en cada una de las fuentes públicas. Se han analizado las 6 que tienen un rss más sencillo de capturar. ¿Será enchufe o será cargador?
Primera incidencia Atom o RSS.
Por ejemplo de las disponibles (andalucía, galicia, cataluña, zaragoza, navarra y datos abiertos de la AGE ya empiezan las diferencias, una de ellas no usa rss 2.0 sino atom.
Segunda incidencia: Las fechas
¿Qué formato de estos 4 nos gusta más? : 1) Andalucía “2012-05-16T16:33:08.000Z”, 2) Aporta “Thu, 07 Jun 2012 11:16:03 +0000” 3) Cataluña “dv., 1 juny 2012 00:00:00 CEST” y 4) Galicia “Tue, 29 May 2012 12:08:00 +0200”, Navarra “Mon, 21 May 2012 10:59:03 +0200.
Tercera incidencia. Los juegos de caracteres
De las seis fuentes hay 4 que son utf-8, una ISO-8859-1 y otra que no lo especifica.
Otras incidencias
Hay fuentes que introducen numerosos espacios entre items, otras que introducen campos particulares, y variación de idiomas.
Con sólo los 3 primeros casos de incidencias implica que para que todo funcione con todos se necesitan considerar 2 * 4 * 2 = 16 posibilidades de conexión. 16 cargadores por decirlo así. Por tanto se podría reducir el coste de la actualización de forma drástica con solo llegar a un acuerdo.
Y esto sólo con las primeras seis fuentes y para un tema muy normalizado como es el estándar RSS de su actualización.
Podemos imaginar lo que puede suceder con los centenares de datasets que ya tienen estas y otras fuentes y la complejidad que la falta de normalización está imponiendo a los reutilizadores.
Acciones a tomar
Debemos centrar los esfuerzos en la publicación de muchos datasets, y que los formatos sea un tema ‘menor’. Por ello el requerimiento de que sean abiertos y normalizados ayudarán a desarrollar la economía alrededor del opendata.
Comments are currently closed.