Este es el primero de varios posts relativos al uso de Wikidata en una estrategia de datos abiertos y de gobernanza de datos.

Pensando en tener datos abiertos sostenibles, me quedé con el concepto de “Entidades”. ¿Qué tal que siempre que habláramos de algo importante, lo representáramos no como texto, sino como un objeto con una URL? Así para la Ciudad de México no tendríamos una entrada de la base de datos llamada “Ciudad de México”, sino una URL que siempre referenciara dicha entidad: https://www.wikidata.org/wiki/Q1489

Para quien sea que haya trabajado con datos sabe que hacer análisis de datos cuando referenciamos las cosas por texto, requiere lidiar con las diferencias en cómo se crea la información. Así para crear un reporte a partir de una base, terminamos tratando de juntar las entradas para “Ciudad de México”, “CDMX” o “Cd. de México”. Y cuando las cosas cambian de nombre, también tenemos que hacer arqueología de datos para entender que “Ciudad de México” también podía aparecer como “México, D.F.”, “México DF”, “DF”, “Distrito Federal” y demás.

imagen que describe que la entidad de Wikidata para Ciudad de México representa sus diferentes nombres
La entidad de Wikidata para Ciudad de México es la misma aunque tenga diferentes nombres.

Además de poder referenciar mediante un sólo URL diferentes cadenas de texto, wikidata nos da acceso a varios metadatos sobre la Ciudad de México que podemos usar tanto para limpiar como para enriquecer nuestra información. Por ejemplo, la tarjeta inicial de la entidad Ciudad de México contiene una lista de aliases que podemos usar para programáticamente limpiar bases de datos.

imagen que muestra la tarjeta inicial de wikidata para la Ciudad de México
La tarjeta inicial de wikidata para la Ciudad de México

¿A qué me refiero con programáticamente? pues limpiar una sola ciudad no es muy difícil. Escribo una lista de nombres posibles de la CDMX y los uso en mi script de limpieza para identificar las diferentes formas de escribir Ciudad de México. Pero, si tuviera que hacer esto con los 2446 municipios en México ya no podría hacerlo fácilmente. Así que podría usar la base de conocimiento colectivo que es Wikidata para jalar con un sólo script todos los aliases documentados de los municipios mexicanos. Esto se hace con la siguiente consulta:

SELECT ?alias
WHERE {
  wd:Q1489 skos:altLabel ?alias.
  filter(lang(?alias) = "es").
}

Además de tener acceso a una lista de nombres conocidos para un objeto, Wikidata almacena metadatos y datos vinculados para cada entidad. Por ejemplo, ¿qué tal que quisiera no sólo tener los nombres de todas las entidades de la república, sino también saber quién los gobierna, su foto y a qué partido pertenecen? Se puede hacer con esta consulta:

SELECT ?state ?stateLabel ?governor ?governorLabel ?party ?partyLabel ?photo
WHERE {
  ?state wdt:P31 wd:Q15149663.
  ?state wdt:P6 ?governor.
  ?governor wdt:P102 ?party.
  ?governor wdt:P18 ?photo.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "es". }
}

Aquí el resultado:

¿Qué pasa si hay algún error en los datos?

Wikidata es una base de datos estructurados mantenida colectivamente. Es un bien público digital. Así como Wikipedia se ha convertido en una fuente fidedigna de información gracias a sus muchos wikieditores, en Wikidata podemos formar una comunidad de Wikidateros que utilicen y actualicen los datos, que a través de utilizarlos para nuestros proyectos, aplicaciones, y demás, podamos custodiar que los datos de valor para la agenda de datos abiertos o para la gobernanza de datos en México, se encuentre limpia y actualizada en un repositorio que es de todos.