Los pilotos

Los pilotos de INDICATE tienen como objetivo el estudio y experimentación de la migración de dos aplicaciones existentes en e-Cultura hacia plataformas de e-Infraestructuras. Los resultados del piloto son accesibles a través del portal científico INDICATE e-Cultural (http://

indicate-gw.consorzio-cometa.it). Se pone especial atención en la fase de preparación, requerida antes que dichos proyectos puedan empezar, debido a los problemas que puedan surgir y para definir las soluciones apropiadas, como también su aplicabilidad a través de fronteras nacionales y europeas.

La experiencia reunida con los pilotos es eventualmente analizada y es la entrada clave de aportaciones para el trabajo con buenas prácticas.

Piloto de búsqueda semántica

El piloto de búsquedas semánticas de INDICATE basado en e-Infraestructuras, desarrollado por IVML (www.image.ntua.gr) permite al usuario recuperar metadatos culturales basados en criterios semánticos, beneficiándose también de las características de la organización de una e-Infraestructura. En este piloto los datos culturales se transforman en un modelo semánticamente más rico (RDF). A continuación, campos específicos de datos son enriquecidos usando vocabularios de dominio específico como DBPedia y Geonames. Los datos transformados son cargados en un repositorio semántico (4 Store), que ha sido apropiadamente seleccionado para ser montado en e-Infraestructuras. De esta manera, el usuario puede buscar los datos, no solo basándose en los campos iniciales del metadato (p.e.: localización) sino que también en campos que proveen información adicional (p.e.: área de localización de la población) siendo derivada a través de un proceso de enriquecimiento. La instalación en e-Infraestructuras es la base para la búsqueda semántica con disponibilidad y escalabilidad de datos. Los datos del proyecto MICHAEL y de otros proyectos como ATHENA y EUSCREEN son utilizados como banco de pruebas del piloto.

El principal objetivo del piloto semántico es proveer de un servicio de búsqueda semántica para los repositorios culturales basado en e-infraestructuras, usando un conjunto de datos de la base MICHAEL. En primer lugar, los metadatos se transforman a RDF, proporcionando de esta manera una forma de representación semántica más rica que en XML, que era el formato incial. Durante este proceso, también conocido como RDFitzación, los elementos XML son mapeados a las clases y propiedades de  RDF, estableciendo de esta forma una representación semántica de los metadatos. Además, los valores de elementos específicos del conjunto de datos, como países, personas e idiomas, se usan para descubrir recursos que describan esta información en fuentes externas (como DBPedia). Los recursos descubiertos proporcionan información adicional para la persona, país o idioma de interés a la originalmente provista en la base de datos usada para enriquecer el servicio de recuperación. Por lo tanto, a través de este proceso se establece el enriquecimiento semántico del conjunto de datos de la base MICHAEL. Los metadatos transformados a RDF y enriquecidos se almacenan en un repositorio semántico que es accesible mediante el uso del lenguaje de consulta SPARQL. El resultado más importante de este procedimiento es el servicio de respuesta a las consultas compuesto de conceptos y propiedades, así como de información que no está disponible en la base original para la recuperación de contenido de MICHAEL.

El mencionado flujo de trabajo es desplegado en el Amazon Elastic Compute Cloud (EC2), considerada una de las infraestructuras de Cloud más maduras del momento. En el despliegue en el Amazon Elastic Compute Cloud se implementa una interfície de procesado (MINT-PI) que paraleliza la transformación semántica y el enriquecimiento, recogiendo de esta manera ventaja del poder de procesado masivo ofrecido por la infraestructura Cloud. Además, el repositorio semántico utilizado para el almacenamiento de la base semánticamente aumentada y apropiadamente seleccionada para ser distribuida también está dispuesto en el EC2.

La evaluación se realiza tanto para el proceso de enriquecimiento como para el funcionamiento global de la arquitectura propuesta. Más específicamente, el algoritmo que se desarrolla para el descubrimiento de recursos funciona extraordinariamente bien (~98% de los valores son relacionados correctamente con DBPedia) para los países y las lenguas, mientras que los resultados son bastante buenos cuando se realizan en personas (~58%), considerando la dificultad de una tarea como esta. Finalmente, comparando el rendimiento general del flujo de trabajo cuando es desplegado en la e-infraestructura Cloud y cuando se despliega en un servidor único, se observa que la e-infraestructura puede proveer de escalabilidad – una característica esencial cuando se procesa un volumen masivo de contenido, que es siempre el caso del patrimonio cultural digital – a un coste muy bajo.

Archivos Digitales e-colaborativos

El portal de acceso a recursos científicos de e-Cultura INDICATE (eCSG, indicate-gw.consorzio-cometa.it) desarrollado por COMETA (www.consorzio-cometa.it) como parte del plan de trabajo del proyecto, provee a los usuarios con una interface web de fácil uso y un único proceso de registro para acceder a los archivos digitales de datos del patrimonio cultural procedentes de la China e Italia. El portal se basa en el marco del portal Liferay (www.liferay.com) para el cual se ha desarrollado un portlet para la interfície gLibrary (https://glibrary.ct.infn.it), el famoso marco desarrollado por INFN y COMETA para crear y gestionar repositorios digitales en la red. La infraestructura de autentificación y autorización establece unos soportes para las federaciones de proveedores de identidades, gracias a Shibboleth (shibboleth.internet2.edu). INDICATE eCSG ha sido configurado como un proveedor de servicios tanto del IDEM (www.idem.garr.it) como del CARSI (carsi.edu.cn), sumando entre ambas federaciones de entidades 4.000.000 de usuarios finales entre Italia y China. El trabajo llevado a cabo supone un gran paso adelante hacia un más simple y amplio uso de las e-Infraestructuras para los usuarios no-expertos, que no quieren tener que tratar con certificados personales digitales y una compleja red de infraestructuras de seguridad. Abriendo la red a las federaciones de identidades digitales permitirá una más estrecha colaboración de las e-Infraestructuras con las librerías digitales y los aún existentes repositorios de patrimonio digital. Instrucciones para registrar y acceder al INDICATE eCGS se encuentran disponibles en indicate-gw.consorzio-cometa.it/instructions-to-register-and-sign-in.

Las e-Infraestructuras pueden ser plataformas muy beneficiosas para la comunidad del patrimonio cultural digital (Digital Cultural Heritage, DCH), siempre que sean fáciles de usar.

Como resultado del estudio eResearch2020, con el patrocinio de la Comisión Europea, se detectó que el principal obstáculo para los usuarios no expertos en tecnologías de la información (TIC) al explotar las infraestructuras grid es el hecho que están basadas en mecanismos complejos de seguridad, como las infraestructuras de clave pública (Public Key Infraestructures o PKI) y accesibles a través de interfaces de usuario a bajo nivel (basado en líneas de comandos, ej: no gráficas).

Recientemente se han llevado a cabo interesantes desarrollos de forma independiente con Science Gateways (portales científicos) por parte de la comunidad de red o grid y las Redes Nacionales de Investigación y Educación (NREN) con Identity Federations. El objetivo es, por un lado, facilitar el acceso y uso de las infraestructuras en red, y por otro lado, aumentar el número de usuarios autorizados a acceder a los servicios basados en red.

El instituto nacional italiano de física nuclear (Italian National Institute of Nuclear Physics, INFN) y el consorcio COMETA están desarrollando desde hace unos dos años un nuevo tipo de portal de acceso a recursos científicos, basado en estándares, que implementa el esquema de autentificación de la federaciones de identidad (Identity Federations). Este marco ha sido adoptado para desplegar el Archivo Digital e-colaborativo de INDICATE en un portal web 2.0 llamado e-Culture Science Gateway (e-CSG).

Tres repositorios digitales han sido creados y desplegados con éxito al servicio en red gestionado por COMETA y conectado por la red de investigación GARR:

  • Archivo de trabajos literarios de Federico De Roberto (De Roberto DR);
  • El patrimonio arquitectónico y arqueológico presente en el área mediterránea (MED Repo)
  • Repositorio digital de reliquias chinas (China Relics).

Uno de los puntos fuertes de INDICATE e-CSG es la separación de la fase de autentificación de la de autorización. La autentificación del usuario recae sobre los proveedores de identidades (Identity Providers), que son miembros de una o más federaciones de entidades (Identity Federations). Actualmente estamos dando soporte a muchas federaciones oficiales de identidad en Europa y a su vez, INDICATE e-CSG se ha registrado como proveedor de servicios del servicio inter-federativo eduGAIN, de la red GÉANT pan-European.

El portal INDICATE de acceso a los recursos científicos de e-Cultura (INDICATE e-Culture Science Gateway) es un gran paso adelante hacia el uso de la tecnología grid por parte de la comunidad del DCH (Patrimonio Cultural Digital). El modelo de Science Gateway adoptado, que apoya la federación de identidades y las redes sociales, puede revolucionar las formas de uso de las infraestructuras grid, ampliando la base de usuarios potenciales, especialmente los no expertos en TIC y los “ciudadanos científicos”. La adopción de estándares, en particular, representa una inversión concreta hacia la sostenibilidad.

Respecto al diseño, los componentes del portal de acceso a la ciencia INDICATE e-Culture son reutilizables al máximo y, es más, también han sido adoptados por otros proyectos (p.ej: DECIDE, EarthServer, EUMEDGRID-Support y GISELA).