Esta Acción Complementaria se solicita para comenzar el proceso de retrodigitalización de las revistas de investigación de Matemáticas que se publican en España. Mientras que el nivel científico de las revistas españolas ha ido en aumento en los últimos años, y muchas de ellas figuran ya en los índices de calidad reconocidos internacionalmente, el proceso de hacer accesible la literatura en formato digital a través de la red lleva mucho retraso en comparación con países como Francia, Alemania o Estados Unidos.
Ello se debe en parte a que la mayoría de revistas de investigación españolas son publicadas no por casas comerciales sino por Universidades, Departamentos o Sociedades matemáticas.
El Programa Nacional de Matemáticas, dentro del Plan Nacional de I+D+I, señala explícitamente como objetivo la digitalización de la literatura matemática. Por otro lado, el Programa Nacional de Tecnologías de servicios de la sociedad de la información contiene un subprograma nacional de e-contenidos, en el que se dice textualmente que "no se entendería el desarrollo de la Sociedad de la Información si, además de infraestructuras, software y hardware, no se dotara a los ciudadanos de contenidos digitales de calidad, así como de sistemas de fácil acceso y de alta eficacia".
Creemos que es necesario por tanto un esfuerzo financiero en este momento por parte de las autoridades públicas, para poner en marcha una herramienta imprescindible de investigación y documentación.
Como se justifica más adelante, debe entenderse que los solicitantes actúan en representación de toda la comunidad matemática española.
La Acción Complementaria pretende:
- completar la digitalización de las revistas de investigación matemática españolas, retrodigitalizando sus fondos bibliográfico en papel;
- poner esta literatura matemática a disposición de los investigadores, siempre que sea posible de manera universal, gratuita y de uso eficiente, mediante portales unificados y un interfaz estándar, y con enlaces desde los principales catálogos de literatura matemática del mundo.
El objetivo final de un plan de digitalización debe ser el desarrollo de sistemas de digitalización, incluyendo la creación, gestión, distribución y acceso de los contenidos digitales. Ello incluye la utilización de formatos que aprovechen al máximo las posibilidades tecnológicas, que puedan ser desarrollados con estándares técnicos claros y abiertos, y el impulso de mecanismos que faciliten la localización, utilización y búsqueda de contenidos.
Por otra parte debe estimularse el carácter multilingüe de las herramientas utilizadas, mediante la adaptación de los estándares e interfaces a las diversas lenguas.
PERSONAL
En el proyecto participarán:
- Los administradores del proyecto;
- De ser necesario, se contratará a personal y/o una empresa especializada para el escaneo de los volúmenes en papel de las revistas y/o a informáticos para el reconocimiento automático de metadatos y la organización del fondo escaneado en archivos digitales.
Dos firmantes (R. de la Viesca y E. Fernández) representan al CINDOC, Centro de Información y Documentación Científica, que es un Centro de referencia en digitalización y documentación, y que depende del CSIC. Otros dos firmantes de la solicitud (E. Macias y J. Amorós) son respectivamente el Presidente y el Secretario de la Comisión de información y comunicación electrónicas, que depende del Comité Español de Matemáticas (CE-MAT), organismo que representa a España en la Unión Matemática Internacional (IMU), por nombramiento de la Subdirección General de Programas y Organismos Internacionales del MEC. El último firmante (M. Nicolau) representa a los editores científicos de las revistas que han aceptado participar en este proyecto.
CALENDARIO DE TRABAJO:
Los términos estimados para la ejecución de este proyecto son dos años:
- seis meses para la coordinación con los editores de las revistas, coordinación con organismos europeos como NUMDAM-Grenoble o SUB-Gottingen, contratación de personal y/o subcontratación;
- entre 12 y 18 meses para la fase de escaneo de los originales;
- un año para la creación de los ficheros pdf y los metadatos (pero este año será paralelo en su mayor parte al segundo año del escaneo de los originales),
- seis meses adicionales para la incorporación de los documentos a los portales correspondientes.
La fase de inserción de los documentos digitalizados en catálogos y bases de datos puede tardar aún más, pero no supondrá costes adicionales para el proyecto.
PLAN DE TRABAJO:
Actuando en nombre del CE-MAT hemos contactado con las 10 revistas de investigación en Matemáticas que se publican en España, que han aceptado participar en el proyecto de retrodigitalización. A falta todavía de acuerdos formales con algunas de ellas, pretendemos que su participación se ajuste a los siguientes términos (que en todo caso establecerán prioridades entre las distintas revistas):
- El copyright de los artículos actualmente disponibles sólo en papel que sean digitalizados con cargo a fondos públicos pasará al dominio público;
- Las revistas continuarán aportando sus artículos ya digitalizados, presentes y futuros, al portal unificado en el que se depositen los artículos retrodigitalizados siguiendo un sistema de embargo
('moving wall') que consiste en que cada artículo pasa al dominio público al cabo de un plazo prefijado (preferentemente 5 años máximo) a partir de su fecha de publicación;
- El proyecto entregará a cada revista copia digital de los artículos de su fondo que hayan sido retrodigitalizados, y la revista podrá disponer y difundir libremente esta documentación electrónica;
- El portal o portales en los que el proyecto incluya los artículos retrodigitalizados mantendrá todo este fondo disponible a través de la web, con acceso universal, gratuito y eficiente. También se recogerán en este portal los nuevos volúmenes de cada revista una vez hayan salido de su periodo de embargo, de manera unificada con los retrodigitalizados.
- Los administradores del proyecto promoverán la inclusión de este fondo bibliográfico digitalizado en los catálogos de literatura matemática que está organizando el proyecto mundial WDML, así como la inclusión de enlaces a estos documentos digitalizados desde las bases de recensiones Mathscinet y Zentralblatt.
El primer paso del proyecto es el escaneo de los volúmenes de cada revista que estén disponibles únicamente en papel. Este escaneo se llevará a cabo por un centro o empresa especializada y seguirá las siguientes especificaciones técnicas, propuestas por el comité rector del proyecto mundial WDML:
- Resolución de escaneo: 600 puntos por pulgada, bitonal.
- Corrección de los defectos de impresión evidentes: texto inclinado o desplazado...
- Distribución del texto y márgenes uniformes en todas las páginas.
- Se mantiene el tamaño original del texto, y se coloca en páginas de formato A* del mínimo tamaño en el que encaje.
- Cada página se guarda en un fichero, que tendrá un nombre informativo, del estilo {revista}-{volumen} - {página}.
- Estos ficheros se crearán en formato TIFF, comprimido sin pérdida de información por el algoritmo CCIT G4 o similar.
El segundo paso del proyecto es la creación, a partir de las páginas escaneadas, de un fichero en formato PDF para cada artículo, más una referencia bibliográfica para su inclusión en una base de metadatos y tabla de contenidos.
El fichero pdf contendrá todas las páginas del artículo y tendrá un nombre informativo, del estilo {autor}-{título}-{revista}-{volumen}-{año}-{pág.inicial-pág. final}.
La referencia bibliográfica contendrá como metadatos, además de los anteriores:
{dirección URL con enlace al fichero pdf}, {Número de review en Mathscinet con enlace} y {Número de review en Zentralblatt con enlace}. Se creará una base de datos siguiendo el estándar SQL para almacenar esta información bibliográfica, generar tablas de sumarios y permitir ulteriores búsquedas.
El tercer paso es la instalación de los ficheros PDF de los artículos en los portales web para su acceso público, universal y gratuito. Estos portales también recogerán las referencias bibliográficas, organizadas en tablas de contenidos de los volúmenes de la revista en formato HTML o XML que se crearán a partir de la base de metadatos bibliográficos.
Las instituciones que han aceptado alojar estos portales son:
- El Consorci de Biblioteques Universitaries de Catalunya, para las revistas editadas en Cataluña;
- El CINDOC.
Estas instituciones deberán proporcionar una dirección URL estable al fichero PDF de cada artículo y a la tabla de contenidos de cada volumen para facilitar la creación de enlaces, y facilitar al cliente de la web herramientas de búsqueda de artículos basadas en metadatos.
Las instituciones receptoras conservarán también los ficheros TIFF con los escaneos iniciales de todas las páginas, y cuando el descenso del coste de mantenimiento de la web lo permita ofrecerán al público estos ficheros con dirección URL estable.
CUARTA FASE: PUBLICITACION EN CATALOGOS Y BASES DE RECENSIONES
El paso final, es hacer que los documentos escaneados figuren con su dirección URL en:
- el catálogo universal de literatura matemática digitalizada que prepara la biblioteca de la Universidad de Gottingen bajo los auspicios del proyecto mundial WDML;
- catálogos similares que promueve el consorcio de proyectos de digitalización EMANI o la American Mathematical Society y la European Mathematical Society...
- las bases de datos MathSciNet y Zentralblatt, a las que se pedirá que añadan un enlace de cada review al artículo original.
Está en marcha un proyecto mundial de digitalización de la literatura matemática llamado WDML (World Digital Mathematics Library), patrocinado por la Unión Matemática Internacional, al que se puede acceder en http://www.ceic.math.ca/WDML
En paralelo a la presente solicitud va a tramitarse un proyecto DML-EU ante la Unión Europea, en el que intervienen todas las sociedades matemáticas europeas. Sin embargo, la financiación europea no cubrirá en ningún caso el proceso de digitalización en sí, sino la creación de estándares técnicos y la puesta en común de las distintas iniciativas nacionales. En este sentido nuestro proyecto y el europeo son complementarios.
La comunidad matemática es pionera en este tipo de iniciativas, en parte debido a las características propias de nuestra área, entre las que podemos citar:
- dependencia de la investigación matemática de las fuentes bibliográficas, incluso aunque éstas no sean recientes;
- dificultad en digitalizar/reconocer fórmulas, lo que supone un desafío de programación añadido; - situación editorial, ya que sólo dos editoriales controlan la mayor parte de las revistas, lo que hace que la comunidad científica busque con ahínco vías alternativas de acceso.
El objetivo final máximo de WDML es crear una biblioteca digital de matemáticas, accesible por Internet a todos los matemáticos del mundo. Se trata de une esfuerzo colectivo respaldado por todas las sociedades matemáticas y por la Unión Matemática Internacional (IMU).
Este proyecto, promovido inicialmente por la NSF norteamericana y ahora auspiciado por la IMU ha provocado la puesta en marcha de numerosas iniciativas locales de digitalización. El proyecto que presentamos es la rama española del mismo.
Se trata pues de una iniciativa mundial de la que España no puede estar ausente. Por otra parte el proyecto creará pautas de actuación, coordinación y contratación, además de herramientas técnicas y estándares que serán de interés para todas las disciplinas científicas.
Como se ha dicho en la Introducción, el Programa Nacional de Matemáticas contempla explícitamente la digitalización de las revistas españolas de investigación.
El CINDOC es un centro especializado en documentación científica, con una amplia experiencia en digitalización de fondos bibliográficos, y que participa en numerosos proyectos españoles y europeos.
Los solicitantes hemos participado en todas las iniciativas que están en marcha en el mundo para digitalizar la literatura matemática.
Sólo por citar algunas, hemos participado en las reuniones de coordinación de WDML y de DML-EU celebradas en Berlingen (Suiza) en 2002 y 2003; en Gottingen (Alemania) en 2003; en la reunión EMANI-WDML de Estocolmo (Suecia) en 2004; y hemos presentado propuestas a las sociedades matemáticas españolas como RSME, SEMA, SCM o SEIO, en algunas de las cuales ocupamos puestos directivos.
Hemos escrito además diversos informes sobre el tema, ver http://web.usc.es/~xtquique/OtherPapers.html y http://www-ma1.upc.es/~amoros/dml/index.html
Una biblioteca digital no sólo proporciona acceso más rápido a los resultados ya existentes sino que proporciona una herramienta de investigación de primera importancia cuando se la combina con las bases de datos bibliográficas y con los servidores de preprints. Idealmente proporciona además acceso a través de Internet dese cualquier lugar. Se trata pues probablemente de la única iniciativa de política científica que favorece simultáneamente a todos los proyectos de I+D en Matemáticas.
Como se ha explicado, está en marcha la preparación de un proyecto europeo DML-EU bajo los auspicios de la EMS (Sociedad Matemática Europea), que de ser concedido serviría para financiar los aspectos de coordinación, elaboración de estándares, metadatos y archivo a largo plazo. Por tanto la solicitud presente debe entenderse destinada a poner en marcha el proceso local de digitalización en España, cuyos fondos van destinados fundamentalmente al proceso físico de digitalización, captura de metadatos, acceso y enlace a bases de datos.
Además, como otra vía de cofinanciación, se están preparando solicitudes análogas ante las comunidades autónomas, y destacadamente a la Generalitat de Catalunya, que aportaría en su caso cantidades destinadas a digitalizar las revistas publicadas en aquella comunidad autónoma.
Los proyectos como el que planteamos tienen un impacto inmediato y medible en la forma en que se desarrolla la investigación,al permitir el acceso digital a fondos bibliográficos y proporcionar una serie de herramientas e infraestructura para crear una colección digital.
El proyecto significa además una razón de prestigio para España en la comunidad matemática internacional.
Evidentemente desde el punto de vista técnico supone resolver una serie de problemas importantes (copyright, estándares) que servirán a la comunidad científica en su conjunto, y poner de acuerdo a diferentes sujetos (editores, usuarios, sociedades científicas, bibliotecas, lo que redunda en beneficio de todos.
Adoptar estándares es también importante para diseminar la producción científica; en Matemáticas son enormemente importantes las bases de datos y servcios de recensiones como MathReviews (AMS) y Zentralblatt (EMS).
Señalemos por último la importancia de este tipo de proyectos para poner la ciencia al alcance de los países menos desarrollados, lo que tiene un interés estratégico para España.
Retraso en relación a otros países.
El proyecto WDML nació a iniciativa de los Estados Unidos, con la colaboración de los países europeos, Rusia y China. En estos momentos hay distintos programas de digitalización que están mucho más avanzados que los demás: se trata de JSTOR, Cornell, USA; de NUMDAM, Grenoble, Francia; y EMANI, Gottingen, Alemania. En los demás países la situación es en cierto sentido análoga a la nuestra, es decir, se dispone de la tecnología necesaria y del apoyo de la comunidad científica, y sólo falta comenzar el proceso de digitalización.
Se corre el riesgo, sin embargo, de quedar descolgados de este proceso si no se demuestra que nuestro país posee la capacidad de acometer el proceso y de evaluar las herramientas técnicas que se vayan desarrollando.
España siempre ha sido considerada a este respecto un socio interesante por nuestros colegas internacionales, por dos motivos: el multilinguismo, y nuestra conexión con América Latina. Es claro, sin embargo, que esta situación puede cambiar si no comenzamos nuestro proceso en un breve plazo.
Existe además el problema general de que las casas comerciales están ya digitalizando sus propios contenidos, claro está con un acceso menos abierto y universal que el que nosotros proponemos. Nuestro proyecto hará más visibles a las pequeñas revistas independientes de calidad.
Una primera estimación del número de páginas ronda las 100.000. Sin embargo, no pretendemos cubrir en este proyecto toda la literatura publicada en España; además, las revistas tienen sus contenidos más recientes en formato digital, que cumple desde mediados de los 90 las condiciones de perdurabilidad necesarias (existencia de los ficheros TeX compilables con el núcleo congelado de TeX y las librerías disponibles en repositorio público de software científico).
Si descontamos los fondos satisfactoriamente digitalizados y las series más antiguas o de interés más limitado, nos fijamos un objetivo de 40.000 páginas a digitalizar. De acuerdo con los procedimientos que ya se han llevado a cabo en otros países (especialmente NUMDAM en Francia) nuestros objetivos son plenamente adecuados.
En todo caso seguiríamos los siguientes criterios (prioritarios pero no excluyentes):
a) Revistas de calidad, reconocidas en índices internacionales de prestigio;
b) Desde el año 1980 hasta la actualidad;
c) Con un moving wall aceptado formalmente, en general de cinco años y cesión de copyright de los artículos digitalizados al dominio público.
Las revistas interesadas en este proyecto son:
1. COLLECTANEA MATHEMATICA: Universitat de Barcelona (UB).
http://www.mat.ub.es/CM
2. REVISTA MATEMATICA IBEROAMERICANA: CSIC-RSME
http://www.uam.es/departamentos/ciencias/matematicas/ibero/irevista.htm
3. TEST: Spanish Society of Statistics and Operations Research (SEIO).
http://www.seio.es/test/
4. PUBLICACIONS MATEMATIQUES: Universitat Autónoma de Barcelona (UAB).
http://mat.uab.es/pubmat/
5. REVISTA MATEMATICA COMPLUTENSE: Universidad Complutense de Madrid (UCM).
http://www.mat.ucm.es/serv/revista/
6. EXTRACTA MATHEMATICAE: Universidad de Extremadura.
http://www.unex.es/extracta/extracta.html
7. SORT Statistics and Operations Research Transactions: Institut d¹Estadistica de Catalunya.
http://www.idescat.es/sort/sort.STM
8. TOP Journal of operations research; Spanish Society of Statistics and Operations Research (SEIO)
http://www.seio.es/top/
9. MATHWARE & SOFT COMPUTING: Universitat Politecnica de Catalunya (UPC)
http://www.upc.es/ea-smi/mathware/ENG/mathware.html
10. QUALITATIVE THEORY OF DYNAMICAL SYSTEMS: Universitat de Lleida.
http://www.udl.es/dept/matematica/ssd/qtds/