Impact Spanish Demonstrator Dataset

From DigitWiki
Jump to: navigation, search


The Spanish ground truth produced by Universidad de Alicante (UA) in the frame of the EU funded Impact project consists of 11.444 pages in PAGE XML format with an accuracy of 99.95%, that is a maximum rate of error of 5 characters wrong on 10.000 pages.


The following workflow describes the process of GT encoding and QA:


File:SpanishGTDesc html 1c35ade2.gif


  • Image OCR: The images (provided by Biblioteca Nacional de España) were OCRed using Abbyy FineReader Engine 9.0 with the Old Spanish internal dictionary enabled. This OCR was encoded in PAGE XML format.
  • GT production: The software used to key the images was Aletheia (developed by Pattern Recognition and Image Analysis Research Lab - PRImA of the University of Salford, see http://www.primaresearch.org/tools.php).
  • QA process: In order to ensure the 99.95% fidelity to the source texts we followed the standard acceptance sampling (Montgomery 2009, part 6) statistical procedure for quality control: each document was processed in batches (containing between 500 and 1200 pages); when the transcription of a whole batch was complete, a sample containing about 4% of the pages was randomly selected and reviewed by UA staff; whenever the accuracy of the digitisation was found to be below 99.95%, the whole batch was rejected and its processing restarted.
  • Uploading to Impact repository: Whenever the accuracy of the GT was over 99.95%, the batch was accepted and the files were uploaded to the Impact repository mantained by PRImA.

The Impact Spanish GT is distributed under CC-By-NC-SA and can be downloaded from the Centre of Competence Github. It includes the following books:


Title Author Year Place No of pages Language

Las obras de Boscán y algunas de Garcilasso de la Vega repartidas en cuatro libros


Juan Boscán


1543


Barcelona


500


Spanish


Obras del venerable y mistico Dotor F. Joan de la Cruz,


San Juan de la Cruz


1629


Madrid


971


Spanish


Vida y hechos del pícaro Guzmán de Alfarache


Mateo Alemán


1681


Amberes


411


Spanish


El Polifemo de Don Luis de Góngora comentado por Don García de Salzedo


Luis de Góngora y Argote


1629


Madrid


274


Spanish


Obras de Garcilasso de la Vega con las anotaciones por el Mtro. Francisco Sánchez Brocense


Garcilaso de la Vega


1612


Madrid


285


Spanish


Las comedias del famoso poeta Lope de Vega


Lope de Vega


1604


Zaragoza


759


Spanish


Carta athenagorica


Sor Juana Inés de la Cruz


1690


Puebla de los Ángeles


35


Spanish


Commentarios reales


Inca Garcilaso de la Vega


1609


Lisboa


546


Spanish


Vida de Lazarillo de Tormes


Juan Luna


1652


Zaragoza


140


Spanish


El Parnasso español


Francisco de Quevedo


1648


Madrid


671


Spanish


Los libros de la Madre Teresa de Jesús


Santa Teresa de Jesús


1588


Salamanca


559


Spanish


Observaciones astronomicas y phisicas hechas de orden de S. M. en los Reynos del Peru


Jorge Juan


1748


Madrid


461


Spanish


El ingenioso hidalgo Don Quixote de la Mancha


Miguel de Cervantes


1605


Madrid


664


Spanish


Primera parte de comedias del célebre poeta español, Don Pedro Calderón de la Barca


Pedro Calderón de la Barca


1685


Madrid


486


Spanish


Diccionario de la lengua castellana, en que se explica el verdadero sentido de las voces, su naturaleza y calidad, con las phrases o modos de hablar [...] Tomo primero. Que contiene las letras A.B.


Real Academia Española


1726


Madrid


826


Spanish


Diccionario de la lengua castellana, en que se explica el verdadero sentido de las voces, su naturaleza y calidad, con las phrases o modos de hablar [...] Tomo segundo. Que contiene la letra C.


Real Academia Española


1729


Madrid


725


Spanish


Diccionario de la lengua castellana, en que se explica el verdadero sentido de las voces, su naturaleza y calidad, con las phrases o modos de hablar [...] Tomo tercero. Que contiene las letras D.E.F


Real Academia Española


1732


Madrid


827


Spanish


Diccionario de la lengua castellana, en que se explica el verdadero sentido de las voces, su naturaleza y calidad, con las phrases o modos de hablar [...] Tomo quarto. Que contiene las letras G.H.I.J.K.L.M.N


Real Academia Española


1734


Madrid


707


Spanish


Diccionario de la lengua castellana, en que se explica el verdadero sentido de las voces, su naturaleza y calidad, con las phrases o modos de hablar [...] Tomo quinto. Que contiene las letras O.P.Q.R


Real Academia Española


1737


Madrid


667


Spanish


Diccionario de la lengua castellana, en que se explica el verdadero sentido de las voces, su naturaleza y calidad, con las phrases o modos de hablar [...]Tomo sexto. Que contiene las letras S.T.V.X.Y.Z


Real Academia Española


1739


Madrid


613


Spanish


Libro de la invención liberal y arte del juego del Axedrez


Ruy López de Sigura


1561


Alcalá


317


Spanish