Receta para Kaldi para locutores con disartria

Receta de Kaldi para construir un ASR para locutores con disartria. La receta usa la base de dades Torgo y se implementan diversos modelos acústicos. Encuéntralo en GitHub:

https://github.com/cristinae/ASRdys

WikiTailor software, extracción de corpus comparables multilingües y paralelos en TACARDI

Software para la extracción de corpus en cualquier idioma y dominio especializado existente en Wikipedia. Actualmente permite la extracción de corpus multilingües comparables de artículos en cualquier dominio y extrae sus títulos para formar el corpus (multi)paralelo. Si quieres hacer de beta-tester pidenoslo, pronto lo pondremos público!

Corpora de test de Wikipedia (paralelismo y comparabilidad)

El corpus comparable está formado por 30 parejas de artículos de Wikipedia en inglés y castellano. Los artículos pertenecen a tres dominios diferentes con la misma proporción: informática, ciencia y deportes. Los documentos están anotados manualmente a nivel de frase con tres posibles etiquetas: paralelo, comparable, y otro.

El corpus paralelo contiene 2400 frases provinientes de artículos de Wikipedia en inglés y castellano revisados manualmente. Como antes, los fragmentos pertenecen a tres dominios diferentes con la misma proporción: informática, ciencia y deportes.

Cita el siguiente trabajo si utilizas estos datos:

A Factory of Comparable Corpora from Wikipedia
Alberto Barrón-Cedeño, Cristina España-Bonet, Josu Boldoba and Lluís Màrquez
Proceedings of the 8th Workshop on Building and Using Comparable Corpora (BUCC), pages 3-13, Beijing, China, July 2015.
[ BibTeX ]

Listas de stopwords

Lista de palabras de paro recopilada para el occitano.

Embeddings con ~109 palabras (en/es/de)

Embeddings obtenidos con Word2vec para el inglés (2.3 Mw), el castellano (0.8 Mw) y el alemán (0.7 Mw).

EMT software, traducción automática híbrida en OPENMT2

Módulo de combinación de sistemas y decodificación para el sistema de traducción SMatxinT. Encuéntralo en GitHub:

https://github.com/cristinae/EMT

A Hybrid Machine Translation Architecture Guided by Syntax
Gorka Labaka, Cristina España-Bonet, Lluís Màrquez, Kepa Sarasola
Machine Translation Journal, Vol. 28, Issue 2, pages 91-125, October, 2014.
[ BibTeX arXiv ]