Recursos
Esta página recoje algunos de los recursos desarrollados dentro de los proyectos SEGUNDA VOZ, TACARDI y OPENMT2 y que pueden ser útiles para otros investigadores.
- Receta para Kaldi para locutores con disartria
- WikiTailor software, extracción de corpus comparables multilingües y paralelos en TACARDI
- Corpora de test de Wikipedia (paralelismo y comparabilidad)
- Embeddings con ~109 palabras (en/es/de)
- Listas de stopwords
- EMT software, traducción automática híbrida en OPENMT2
Receta para Kaldi para locutores con disartria
Receta de Kaldi para construir un ASR para locutores con disartria. La receta usa la base de dades Torgo y se implementan diversos modelos acústicos. Encuéntralo en GitHub:
https://github.com/cristinae/ASRdys
WikiTailor software, extracción de corpus comparables multilingües y paralelos en TACARDI
Software para la extracción de corpus en cualquier idioma y dominio especializado existente en Wikipedia. Actualmente permite la extracción de corpus multilingües comparables de artículos en cualquier dominio y extrae sus títulos para formar el corpus (multi)paralelo. Si quieres hacer de beta-tester pidenoslo, pronto lo pondremos público!
Corpora de test de Wikipedia (paralelismo y comparabilidad)
El corpus comparable está formado por 30 parejas de artículos de Wikipedia en inglés y castellano. Los artículos pertenecen a tres dominios diferentes con la misma proporción: informática, ciencia y deportes. Los documentos están anotados manualmente a nivel de frase con tres posibles etiquetas: paralelo, comparable, y otro.
El corpus paralelo contiene 2400 frases provinientes de artículos de Wikipedia en inglés y castellano revisados manualmente. Como antes, los fragmentos pertenecen a tres dominios diferentes con la misma proporción: informática, ciencia y deportes.
Cita el siguiente trabajo si utilizas estos datos:
Listas de stopwords
Lista de palabras de paro recopilada para el occitano.
Embeddings con ~109 palabras (en/es/de)
Embeddings obtenidos con Word2vec para el inglés (2.3 Mw), el castellano (0.8 Mw) y el alemán (0.7 Mw).
EMT software, traducción automática híbrida en OPENMT2
Módulo de combinación de sistemas y decodificación para el sistema de traducción SMatxinT. Encuéntralo en GitHub:
https://github.com/cristinae/EMT