Recepta per Kaldi per a locutors amb disartria

Recepta de Kaldi per construir un ASR per a locutors amb disartria. La recepta utilitza la base de dades Torgo i s'implementen diversos models acústics. Troba-ho a GitHub:

https://github.com/cristinae/ASRdys

WikiTailor software, extracció de corpus comparables multilingües i paral·lels a TACARDI

Programari per a l'extracció de corpus en qualsevol idioma i domini especialitzat existent a Vikipèdia. Actualment permet l'extracció de corpus multilingües comparables d'articles en qualsevol domini i n'extreu els seus títols per formar el corpus (multi)paral·lel. Si vols fer de beta-tester demana'ns-el, aviat el posarem públic!

Corpus de test de Vikipèdia (paral·lelisme i comparabilitat)

El corpus comparable està format per 30 parelles d'articles de Vikipèdia en anglès i castellà. Els articles pertanyen a tres dominis diferents en la mateixa proporció: informàtica, ciència i esports. Els documents estan anotats manualment a nivell de frase amb tres etiquetes: paral·lel, comparable, i altre.

El corpus paral·lel contè 2400 frases provinents d'articles de Vikipèdia en anglès i castellà revisades manualment. Com abans, els fragments pertanyen a tres dominis diferents en la mateixa proporció: informàtica, ciència i esports.

Si-us-plau, citeu el següent treball si utilitzeu aquestes dades:

A Factory of Comparable Corpora from Wikipedia
Alberto Barrón-Cedeño, Cristina España-Bonet, Josu Boldoba and Lluís Màrquez
Proceedings of the 8th Workshop on Building and Using Comparable Corpora (BUCC), pages 3-13, Beijing, China, July 2015.
[ BibTeX ]

Llistes de stopwords

Llista de paraules d'aturada recopilada per a l'occità.

Embeddings amb ~109 paraules (en/es/de)

Embeddings obtinguts amb Word2vec per l'anglès (2.3 Mw), el castellà (0.8 Mw) i l'alemany (0.7 Mw).

EMT software, traducció automàtica híbrida a OPENMT2

Mòdul de combinació de sistemes i decodificació per al sistema de traducció SMatxinT. Troba'l a GitHub:

https://github.com/cristinae/EMT

A Hybrid Machine Translation Architecture Guided by Syntax
Gorka Labaka, Cristina España-Bonet, Lluís Màrquez, Kepa Sarasola
Machine Translation Journal, Vol. 28, Issue 2, pages 91-125, October, 2014.
[ BibTeX arXiv ]