Recursos
Aquesta pàgina recull alguns dels recursos desenvolupats dintre dels projectes SEGUNDA VOZ, TACARDI i OPENMT2 i poden ser útils a altres investigadors.
- Recepta per Kaldi per a locutors amb disartria
- WikiTailor software, extracció de corpus comparables multilingües i paral·lels a TACARDI
- Corpus de test de Vikipèdia (paral·lelisme i comparabilitat)
- Embeddings amb ~109 paraules (en/es/de)
- Llistes de stopwords
- EMT software, traducció automàtica híbrida a OPENMT2
Recepta per Kaldi per a locutors amb disartria
Recepta de Kaldi per construir un ASR per a locutors amb disartria. La recepta utilitza la base de dades Torgo i s'implementen diversos models acústics. Troba-ho a GitHub:
https://github.com/cristinae/ASRdys
WikiTailor software, extracció de corpus comparables multilingües i paral·lels a TACARDI
Programari per a l'extracció de corpus en qualsevol idioma i domini especialitzat existent a Vikipèdia. Actualment permet l'extracció de corpus multilingües comparables d'articles en qualsevol domini i n'extreu els seus títols per formar el corpus (multi)paral·lel. Si vols fer de beta-tester demana'ns-el, aviat el posarem públic!
Corpus de test de Vikipèdia (paral·lelisme i comparabilitat)
El corpus comparable està format per 30 parelles d'articles de Vikipèdia en anglès i castellà. Els articles pertanyen a tres dominis diferents en la mateixa proporció: informàtica, ciència i esports. Els documents estan anotats manualment a nivell de frase amb tres etiquetes: paral·lel, comparable, i altre.
El corpus paral·lel contè 2400 frases provinents d'articles de Vikipèdia en anglès i castellà revisades manualment. Com abans, els fragments pertanyen a tres dominis diferents en la mateixa proporció: informàtica, ciència i esports.
Si-us-plau, citeu el següent treball si utilitzeu aquestes dades:
Llistes de stopwords
Llista de paraules d'aturada recopilada per a l'occità.
Embeddings amb ~109 paraules (en/es/de)
Embeddings obtinguts amb Word2vec per l'anglès (2.3 Mw), el castellà (0.8 Mw) i l'alemany (0.7 Mw).
EMT software, traducció automàtica híbrida a OPENMT2
Mòdul de combinació de sistemes i decodificació per al sistema de traducció SMatxinT. Troba'l a GitHub:
https://github.com/cristinae/EMT