Wikiparable, corpus de la Vikipèdia

Viquipèdia és una font d'informació multilingüe molt valuosa. Actualment l'enciclopèdia cobreix gairebé 300 llengües i la seva estructura amb enllaços entre viquipèdies permet establir correspondències entre les diferents edicions d'un mateix article. Tot i que el percentatge d'articles coincidents entre llengües és molt baix (només un 7% per les tres edicions més grans: anglès, alemany i francès) es poden obtenir textos comparables per una gran quantitat de llengües.

Dintre d'aquesta línia treballem en tres direccions. Per una banda, treballem en l'adquisició de corpus comparables per dominis concrets, per una altra en l'extracció de corpus paral·lels a partir dels corpus comparables. Finalment, desenvolupem una interfície web per facilitar l'enriquiment de viquipèdies: edicions menys completes es poden beneficiar de la informació rellevant present en altres edicions. Per tal d'acomplir aquests propòsits utilitzem tècniques tant de recuperació d'informació (translingüe quan es necessari) com de traducció automàtica.

TACARDI, Traducció automàtica en context i aumentada amb recursos dinàmics d'Internet

Amb l'objectiu principal d'aconseguir millores qualitatives en els sistemes de traducci\F3 autom\E0tica de l'estat de l'art, TACARDI es centra en les següents dues l\EDnies d'investigaci\F3:

L'explotació dels nous recursos que ofereix Internet. (i) L'enriquiment dels recursos orientats a la traducció automàtica: per exemple, l'ús de corpus comparables recol\B7lectats de forma automàtica a través d'Internet, y la recol\B7lecció de lèxics especialitzats utilitzant Vikipèdia i les seves metadades (entitats, termes multiparaula, categories, enllaços multilingües, etc.). (ii) Recopilació d'informació multilingüe on-line per a millorar la traducció, especialment de paraules desconegudes, mitjançant l'accés a fonts d'informació multilingüe que s'actualitzen amb molta freqüència (Twitter, Vikipèdia, notícies, etc.).

Ampliació de la informació contextual utilitzada en la traducció més enllà de la frase. (i) Traducció a nivell de document (no frase a frase). Aquesta metodologia dóna lloc a traduccions globals de documents que mostren una millor coherència discursiva. Això s'aconsegueix, per exemple, mitjançant la traducció d'una manera coherent de tots els termes que es co-referencien en un document. (ii) L'explotació de meta-informació no textual disponible en els documents. Per exemple mitjançant l'ús d'etiquetes temàtiques o de domini, informació extreta dels enllaços als webs, o, en el cas del text d'aplicacions de programari, el context en què apareix (la traducció pot variar dràsticament si el text apareix en un paràgraf, un enllaç, un botó, o un menú). Aquesta línia d'investigació podria millorar la selecció lèxica i l'adaptació de domini dels sistemes de traducció actuals.

Amb la finalitat d'avaluar l'evolució de les línies d'investigació anteriors el projecte treballarà amb textos en tres dominis diferents d'aplicació: artícles de Vikipèdia, missatges de Twitter i programari (localizació i traducció de manuals d'usuari). Ja s'han aplicat eines de traducció a aquests tres casos, obtenint beneficis significatius. Aquest projecte té com objetiu proporcionar millores fins i tot capaces de tenir un impacte positiu major en MT a curt i mig termini.

(Del resum oficial del projecte)

TIN2012-38523-C02-00 (01/02/2013-31/01/2016)

MOLTO, Multilingual On-Line Translation

L'objectiu de MOLTO és desenvolupar un conjunt d'eines per a traduir textos entre diversos idiomes en temps real i amb alta qualitat. Les llengües són mòduls separats en l'eina i per tant es poden canviar; els prototips que es construiran cobriran la major part dels 23 idiomes oficials de la UE.

Com a tècnica principal, MOLTO utilitza gramàtiques semàntiques de domini específic i interlingues basades en ontologies. Aquests components s'implementen en GF (Grammatical Framework), un formalisme de gramàtiques on es relacionen diversos idiomes a través d'una sintaxi abstracta comú. El GF s'ha aplicat en diversos dominis de mida petita i mitjana, típicament per tractar fins a un total de deu idiomes, però MOLTO ampliarà això en termes de productivitat i aplicabilitat.

Part de l'ampliació es dedicarà a augmentar la mida dels dominis i el nombre d'idiomes. Una part important és fer la tecnologia accessible per als experts del domini sense experiència amb GFs i reduir al mínim l'esforç necessari per a la construcció d'un traductor. Idealment, això es pot fer només estenent un lexicó i escrivint un conjunt de frases d'exemple.

Les parts amb investigació més intensiva de MOLTO són la interoperabilitat en els dos sentits entre estàndards d'ontologies (OWL) i les gramàtiques GF, i l'extensió de les traduccions basades en regles amb mètodes estadístics. L'interoperabilitat OWL-GF permetrà la interacció multilingüe basada en llenguatge natural amb coneixement vàlid per a les màquines. Els mètodes estadístics afegiran robustesa al sistema. Es desenvoluparan nous mètodes per a combinar les gramàtiques GF amb la traducció estadística en benefici de tots dos.

La tecnologia de MOLTO serà lliurada com a llibreries de codi obert que podran ser connectades a les eines de traducció estàndard i pàgines web i, per tant, podran ser integrades en els fluxos de treball estàndard. Es crearan demos web i s'aplicarà a tres estudis de cas: exercicis de matemàtiques en 15 idiomes, dades de patents en almenys 3 idiomes, i descripcions d'objectes de museus en 15 idiomes.

(Del resum oficial del projecte)

FP7-ICT-247914 (01/03/2010-31/08/2013)

OPENMT-2, Traducció automàtica híbrida i evaluació avançada

L'objetiu del projecte OpenMT-2 és fomentar la investigació en tecnologia de traducció automàtica (MT) amb la finalitat de generar sistemes de traducció automàtica híbrida robusta i d'alta calitat, i la millora de las mètriques i metodologies d'avaluació. OpenMT-2 es basa en la investigació prèvia portada a terme en el marc del projecte OpenMT durant els anys 2006-2008 (TIN2006-15307-C03-01).

La investigació dintre d'OpenMT-2 es duu a terme en 5 àrees principals: (i) Recol\B7lecció, anotació i explotació de corpora multilingüe, (ii) Millora dels sistemes actuals de traducció d'un únic paradigma, (iii) Pre-edició, post-edició i millora del sistema basats en la col\B7laboració amb la comunitat web2.0, (iv) Combinació i hibridació de diversos paradigmes de MT, i (v) Avaluació avançada de MT.

Es comprovarà la funcionalitat de la nova tecnologia i dels sistemes desenvolupats amb quatre idiomes diferents: Anglès, Castellà, Català i Euskera. A més, els sistemes s'aplicaran a diferents contextos (és a dir, corpora de diferents dominis y gèneres).

El consorci està format per dues universitats: la Universitat del País Basc (UPV/EHU), i la Universitat Politècnica de Catalunya (UPC); i un centre de investigació sense ànim de lucre: Elhuyar. Varies empreses i fundacions amb activitats en àrees molt relacionades serviran com EPO de supervisió per al projecte: Eleka, Fundació i2CAT, Imaxin, Semantix, Translendium SL i eu.wikipedia.

(Del resum oficial del projecte)

TIN2009-14675-C03-01 (01/01/2010-31/12/2012)

Aprenentatge en Traducció Automàtica Estadística

La traducció automàtica estadística és un dels paradigmes més exitosos en traducció automàtica, però encara presenta certes limitacions. Com que els sistemes tradueixen segment a segment (o phrase a phrase) no aprofiten tota la informació que amaga la frase. Això és pot solucionar utilitzant tècniques d'aprenentage automàtic que permeten aprendre a classificar la traducció d'un segment segons el context en què es trobi (i.e. les paraules que l'envolten) o la sintaxi de l'oració per exemple.

Actualment treballem en la integració de les dues aproximacions. Cada cop que el sistema ha de triar la traducció d'un segment utilitza les característiques associades a cada possible traducció per triar-la. Entre aquestes característiques es poden incloure tant les probabilitats utilitzades en un model estàndard de traducció automàtica estadística com atributs que descriguin la categoria gramatical de la phrase, el part-of-speech, la posició dins l'oració, les paraules que l'envolten, etc.

Com he dit abans en algún lloc, el grup de recerca en traducció automàtica al GPLN està format per en Jesús Giménez, en Lluís Màrquez i jo mateixa. L'estat del treball es pot anar seguint a la nostra wiki: EMTwiki!

COCO, la COmpilació de COrpus de Text-Mess

COCO és una interfície web pensada per adquirir coneixement a partir de la informació que introdueixin voluntaris, i és un subprojecte dintre Text-mess. La meva aportació està sent la implementació de la interfície, el nucli de la qual utilitza MySQL i PHP. En la primera fase COCO permet tractar, ampliar i validar corpus de paràfrasis. Si vols formar part d'aquests voluntaris pots visitar el web i contribuir-hi! Si només vols xafardejar l'aspecte que té aquí en tens unes mostres:

Captures de pantalla de COCO

En breu, el nombre de tasques disponibles s'ampliarà per acabar recopilant corpus de:

  • Parelles de paràfrasis
  • Parelles d'implicacions textuals
  • Correferències
  • Canvis de modalitat d'oracions
  • Transformacions sintàctiques
  • Atributs de conceptes

Aquesta feina s'està duent a terme conjuntament entre el Departament de Llenguatges i Sistemes Informàtics de la UPC (LSI) i el Centre de Llenguatge i Computació de la UB (CLiC).

Traducció automàtica de subtítols Anglès-Català

Aquest és un projecte que fa temps que em volta pel cap pensat per a què els aficionats catalans al cinema en versió original tinguin l'ajuda dels subtítols en la seva llengua o per a facilitar-ne l'aprenentatge a no catalanoparlants. Trobar subtítols a la web és extremadament fàcil per a les llengües majoritàries com el castellà o l'anglès però és bastant més complicat per al català.

La idea bàsica és tractar d'utilitzar un sistema estàndard de traducció automàtica estadística (Moses) per fer la traducció de subtítols al català de manera automatitzada. Aquests sistemes tradueixen textos nous a base de la informació que han obtingut de traduccions ja vistes. Per entrenar-los, doncs, es necessari disposar de textos alineats frase a frase en els dos idiomes. Si després els fragments que volem traduir pertanyen al mateix domini que aquests documents alineats les traduccions seran en general bones.

Per una banda, la traducció de subtítols pot ser complicada perque es tracta de frases de vegades massa curtes. Per altra banda, peŀlícules o sèries d'un mateix gènere comparteixen vocabulari i expressions, i això pot facilitar la traducció en alguns casos. Un sistema que hagués estat entrenat amb les tres primeres temporades de Prison Break, ara estaria traduint de manera acceptable la quarta temporada però no podria traduir House M.D. per exemple; un sistema entrenat només amb totes les peŀlícules de Tim Burton no seria eficient traduint Els Simpson, etc. La clau està doncs en tenir una base de dades inicial (corpus) variada i com més amplia millor. Un cop es disposa d'aquestes dades el sistema es pot ampliar i especialitzar ràpidament per als diferents gèneres.

Però conseguir aquest corpus inicial no és l'únic problema, s'ha de conseguir que els subtítols en les dues llengües es corresponguin frase a frase i això no sempre passa. Actualment disposo d'un centenar de subtítols en les dues llengües, català i anglès. Amb un promig de 500 línies per peŀlícula, únicament es disposa d'unes 50.000 parelles de frases. Això és un corpus relativament petit, però tot i així, el fet de vigilar que les frases es corresponguin amb els dos idiomes es bastant lent i per això el projecte es tracta només d'una idea de moment...

No cal dir que qualsevol ajuda serà benvinguda. Si disposes de parelles de subtítols me'ls pots enviar per correu o si vols coŀlaborar a alinear parelles existeix programari que en facilita la feina (Gaupol per linux o Subtitle Workshop per windows, per exemple). Posa't en contacte amb mi per a més informació!

Descobrim l'Univers

Descobrim l'Univers és una activitat integrada en l'oferta de divulgació i educació del Centre d'Observació de l'Univers (COU) del Parc Astronòmic del Montsec. Està pensada per a estudiants d'entre 11 i 14 anys que visiten el COU i fan una primera aproximació a la cosmologia. Inclou un dossier per als alumnes i un per al professorat que giren a l'entorn d'allò que s'explica en un vídeo de 15 minuts de durada. En aquesta secció pots veure aquest vídeo Flash que vam fer amb l'Andreu Balastegui i que explica la història de l'Univers des de que comença l'expansió fins a l'actualitat. La narració és a càrrec del periodista Pep Gorgori. Sigues benèvol, el vídeo és del 2004 i va ser la nostra primera experiència amb Flash!

Si vols entretenir-te una mica pots donar-li un cop d'ull al dossier també:

Digue'm què en penses!






(*) Ni el nom ni el correu són obligatoris a no ser que esperis resposta, clar. Però sempre està bé saber qui diu què!