Microsoft Research crea un sistema capaç de generar peus de fotos "intel·ligents" automàticament

Taula de continguts:

En què consisteix

Segur que en alguna ocasió t'has topat amb un peu de foto confús, incorrecte o que poc diu de la imatge a què es refereix; i fins i tot és possible que, si us dediqueu a publicar els vostres propis articles, us resulti d'allò més tediós omplir aquest apartat. Doncs bé, els de Redmond han enllumenat una eina que pretén posar-te les coses més fàcils.

Un treball publicat per Microsoft Research que es descriu com un “sistema de generació de peus de foto” capaç d'imitar les característiques narratives del llenguatge humà, és a dir, una tecnologia que pot descriure les captures com si d'un de nos altres es tractés, amb el context corresponent.Alguna cosa en què empreses de la talla de Facebook, Microsoft i Google fa temps que treballen però que aquesta vegada supera les expectatives.

En què consisteix

S'ho va passar genial

D'aquesta manera, el sistema posseeix la facultat de, fins i tot, explicar una història completa a partir de diverses imatges, descrivint-la i explicant-la com si fos un llibre. Una utilitat que, segons els experts, es podria acabar convertint en una prestació que aporti un toc més humà a certes aplicacions, aplicacions de reconeixement de veu, generar descripcions de manera automàtica en altres àmbits i un llarg etcètera.

I és que la eina no es limita a dir, breument, allò que “veu”, sinó que aporta un context més ampli de la situació que es plasma a la imatge, aconseguint un "context narratiu i estil únic de narració", ha explicat Frank Ferraro, un dels autors d'aquest treball.Per posar-nos en situació ens brinda un clar exemple

La seva mare se'n va sentir orgullosa

Així, ens plantea el següent cas: “imaginem que tenim un àlbum de fotos d'uns amics que han celebrat un aniversari en un bar. Algunes de les primeres imatges mostren a la gent demanant cervesa i bevent-se-la, mentre que a les últimes apareix algú adormit en un sofà”, comenta.

Un sistema convencional “podria apuntar de manera senzilla una cosa així com hi ha una persona estirada en un sofà, mentre que el nostre sistema podria incloure que probablement aquesta es troba en aquesta situació perquè està borratxa després de prendre unes copes” . Un afegit que aporta comprensió i certa càrrega emocional que també es plasmen a través de les imatges i peus de foto integrats en aquest article.

Via | MIT Tecnology Review

A Xataka Windows | Microsoft llança una aplicació que determina la raça del teu gos

Taula de continguts:

En què consisteix

Selecció de l'editor