TFG - Generació de descripcions textuals d'imatges mitjançant la personalització d'arquitectures avançades d'Aprenentatge Profund

Data de publicació: TFG del Grau d'Enginyeria Informàtica

 

Els models d'aprenentatge automàtic multimodals han guanyat molta importància en els darrers anys. Aquest treball aborda l'efectivitat de la personalització d'aquests models per a la descripció d'imatges. Els objectius de la recerca inclouen explorar les capacitats de BLIP-2, analitzar el procés de personalització en el context dels videojocs i obtenir un model personalitzat funcional. Es va desenvolupar una llibreria per accedir a les dades de Wikimedia Commons i es va configurar, personalitzar i executar el model BLIP-2 amb diferents variants, avaluant el seu rendiment mitjançant experiments. Els resultats van mostrar millores significatives en el rendiment de totes les variants personalitzades, amb la capacitat d'identificar consoles i comprendre text il·legible, a més de generalitzar a altres temes. Es destaquen les contribucions del treball, com la utilitat demostrada de la personalització en el model BLIP-2, la proposta d'un mètode per generar conjunts de dades personalitzats i la presentació d'un model finalitzat per descriure imatges de videojocs de manera efectiva. Es suggereixen direccions futures, com l'obtenció de dades de major qualitat, l'exploració d'altres arquitectures i la reducció del consum de recursos.

Autor: Cristian Comellas Fluxá
Supervisors; Javier Varona i Gabriel Moyà-Alcover