TFG - Creació d'un entorn de clonació de veu amb models d'Aprenentatge Profund - Laboratori d'Aplicacions de la Intel·ligència Artificial (LAIA@UIB)

TFG - Creació d'un entorn de clonació de veu amb models d'Aprenentatge Profund

Data de publicació: 10/10/2023 TFG dins del Grau d'Enginyeria Informàtica

Galeria d'imatges

En el Treball de Final de Grau (TFG) innovador de Joan Sansó Pericàs, s'han presentat dues eines clau que prometen revolucionar la clonació de veu mitjançant l'ús de l'Aprenentatge Profund. Aquest treball, se centra en dues etapes crucials: la generació de conjunts de dades a partir de gravacions de veu i l'ajust dels models preentrenats amb aquests conjunts.

La primera eina automatitza la creació de conjunts de dades a partir de gravacions de veu, simplificant la recopilació de mostres i agilitzant el procés d'entrenament dels models d'Aprenentatge Profund. Això suposa un estalvi significatiu de temps i recursos.

La segona eina es centra en l'ajust fi dels models preentrenats utilitzant els conjunts de dades generats. Aquest ajust proporciona una adaptació més precisa a les característiques de les veus a clonar, millorant la qualitat i la personalització de les veus sintètiques.

Els resultats d'aquesta investigació són sorprenents: simplificació i acceleració del procés de clonació de veu, estalvi de temps i recursos, i una millora notable en la fidelitat de les veus clonades. Aquest avenç té el potencial de transformar la indústria de la síntesi de veu i obrir noves oportunitats en diversos àmbits.

Autor: Joan Sansó Pericàs

Supervisors: Javier Varona Gómez i Gabriel Moyà Alcover

Data defensa:18/09/2023

Noticia

TFG - Creació d'un entorn de clonació de veu amb models d'Aprenentatge Profund

Galeria d'imatges