Noticia
TFG - Creació d'un entorn de clonació de veu amb models d'Aprenentatge Profund
Data de publicació: TFG dins del Grau d'Enginyeria InformàticaGaleria d'imatges
En el Treball de Final de Grau (TFG) innovador de Joan Sansó Pericàs, s'han presentat dues eines clau que prometen revolucionar la clonació de veu mitjançant l'ús de l'Aprenentatge Profund. Aquest treball, se centra en dues etapes crucials: la generació de conjunts de dades a partir de gravacions de veu i l'ajust dels models preentrenats amb aquests conjunts.
La primera eina automatitza la creació de conjunts de dades a partir de gravacions de veu, simplificant la recopilació de mostres i agilitzant el procés d'entrenament dels models d'Aprenentatge Profund. Això suposa un estalvi significatiu de temps i recursos.
La segona eina es centra en l'ajust fi dels models preentrenats utilitzant els conjunts de dades generats. Aquest ajust proporciona una adaptació més precisa a les característiques de les veus a clonar, millorant la qualitat i la personalització de les veus sintètiques.
Els resultats d'aquesta investigació són sorprenents: simplificació i acceleració del procés de clonació de veu, estalvi de temps i recursos, i una millora notable en la fidelitat de les veus clonades. Aquest avenç té el potencial de transformar la indústria de la síntesi de veu i obrir noves oportunitats en diversos àmbits.
Autor: Joan Sansó Pericàs
Supervisors: Javier Varona Gómez i Gabriel Moyà Alcover
Data defensa:18/09/2023