Con unas 300 imágenes del rostro de una determinada persona, a poder ser desde todas las perspectivas posibles, ya se dispone de suficiente material para obtener un resultado decente. En el código de los deepfakes hay un tipo de red neuronal artificial llamada autoencoder (autocodificador) a la que se entrena para comprimir y descomprimir datos. En la descompresión, el autoencoder intenta lograr un resultado lo más cercano posible al original. Para poder hacerlo, durante el proceso de compresión la red aprende a distinguir los datos relevantes de los que no lo son.
Si se provee al algoritmo de numerosas imágenes de perros, la red neuronal artificial aprende a concentrarse en el perro y a ignorar el resto, que suele denominarse ruido (noise), de tal modo que, con estos datos, el autoencoder puede crear un perro por sí mismo. Esta es también la mecánica en el intercambio facial de los vídeos deepfake: la red neuronal aprende el rostro de la persona y puede crearlo de forma autónoma, incluso si cambia de posición o hace un gesto, como abrir la boca, por ejemplo.
Para que el intercambio sea efectivo, el algoritmo ha de ser capaz de reconocer dos caras, la que aparece en el original y la que ha de sustituirla. Para poder hacerlo se utiliza una entrada (codificador) y dos salidas (decodificadores): el codificador o encoder analiza el material mientras que los dos decodificadores o decoder generan dos salidas diferentes, el rostro A y el rostro B.
La misión del algoritmo es en definitiva superponer el rostro B, que no aparece en el vídeo, sobre el rostro A, que sí lo hace. Esto pone de relieve la diferencia de los deepfakes respecto a los ya conocidos fakes, limitados a las imágenes, porque mientras aquí se recorta un rostro para, tras retocarlo o editarlo, añadirlo a otro archivo diferente, en los deepfakes no solo se copia material visual en una imagen diferente, sino que se crea material nuevo. De otra manera la mímica no podría ajustarse de forma tan natural a los gestos de la imagen original.
Esto explica algunos errores típicos de estos videos que suelen aparecer cuando las redes neuronales se topan con movimientos atípicos, alcanzando así sus propias limitaciones. Cuando no se dispone de suficientes imágenes desde la perspectiva adecuada, el fotograma adquiere un aspecto borroso debido a que el algoritmo intenta generar una imagen a partir del poco material de que dispone, lo que solo puede hacer a duras penas y prescindiendo de los detalles.