Red adversarial generativa (Generative adversarial network)

Una red generativa adversarial (GAN) es una clase de marcos de aprendizaje automático y un marco destacado para abordar la generación artificial...

Una red generativa adversarial (GAN) representa una categoría de marcos de aprendizaje automático y se erige como un enfoque importante dentro de la inteligencia artificial generativa. Este concepto fue concebido originalmente por Ian Goodfellow y sus colaboradores en junio de 2014. Dentro de una GAN, dos redes neuronales distintas participan en una interacción competitiva, estructurada como un juego de suma cero donde la ventaja obtenida por un agente corresponde directamente a una pérdida sufrida por el otro.

Una red generativa adversarial (GAN) es una clase de marcos de aprendizaje automático y un marco destacado para abordar la inteligencia artificial generativa. El concepto fue desarrollado inicialmente por Ian Goodfellow y sus colegas en junio de 2014. En una GAN, dos redes neuronales compiten entre sí en forma de un juego de suma cero, donde la ganancia de un agente es la pérdida de otro.

Cuando se le proporciona un conjunto de datos de entrenamiento, esta metodología adquiere la capacidad de producir datos novedosos que exhiben propiedades estadísticas idénticas a las del conjunto de entrenamiento original. Por ejemplo, una GAN entrenada con imágenes fotográficas puede sintetizar nuevas fotografías que parecen al menos superficialmente auténticas para la percepción humana y poseen numerosos atributos realistas. Si bien inicialmente se conceptualizaron como un modelo generativo principalmente para el aprendizaje no supervisado, las GAN han demostrado posteriormente su utilidad en paradigmas de aprendizaje semisupervisado, aprendizaje totalmente supervisado y aprendizaje por refuerzo.

El principio fundamental de una GAN se basa en un mecanismo de entrenamiento "indirecto", facilitado por un discriminador: una red neuronal adicional capaz de evaluar el "realismo" percibido de la entrada, que se somete a actualizaciones dinámicas. En consecuencia, el objetivo del generador no es minimizar su divergencia con respecto a una imagen particular, sino engañar al discriminador. Este enfoque facilita el aprendizaje no supervisado dentro del modelo.

Las GAN exhiben paralelos con el mimetismo observado en la biología evolutiva, caracterizado por una carrera armamentista evolutiva en curso entre las dos redes constituyentes.

Definición

Formulación matemática

La Red Generativa Adversaria (GAN) original se define formalmente como el juego posterior:

Cada espacio de probabilidad, denotado como
Cada espacio de probabilidad $(\Omega ,\mu _{\text{ref}})$ , establece un juego GAN.
El juego involucra a dos participantes: un generador y un discriminador.
El conjunto de estrategias del generador se define como ${\mathcal {P}}(\Omega )$ , que abarca la colección de todas las medidas de probabilidad $\mu _{G}$ sobre el espacio $\Omega$ .
El El conjunto de estrategias del discriminador comprende la colección de núcleos de Markov. scriptlevel="0"> μ D : Ω → P [ §3031§ , §3435§ ] {\displaystyle \mu _{D}:\Omega \to {\mathcal {P}}[0,1]} . Aquí, ${\mathcal {P}}[0,1]$ denota el conjunto de medidas de probabilidad definidas en el intervalo $[0,1]$ 86§ , §8990§ ] {\displaystyle [0,1]} .
El marco GAN (Generative Adversarial Network) opera como un juego de suma cero, definido por la función objetivo: $L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$ 147§−y)].{\displaystyle L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].} Dentro de este marco, el objetivo del generador es minimizar esta función, mientras que el objetivo del discriminador es maximizarla.

El objetivo principal del generador es aproximar la distribución de referencia, expresada como $\mu _{G}\approx \mu _{\text{ref}}$ , alineando su distribución de salida con la mayor precisión posible. Por el contrario, el discriminador está diseñado para producir un valor cercano a 1 para las entradas que se originan en la distribución de referencia y un valor cercano a 0 para las entradas generadas por el generador.

En aplicaciones prácticas,

La red generativa es responsable de producir los datos de los candidatos, mientras que la red discriminativa evalúa estos candidatos. Esta interacción establece una dinámica competitiva centrada en la distribución de datos, lo que obliga al generador a aprender un mapeo desde un espacio latente hasta la distribución de datos auténtica. Su objetivo es sintetizar candidatos indistinguibles de datos reales por parte del discriminador. El papel del discriminador es clasificar con precisión a estos candidatos; sin embargo, a medida que avanza el rendimiento del generador, la tarea del discriminador se vuelve progresivamente más difícil, lo que lleva a una tasa de error elevada.

Inicialmente, se utiliza un conjunto de datos preexistente para entrenar al discriminador. Este proceso de entrenamiento implica exponer el discriminador a muestras del conjunto de datos hasta que alcance un nivel satisfactorio de precisión. El entrenamiento del generador, por el contrario, depende de su capacidad para engañar al discriminador. Normalmente, el generador recibe una entrada aleatoria, que se muestrea de un espacio latente específico, como una distribución normal multivariada. Posteriormente, el discriminador evalúa los candidatos sintetizados por el generador. Ambas redes se someten a procedimientos de retropropagación independientes, lo que permite al generador producir muestras superiores y al discriminador mejorar su competencia en la identificación de datos sintéticos. En el contexto de la generación de imágenes, el generador suele emplear una red neuronal deconvolucional, mientras que el discriminador suele utilizar una red neuronal convolucional.

Relación con otras metodologías estadísticas de aprendizaje automático

Las redes generativas adversarias (GAN) se clasifican como modelos generativos implícitos porque no modelan explícitamente la función de probabilidad ni ofrecen un mecanismo para identificar la variable latente asociada con una muestra específica, distinguiéndolas de alternativas como los modelos generativos basados en flujo.

A diferencia de las redes de creencias totalmente visibles, incluidas WaveNet y PixelRNN, y otros modelos autorregresivos, las GAN poseen la capacidad de generar una muestra completa en una sola pasada, lo que elimina la necesidad de múltiples iteraciones de red.

A diferencia de las máquinas de Boltzmann y el análisis lineal de componentes independientes (ICA), las GAN no imponen restricciones a las formas funcionales empleadas dentro de su arquitectura de red.

Dado que las redes neuronales funcionan como aproximadores universales, las GAN exhiben consistencia asintótica. Si bien los codificadores automáticos variacionales también pueden ser aproximadores universales, esta propiedad aún no se ha probado en 2017.

Propiedades matemáticas

Consideraciones teóricas de medidas

Esta sección delinea las teorías matemáticas fundamentales que sustentan estas metodologías.

Dentro de la teoría de probabilidad contemporánea, que se basa en la teoría de la medida, un espacio de probabilidad requiere la inclusión de un álgebra σ. En consecuencia, una formulación más rigurosa del juego GAN implicaría las siguientes modificaciones:

Cada espacio de probabilidad, denotado como
$(\Omega ,{\mathcal {B}},\mu _ {\text{ref}})$ , establece un juego GAN.
El conjunto de estrategias del generador se define como ${\mathcal {P}}(\Omega,{\mathcal {B}})$ , que representa la colección de todas las medidas de probabilidad $\mu _{G}$ dentro del espacio de medida $(\Omega,{\mathcal {B}})$ .
El conjunto de estrategias del discriminador comprende la colección de núcleos de Markov $\mu _{D}:(\Omega ,{\mathcal {B}})\to {\mathcal {P}}([0,1],{\mathcal {B}}([0,1]))$ 46§ , §4950§ ] , B ( [ §6566§ , §6970§ ] ) ) {\displaystyle \mu _{D}:(\Omega ,{\mathcal {B}})\to {\mathcal {P}}([0,1],{\mathcal {B}}([0,1]))} , donde ${\mathcal {B}}([0,1])$ 102§ , §105106§ ] ) {\displaystyle {\mathcal {B}}([0,1])} denota el álgebra σ de Borel en el intervalo $[0,1]$ 128§ , §131132§ ] {\displaystyle [0,1]} .

Dado que las aplicaciones prácticas normalmente no encuentran problemas de mensurabilidad, se considera innecesario seguir analizando este tema.

Selección del conjunto de estrategias

Dentro de la formulación más general del marco de la Red Generativa Adversaria (GAN), el espacio de estrategia del discriminador abarca todos los núcleos de Markov $\mu _{D}:\Omega \to {\mathcal {P}}[0,1]$ 32§,§3536§]{\displaystyle \mu _{D}:\Omega \to {\mathcal {P}}[0,1]}. Por el contrario, el conjunto de estrategias del generador comprende cualquier distribución de probabilidad arbitraria. class="MJX-TeXAtom-ORD">G{\displaystyle \mu _{G}} definido sobre $\Omega$ .

Sin embargo, como se demostrará, la estrategia óptima para el discriminador, cuando se evalúa frente a cualquier $\mu _{G}$ , resulta determinista. En consecuencia, restringir las estrategias del discriminador a funciones deterministas $D:\Omega \to [0,1]$ 42§,§4546§]{\displaystyle D:\Omega \to [0,1]} no implica ninguna pérdida de generalidad. Normalmente, en implementaciones prácticas, $D$ se realiza como una red neuronal profunda.

Con respecto al generador, aunque $\mu _{G}$ es teóricamente capaz de representar cualquier distribución de probabilidad computable; en aplicaciones prácticas, normalmente se realiza como una operación de avance: $\mu _{G}=\mu _{Z}\circ G^{-1}$ 60§{\displaystyle \mu _{G}=\mu _{Z}\circ G^{-1}}. Esto implica iniciar con una variable aleatoria $z\sim \mu _{Z}$ , donde $\mu _{Z}$ representa una distribución de probabilidad fácilmente computable (por ejemplo, uniforme o gaussiana). Posteriormente, una función $G:\Omega _{Z}\to \Omega$ está definido. La distribución resultante $\mu _{G}$ entonces corresponde a la distribución de $G(z)$ .

La estrategia del generador normalmente se define únicamente como $G$ , con $z\sim \mu _{Z}$ se entiende implícitamente. Dentro de este marco, la función objetivo para el juego GAN se expresa como: $L(G,D):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z)))].$ 139§ − D ( G ( z ) ) ) ] . {\displaystyle L(G,D):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z)))].}

Reparametrización generativa

La arquitectura GAN consta de dos componentes principales. El primero implica enmarcar la optimización como un juego, específicamente en la forma $\min _{G}\max _{D}L(G,D)$ , que difiere de la estructura de optimización convencional de $\min _{\theta }L(\theta )$ . El segundo componente es la descomposición de $\mu _{G}$ en $\mu _{Z}\circ G^{-1}$ 123§ {\displaystyle \mu _{Z}\circ G^{-1}} , que se reconoce como un truco de reparametrización.

Para apreciar plenamente su importancia, hay que contrastar las GAN con técnicas de aprendizaje de modelos generativos anteriores, que con frecuencia se veían obstaculizadas por "cálculos probabilísticos intratables que surgen con máxima probabilidad estimación y estrategias relacionadas."

Al mismo tiempo, Kingma y Welling, junto con Rezende et al., avanzaron de forma independiente el concepto de reparametrización en una metodología de retropropagación estocástica generalizada. Una de sus aplicaciones iniciales fue el codificador automático variacional.

Orden de movimientos y equilibrios estratégicos

Tanto la publicación fundacional como la mayoría de las investigaciones posteriores comúnmente postulan que el generador inicia la acción, seguido por el discriminador ejecuta su movimiento. Esta interacción secuencial establece el juego minimax posterior: $\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$

Cuando los conjuntos de estrategias tanto para el generador como para el discriminador están definidos por un número finito de estrategias, el teorema minimax dicta que $\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=\max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})$ , lo que implica que la secuencia de movimientos es intrascendente.

Sin embargo, dado que ambos conjuntos de estrategias no están abarcados de forma finita, el teorema minimax es inaplicable, lo que complica el concepto de "equilibrio". En consecuencia, surgen las siguientes definiciones distintas de equilibrio:

Equilibrio cuando el generador se mueve primero, seguido por el discriminador: ${\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),\quad$
El estado de equilibrio cuando el discriminador actúa primero, seguido por el generador, se define como: ${\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D}),$
Un equilibrio de Nash $({\hat {\mu }}_{D},{\hat {\mu }}_{G})$ , se caracteriza por su estabilidad bajo un orden de movimiento simultáneo, satisfaciendo las siguientes condiciones: ${\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D})$ .

En el contexto de la teoría general de juegos, no se garantiza que tales equilibrios existan o estén de acuerdo. Sin embargo, para el caso específico del juego Generative Adversarial Network (GAN) original, se ha demostrado que estos equilibrios existen y son equivalentes. Por el contrario, en formulaciones de juegos GAN más generalizadas, la existencia o acuerdo de estos equilibrios no está necesariamente asegurada.

Principales teoremas del juego GAN

El artículo original de GAN estableció los dos teoremas siguientes:

Capacitación y evaluación de redes generativas adversarias (GAN)

Metodología de capacitación

Desafíos en la estabilidad de la convergencia

Existe un punto de equilibrio global único dentro del juego Generative Adversarial Network (GAN) cuando tanto el generador como el discriminador poseen acceso a sus conjuntos de estrategias completos; por el contrario, este equilibrio no puede garantizarse cuando sus conjuntos de estrategias son restringidos.

En aplicaciones prácticas, el acceso del generador se limita a medidas de la forma $\mu _{Z}\circ G_{\theta }^{-1}$ 31§ {\displaystyle \mu _{Z}\circ G_{\theta }^{-1}} . Aquí, $G_{\theta }$ representa una función derivada de una red neuronal parametrizada por $\theta$ , mientras que $\mu _{Z}$ denota una distribución fácilmente muestreable, como como una distribución uniforme o normal. En consecuencia, el discriminador sólo puede acceder a funciones estructuradas como $D_{\zeta }$ , que también es una función de red neuronal definida por parámetros $\zeta$ . Estos conjuntos de estrategias restringidas constituyen una proporción cada vez más pequeña de sus respectivos conjuntos de estrategias completos.

Además, incluso si un punto de equilibrio persiste, su identificación requiere una búsqueda dentro del espacio de alta dimensión que abarca todas las funciones potenciales de la red neuronal. El enfoque convencional de emplear el descenso de gradiente para localizar este equilibrio con frecuencia resulta ineficaz para las redes generativas adversarias (GAN), lo que a menudo lleva al juego a "colapsar" en varios modos de falla. Para mejorar la estabilidad de la convergencia, ciertas metodologías de entrenamiento comienzan con una tarea más simple, como generar imágenes de baja resolución o sin complicaciones (por ejemplo, un solo objeto contra un fondo uniforme), aumentando progresivamente la complejidad de la tarea a lo largo del proceso de entrenamiento. Este enfoque implementa fundamentalmente un paradigma de aprendizaje curricular.

El fenómeno del colapso modal

Las redes generativas adversarias (GAN) con frecuencia experimentan un colapso de modo, una condición en la que no logran generalizarse de manera efectiva, omitiendo así modos completos presentes en los datos de entrada. Por ejemplo, una GAN entrenada en el conjunto de datos MNIST, que comprende numerosas muestras de cada dígito, podría producir exclusivamente imágenes del dígito 0. Este problema específico se ha denominado "el escenario Helvética".

Un mecanismo común subyacente al colapso modal implica que el generador produzca solo un subconjunto limitado de valores probables o una representación incompleta de la distribución objetivo. Dado que el entrenamiento del discriminador se centra únicamente en diferenciar entre muestras reales y sintéticas, clasifica con precisión las muestras generadas como reales. Sin embargo, este proceso no penaliza a la GAN por su incapacidad para producir datos que abarquen el espectro completo de la distribución objetivo.

Los discriminadores débiles, como aquellos que están subparametrizados o entrenados a un ritmo insuficiente en relación con el generador, también pueden resultar incapaces de distinguir completamente en todo el soporte de la distribución. En consecuencia, es posible que sólo logren una discriminación precisa para un segmento altamente incompleto de la distribución objetivo.

Algunos investigadores atribuyen el problema fundamental a una red discriminativa deficiente que pasa por alto patrones de omisión, mientras que otros sostienen que la responsable es una selección inapropiada de la función objetivo. A pesar de las numerosas soluciones propuestas, el colapso de modo sigue siendo un desafío sin resolver.

Incluso BigGAN (2019), una arquitectura de última generación, no pudo evitar el colapso de modo. Sus desarrolladores optaron por una estrategia de "permitir que se produzca el colapso en las últimas etapas del entrenamiento, momento en el que el modelo está lo suficientemente entrenado para lograr buenos resultados".

La regla de actualización de dos escalas de tiempo

La regla de actualización de dos escalas de tiempo (TTUR) se introdujo para mejorar la estabilidad de la convergencia de GAN al establecer una tasa de aprendizaje más baja para el generador en comparación con el discriminador. Los autores demuestran que cuando se entrenan en estas condiciones, las GAN "convergen, bajo suposiciones leves, hacia un equilibrio de Nash local estacionario". Además, ilustran que esta característica es aplicable al optimizador Adam, que se emplea con frecuencia en algoritmos de descenso de gradiente estocástico.

Sin embargo, es crucial reconocer que un equilibrio de Nash local no excluye inherentemente el colapso modal. Por ejemplo, una red generativa adversaria (GAN) entrenada en el conjunto de datos MNIST que colapsa para producir solo un dígito aún podría cumplir las hipótesis del artículo, a pesar de exhibir un colapso modal.

Gradiente de desaparición

Por el contrario, si el discriminador adquiere conocimiento a un ritmo excesivamente rápido en relación con el generador, el discriminador sería capaz de diferenciar casi perfectamente entre $\mu _{G_{\theta }},\mu _{\text{ref}}$ . En consecuencia, el generador $G_{\theta }$ experimentaría pérdidas persistentemente altas, independientemente de los ajustes a su $\theta$ , lo que implica que el gradiente $\nabla _{\theta }L(G_{\theta },D_{\zeta })$ se acercaría a cero. En estas circunstancias, el generador no puede aprender, un fenómeno conocido como problema del gradiente de fuga.

Conceptualmente, si el discriminador logra una competencia excesiva y debido a que el generador se ve obligado a realizar solo ajustes incrementales (como es característico del descenso de gradiente) para mejorar su rendimiento, deja de intentar una mayor optimización.

Un enfoque importante para mitigar este problema implica la implementación de Wasserstein GAN.

Evaluación

Las redes generativas adversas (GAN) generalmente se evalúan utilizando la puntuación de inicio (IS), que cuantifica la diversidad de las salidas del generador (según lo determinado por un clasificador de imágenes, comúnmente Inception-v3), o la distancia de inicio de Fréchet (FID), que evalúa la similitud entre las salidas del generador y un conjunto de datos de referencia designado (según lo categoriza un caracterizador de imágenes capacitado, por ejemplo, Inception-v3 excluyendo su capa final). Numerosas publicaciones de investigación que presentan arquitecturas GAN novedosas para la síntesis de imágenes documentan con frecuencia los avances de sus modelos más allá del rendimiento actual, medido por FID o IS.

La similitud de parches de imágenes perceptivas aprendidas (LPIPS) representa una metodología de evaluación alternativa. Este enfoque se inicia con un caracterizador de imagen previamente entrenado, denominado $f_{\theta}:{\text{Imagen}}\to \mathbb {R} ^{n}$ $(x,x',\operatorname {perceptual~difference} (x,x'))$ $x$ denota una imagen original, $x'$ representa una versión modificada de esa imagen, y $\operatorname {perceptual~difference} (x,x')$ cuantifica la disimilitud percibida entre ellos, según la evaluación de observadores humanos.El proceso de ajuste tiene como objetivo optimizar el modelo de modo que se aproxime con precisión a la relación $\|f_{\theta }(x)-f_{\theta }(x')\|\approx \operatorname {diferencia~perceptual} (x,x')$ $\operatorname {LPIPS} (x,x'):=\|f_{\theta }(x)-f_{\theta }(x')\|$

Variantes

Las redes generativas adversas (GAN) abarcan una amplia gama de variantes, con varios ejemplos destacados que se detallan a continuación.

GAN condicional

Las redes adversas generativas condicionales (GAN) amplían la funcionalidad de las GAN estándar al permitir que el modelo genere muestras dependiendo de información adicional especificada. Por ejemplo, se podría emplear una GAN condicional para generar una imagen de la cara de un gato cuando se le proporciona la imagen de un perro como entrada.

Dentro del marco de la Red Generativa Adversaria, el generador normalmente produce $\mu _{G}$ , que representa una distribución de probabilidad sobre el espacio de probabilidad $\Omega$ . Este concepto fundamental sustenta el desarrollo de GAN condicionales, donde, en lugar de generar una distribución de probabilidad única en $\Omega$ , el generador construye una distribución de probabilidad distinta $\mu _{G}(c)$ en $\Omega$ para cada etiqueta de clase especificada $c$ .

Por ejemplo, cuando se le asigna la tarea de generar imágenes características del conjunto de datos de ImageNet, el generador debe ser capaz de producir una imagen de un gato al recibir la etiqueta de clase "gato".

El artículo de investigación original destacó que el La arquitectura GAN se puede adaptar directamente a una GAN condicional proporcionando las etiquetas relevantes tanto al componente generador como al discriminador.

El marco condicional de Generative Adversarial Network (GAN) opera como una extensión del paradigma GAN estándar, incorporando etiquetas de clase.Esto se expresa formalmente mediante la siguiente función objetivo: $L(\mu _{G},D):=\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{\text{ref}}(c)}[\ln D(x,c)]+\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{G}(c)}[\ln(1-D(x,c))]$ 150§ − D ( x , c ) ) ] {\displaystyle L(\mu _{G},D):=\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{\text{ref}}(c)}[\ln D(x,c)]+\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{G}(c)}[\ln(1-D(x,c))]} Aquí, $\mu _{C}$ denota una distribución de probabilidad entre varias clases; $\mu _{\text{ref}}(c)$ representa la distribución de probabilidad de imágenes auténticas que pertenecen a la clase $c$ ; y $\mu _{G}(c)$ significa la distribución de probabilidad de las imágenes generadas por el generador condicionada a la etiqueta de clase $c$ .

En 2017, una GAN condicional demostró con éxito la capacidad de generar imágenes en 1000 clases distintas dentro del conjunto de datos de ImageNet.

Variaciones arquitectónicas en redes generativas adversarias

El marco GAN fundamental es muy versátil y admite diversas parametrizaciones tanto para el generador $G$ y el discriminador $D$ . Inicialmente, la investigación fundamental mostró su implementación utilizando redes de perceptrones multicapa y redes neuronales convolucionales. Posteriormente, se han explorado numerosas configuraciones arquitectónicas alternativas.

GAN convolucional profunda (DCGAN): Esta arquitectura emplea exclusivamente redes profundas compuestas en su totalidad por capas convolucionales y deconvolucionales tanto para el generador como para el discriminador, constituyendo efectivamente redes completamente convolucionales.

GAN de autoatención (SAGAN): Esta arquitectura extiende la GAN convolucional profunda (DCGAN) integrando módulos de autoatención estándar conectados residualmente tanto en su generador como en su discriminador.

Autocodificador variacional GAN (VAEGAN): Este modelo emplea un autocodificador variacional (VAE) dentro de su componente generativo.

Transformador GAN (TransGAN): Esta variante utiliza una arquitectura de transformador pura tanto para su generador como para su discriminador, omitiendo por completo las capas de convolución y deconvolución.

Flow-GAN: Este modelo incorpora un modelo generativo basado en flujo para su generador, lo que permite un cálculo eficiente de la función de probabilidad.

Redes generativas de confrontación con objetivos alternativos

Muchas variantes de la Red Generativa Adversaria se derivan principalmente de la alteración de las funciones de pérdida aplicadas a sus componentes generador y discriminador.

GAN original:

Para facilitar el análisis comparativo, el objetivo fundamental de la Red Generativa Adversaria (GAN) se reexpresa de la siguiente manera: ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$ 127§ − D ( x ) ) ] min G L G ( D , μ G ) = − E x ∼ μ G ⁡ [ en ⁡ ( §217218§ − D ( x ) ) ] {\displaystyle {\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}}

La función de pérdida no saturada para la Red Generativa Adversaria (GAN) original se define como:

Las implicaciones de emplear este objetivo se examinan detalladamente en la Sección 2.2.2 de Arjovsky et al.

Red Generativa Adversarial (GAN) original, formulación de máxima verosimilitud:

representa la función logística. Cuando el discriminador alcanza la optimización, el gradiente del generador se alinea con el de la estimación de máxima verosimilitud, a pesar de que una Red Generativa Adversaria (GAN) es inherentemente incapaz de realizar una estimación de máxima verosimilitud por sí misma.

Redes adversarias generativas de pérdida de bisagra (GAN): $L_{D}=-\operatorname {E} _{x\sim p_{\text{ref}}}\left[\min \left(0,-1+D(x)\right)\right]-\operatorname {E} _{x\sim \mu _{G}}\left[\min \left(0,-1-D\left(x\right)\right)\right]$

La Red Adversarial Generativa de Wasserstein (WGAN)

La Red Generativa Adversaria (GAN) de Wasserstein introduce dos modificaciones clave en el marco GAN estándar:

Específicamente, el conjunto de estrategias del discriminador comprende funciones medibles de la forma $D:\Omega \to \mathbb {R}$ , que poseen una norma de Lipschitz acotada, expresada como $\|D\|_{L}\leq K$ , donde $K$ representa una constante positiva predeterminada.
La función objetivo para WGAN se define como $L_{WGAN}(\mu _{G},D):=\operatorname {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{\text{ref}}}[D(x)]$ .

Un objetivo principal de WGAN es mitigar el problema del colapso del modo. Los autores originales afirmaron: "En ningún experimento vimos evidencia de colapso de modo para el algoritmo WGAN".

Redes generativas de confrontación con múltiples jugadores

Codificador automático adversario

Un codificador automático adversarial (AAE) funciona fundamentalmente más como un codificador automático que como una red generativa adversaria tradicional. Su principio básico implica iniciar con un codificador automático estándar y posteriormente entrenar un discriminador para distinguir los vectores latentes de una distribución de referencia específica, generalmente una distribución normal.

InfoGAN

En una GAN condicional, el generador procesa un vector de ruido $z$ y una etiqueta $c$ para sintetizar una imagen $G(z,c)$ . Por el contrario, el discriminador evalúa pares imagen-etiqueta $(x,c)$ y calcula $D(x,c)$ .

La aplicación directa de GAN condicionales no es factible cuando el conjunto de datos de entrenamiento carece de etiquetas.

El marco InfoGAN postula que cada vector latente dentro del espacio latente se puede descomponer en dos componentes distintos: $(z,c)$ . Estos constan de una parte de ruido incompresible, denominada $z$ , y una parte de etiqueta informativa, representada por $c$ . Para garantizar que el generador cumpla con esta descomposición, se recomienda explícitamente maximizar $I(c,G(z,c))$ , que significa la información mutua entre $c$ y la salida generada $G(z,c)$ . Por el contrario, no se imponen requisitos específicos a la información mutua entre $z$ y $G(z,c)$ .

Desafortunadamente, el cálculo directo de $I(c,G(z,c))$ es generalmente intratable. El principio fundamental de InfoGAN es la maximización de información mutua variacional, que implica maximizar indirectamente esta cantidad optimizando un límite inferior. Esto se expresa como: ${\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))];\quad I(c,G(z,c))\geq \sup _{Q}{\hat {I}}(G,Q)$ , donde $Q {\displaystyle Q}$ representa todos los núcleos de Markov de la forma $Q:\Omega _{Y}\to {\mathcal {P}}(\Omega _{C})$

El juego InfoGAN se define formalmente de la siguiente manera:

Un juego InfoGAN se caracteriza por tres espacios de probabilidad distintos:
$(\Omega _{X},\mu _{\text{ref}})$ , que denota el espacio de las imágenes de referencia.

$(\Omega _{Z},\mu _{Z})$ , que representa el generador de ruido aleatorio fijo.

El generador de información aleatoria fija se define como $(\Omega _{C},\mu _{C})$ .

El sistema involucra a tres participantes (un generador, Q y un discriminador) distribuidos en dos equipos, donde el generador y Q forman un equipo y el discriminador comprende el otro.
La función objetivo se define como $L(G,Q,D)=L_{GAN}(G,D)-\lambda {\hat {I}}(G,Q)$ . Aquí, $L_{GAN}(G,D)=\operatorname {E} _{x\sim \mu _{\text{ref}},}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z,c)))]$ denota la función objetivo del juego GAN original, y ${\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))]$ representa el término de información mutua.
El equipo Generator-Q se esfuerza por minimizar la función objetivo, mientras que el discriminador busca maximizarla, como lo representa la siguiente expresión: $\min _{G,Q}\max _{D}L(G,Q,D)$ .

GAN bidireccional (BiGAN)

El generador GAN convencional funciona en función del tipo $G:\Omega _{Z}\to \Omega _{X}$ , que significa un mapeo desde un espacio latente $\Omega _{Z}$ al espacio de la imagen $\Omega _{X}$ . Este proceso se puede conceptualizar como "decodificación", donde cada vector latente $z\in \Omega _{Z}$ sirve como código para una imagen $x\in \Omega _{X}$ , y el generador ejecuta esta operación de decodificación. Esta característica inherente naturalmente sugiere el desarrollo de una red adicional para "codificar", formando así un codificador automático a partir de la combinación codificador-generador.

Los autores del artículo original observaron que "la inferencia aproximada aprendida se puede realizar entrenando una red auxiliar para predecir $z$ dado $x$ ." La arquitectura GAN bidireccional implementa con precisión este concepto.

BiGAN se define formalmente de la siguiente manera:

Un juego BiGAN se caracteriza por dos espacios de probabilidad distintos:
$(\Omega _{X},\mu _{X})$ , que representa el espacio de las imágenes de referencia.

$(\Omega _{Z},\mu _{Z})$ , que denota el espacio latente.

La arquitectura BiGAN involucra tres actores distintos organizados en dos equipos: el generador, el codificador y el discriminador. El generador y el codificador forman un equipo colaborativo, mientras que el discriminador opera como el equipo opuesto.
Las estrategias operativas del generador están definidas por funciones $G:\Omega _{Z}\to \Omega _{X}$ , mientras que el Las estrategias del codificador están representadas por funciones $E:\Omega _{X}\to \Omega _{Z}$ . Además, las estrategias del discriminador se formalizan como funciones $D:\Omega _{X}\to [0,1]$ 103§ , §106107§ ] {\displaystyle D:\Omega _{X}\to [0,1]} .
La función objetivo se expresa formalmente como $L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))]$ 107§ − D ( G ( z ) , z ) ) ] {\displaystyle L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))]} .
El equipo generador-codificador se esfuerza por minimizar esta función objetivo, mientras que el discriminador busca maximizarla, como lo representa el siguiente problema de optimización: $\min _{G,E}\max _{D}L(G,E,D)$ .

The authors presented an abstract formulation of the objective function: $L(G,E,D)=\mathbb {E} _{(x,z)\sim \mu _{E,X}}[\ln D(x,z)]+\mathbb {E} _{(x,z)\sim \mu _{G,Z}}[\ln(1-D(x,z))]$ 125§ − D ( x , z ) ) ] {\displaystyle L(G,E,D)=\mathbb {E} _{(x,z)\sim \mu _{E,X}}[\ln D(x,z)]+\mathbb {E} _{(x,z)\sim \mu _{G,Z}}[\ln(1-D(x,z))]} where $\mu _{E,X}(dx,dz)=\mu _{X}(dx)\cdot \delta _{E(x)}(dz)$ represents the probability distribution over $\Omega _{X}\times \Omega _{Z}$ derived by pushing forward $\mu _{X}$ forward via $x\mapsto (x,E(x))$ , and $\mu _{G,Z}(dx,dz)=\delta _{G(z)}(dx)\cdot \mu _{Z}(dz)$ represents the probability distribution over $\Omega _{X}\times \Omega _{Z}$ derived by pushing forward $\mu _{Z}$ forward via $z\mapsto (G(x),z)$ .

Los modelos bidireccionales resultan útiles en diversas aplicaciones, como el aprendizaje semisupervisado, el aprendizaje automático interpretable y la traducción automática neuronal.

CycleGAN

CycleGAN representa un marco arquitectónico diseñado para facilitar las traducciones entre distintos dominios, ejemplificado por transformaciones entre imágenes de caballos y cebras, o entre escenas urbanas nocturnas y diurnas.

El marco operativo de CycleGAN se define formalmente mediante los siguientes parámetros:

El sistema incorpora dos espacios de probabilidad distintos,
Hay dos espacios de probabilidad $(\Omega _{X},\mu _{X}),(\Omega _{Y},\mu _{Y})$ , que representan los dos dominios esenciales para las traducciones bidireccionales.
El sistema consta de cuatro participantes organizados en dos equipos: generadores, denotados como $G_{X}:\Omega _{X}\to \Omega _{Y},G_{Y}:\Omega _{Y}\to \Omega _{X}$ y discriminadores, representados por $D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1]$ 109§ , §112113§ ] , D Y : Ω Y → [ §142143§ , §146147§ ] {\displaystyle D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1]} .
La función objetivo se formula como: $L(G_{X},G_{Y},D_{X},D_{Y})=L_{GAN}(G_{X},D_{X})+L_{GAN}(G_{Y},D_{Y})+\lambda L_{cycle}(G_{X},G_{Y})$

dónde $\lambda$ representa un parámetro positivo y ajustable; $L_{GAN}$ denota el objetivo del juego Generative Adversarial Network (GAN); y $L_{cycle}$ representa la consistencia del ciclo pérdida, definida de la siguiente manera: $L_{cycle}(G_{X},G_{Y})=E_{x\sim \mu _{X}}\|G_{X}(G_{Y}(x))-x\|+E_{y\sim \mu _{Y}}\|G_{Y}(G_{X}(y))-y\|$

A diferencia de metodologías anteriores como pix2pix, que requieren datos de entrenamiento emparejados, CycleGAN funciona de manera efectiva sin tal requisito. Por ejemplo, entrenar un modelo pix2pix para transformar una fotografía de un paisaje de verano en una fotografía de un paisaje de invierno, y viceversa, exigiría un conjunto de datos que comprenda imágenes emparejadas de la misma ubicación capturadas durante el verano y el invierno, desde el mismo punto de vista; por el contrario, CycleGAN simplemente requiere una colección de fotografías de paisajes de verano y una colección distinta y no relacionada de fotografías de paisajes de invierno.

Redes generativas de confrontación (GAN) que exhiben escalas operativas notablemente grandes o pequeñas.

BigGAN

BigGAN constituye fundamentalmente una Red Generativa Adversaria (GAN) de autoatención entrenada extensivamente, utilizando hasta 80 millones de parámetros, para la generación de imágenes ImageNet de alta resolución (hasta 512 x 512 píxeles), incorporando varias optimizaciones de ingeniería para facilitar su convergencia.

Aumento de datos invertible

En escenarios caracterizados por datos de entrenamiento insuficientes, la distribución de referencia $\mu _{\text{ref}}$ no puede ser aproximado con precisión por la distribución empírica derivada del conjunto de datos de entrenamiento disponible. En estas circunstancias, se pueden emplear técnicas de aumento de datos para permitir el entrenamiento de Redes Generativas Adversarias (GAN) utilizando conjuntos de datos más limitados. Sin embargo, una aplicación simplista del aumento de datos presenta desafíos inherentes.

El resultado de dicha capacitación sería un generador capaz de imitar $\mu _{\text{ref}}'$ . Por ejemplo, si el proceso de aumento de datos incorpora un recorte aleatorio, el generador produciría imágenes que exhiban características consistentes con el recorte aleatorio.

La solución propuesta implica aplicar aumento de datos a imágenes generadas y auténticas: ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}}[\ln D(T(x))]-\operatorname {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x)))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x)))]\end{cases}}$

El documento StyleGAN-2-ADA destaca un aspecto crítico adicional del aumento de datos: su requisito de ser invertible. Para ilustrar esto, considere la tarea de generar imágenes ImageNet. Si el aumento de datos implica "rotar aleatoriamente la imagen 0, 90, 180 o 270 grados con igual probabilidad", el generador no puede discernir la orientación original. Por ejemplo, considere dos generadores, $G,G'$ , donde para cualquier vector latente dado $z$ , la imagen producida por $G(z)$ es una rotación de 90 grados de la imagen generada por $G'(z)$ . En tal escenario, ambos generadores exhibirían valores de pérdida esperados idénticos, por lo que ninguno de los dos sería preferible.

La solución propuesta implica emplear exclusivamente técnicas de aumento de datos reversibles. En lugar de "rotar aleatoriamente la imagen 0, 90, 180 o 270 grados con igual probabilidad", un enfoque más eficaz es "rotar aleatoriamente la imagen 90, 180 o 270 grados con una probabilidad de 0,1 cada uno, manteniendo al mismo tiempo la orientación original con una probabilidad de 0,7". Esta metodología garantiza que el generador tenga incentivos para mantener la orientación original de las imágenes, de forma coherente con el conjunto de datos ImageNet no aumentado.

Desde una perspectiva abstracta, el muestreo aleatorio de transformaciones $T:\Omega \to \Omega$ , extraído de la distribución $\mu _{\text{trans}}$ , establece un núcleo de Markov $K_{\text{trans}}:\Omega \to {\mathcal {P}}(\Omega )$ .

Existen dos ejemplos arquetípicos de núcleos de Markov invertibles.

Caso discreto: esta categoría incluye matrices estocásticas invertibles, particularmente cuando $\Omega$

Por ejemplo, si $\Omega =\{\uparrow ,\downarrow ,\leftarrow ,\rightarrow \}$

Para el caso continuo, el núcleo gaussiano se emplea cuando $\Omega =\mathbb {R} ^{n}$

Considere un ejemplo ilustrativo donde $\Omega =\mathbb {R} ^{256^{2}}$ representa el espacio de imágenes de 256x256. Si la técnica de aumento de datos elegida implica generar ruido gaussiano $z\sim {\mathcal {N}}(0,I_{256^{2}})$ 55§,I256§66 $\Omega =\mathbb {R} ^{256^{2}}$ ){\displaystyle z\sim {\mathcal {N}}(0,I_{256^{2}})} y posteriormente agregando $\epsilon z$ a cada imagen, luego el núcleo de transformación $K_{\text{trans}}$ corresponde a una convolución con la función de densidad de probabilidad de ${\mathcal {N}}(0,\epsilon ^{2}I_{256^{2}})$ 138§,ϵ§146 $\Omega =\mathbb {R} ^{256^{2}}$ I256§158 $\Omega =\mathbb {R} ^{256^{2}}$ ){\displaystyle {\mathcal {N}}(0,\epsilon ^{2}I_{256^{2}})}. Esta operación es invertible porque la convolución gaussiana es matemáticamente equivalente a la convolución por núcleo de calor.En consecuencia, para cualquier distribución dada $\mu \in {\mathcal {P}}(\mathbb {R} ^{n})$ , la distribución convolucionada resultante $K_{\text{trans}}*\mu$ se puede conceptualizar como calentar el espacio $\mathbb {R} ^{n}$ precisamente de acuerdo con $\mu$ y luego permitir que evolucione durante una duración de $\epsilon ^{2}/4$ . En consecuencia, la distribución original $\mu$ se puede recuperar resolviendo la ecuación del calor hacia atrás en el tiempo durante el mismo período, $\epsilon ^{2}/4$ .

En la publicación a la que se hace referencia se detallan ejemplos adicionales de técnicas de aumento de datos reversibles.

SinGAN

SinGAN representa una aplicación extrema de aumento de datos, utilizando solo una imagen singular para el entrenamiento y posteriormente realizando el aumento directamente en esta imagen. La arquitectura Generative Adversarial Network (GAN) está diseñada específicamente para esta metodología de capacitación mediante la implementación de un proceso de múltiples escalas.

El generador $G$ está estructurado como una pirámide jerárquica de generadores, representada por $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ 31§ ∘ G §41 $G$ ∘ ⋯ ∘ G N {\displaystyle G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}} . El generador de nivel más bajo produce una imagen $G_{N}(z_{N})$ en la resolución más gruesa. Luego, esta imagen generada se actualiza a $r(G_{N}(z_{N}))$ y posteriormente se proporciona como entrada para el nivel posterior, que genera una imagen $G_{N-1}(z_{N-1}+r(G_{N}(z_{N})))$ 160§ ( z N − §174175§ + r ( G N ( z N ) ) ) {\displaystyle G_{N-1}(z_{N-1}+r(G_{N}(z_{N})))} en una resolución más fina, continuando este proceso de forma iterativa. De manera similar, el discriminador también está estructurado como una descomposición piramidal.

Serie StyleGAN

La familia StyleGAN abarca una colección de diseños arquitectónicos desarrollados y publicados por la división de investigación de Nvidia.

GAN progresiva

Progressive GAN ofrece una metodología para el entrenamiento estable de GAN para la generación de imágenes a gran escala. Esto se logra expandiendo progresivamente el generador GAN desde una resolución baja a una alta de forma piramidal. De manera análoga a SinGAN, descompone el generador como $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ 15§ ∘ G §25 $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ ∘ ⋯ ∘ G N {\displaystyle G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}} , y de manera similar, el discriminador como $D=D_{1}\circ D_{2}\circ \cdots \circ D_{N}$ 69§ ∘ D §79 $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ ∘ ⋯ ∘ D N {\displaystyle D=D_{1}\circ D_{2}\circ \cdots \circ D_{N}} .

Durante la fase inicial de capacitación, solo los componentes $G_{N},D_{N}$ se emplean dentro de un marco GAN para producir imágenes 4x4. Posteriormente, $G_{N-1},D_{N-1}$ 48§,DN−§6263§{\displaystyle G_{N-1},D_{N-1}} se incorporan progresivamente, avanzando la GAN a su segunda etapa para generar imágenes de 8x8. Este proceso iterativo continúa hasta que la GAN es capaz de generar imágenes de 1024 x 1024.

Para mitigar las transiciones abruptas entre las etapas sucesivas del proceso GAN, cada capa recién introducida se "mezcla" gradualmente, como se ilustra en la Figura 2 de la publicación a la que se hace referencia. Por ejemplo, el inicio del proceso GAN de segunda etapa se realiza de la siguiente manera:

Anteriormente, la operación GAN estaba definida por el par $G_{N},D_{N}$ , que se encargaba de generar y discriminar imágenes 4x4.
Posteriormente, el proceso GAN pasa a emplear el par $((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1})$ 11§−α)+α⋅GN−§3738§)∘u∘GN,DN∘d∘((§8182§−α)+α⋅DN−§108109§){\displaystyle ((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1})} para generar y discriminar imágenes de 8x8. En este contexto, las funciones $u,d$ representan operaciones de muestreo ascendente y descendente de imágenes, respectivamente. El parámetro $\alpha$ funciona como un factor de fusión, análogo a un canal alfa en la composición de imágenes, que cambia suavemente su valor de 0 a 1.

StyleGAN-1

StyleGAN-1 integra elementos de Progressive GAN con metodologías de transferencia de estilo neuronal.

Una característica arquitectónica fundamental de StyleGAN-1 es su mecanismo de crecimiento progresivo, que refleja el de Progressive GAN. Cada imagen generada se inicia como una constante $4\times 4\times 512$ , sometiéndose posteriormente a un procesamiento iterativo a través de bloques de estilo. Dentro de cada bloque de estilo, se aplica un "vector latente de estilo" mediante una transformación afín, específicamente "normalización de instancia adaptativa", una técnica análoga a la aplicación de la matriz de Gramian en la transferencia de estilo neuronal. Después de esto, se introduce ruido y los datos se normalizan restando la media y dividiéndolos por la varianza.

Durante la fase de entrenamiento, normalmente se emplea un vector latente de estilo único para cada imagen generada; sin embargo, ocasionalmente se utilizan dos vectores (lo que se denomina "regularización mixta"). Esta práctica tiene como objetivo promover la estilización independiente de cada bloque de estilo, evitando la dependencia de otros bloques que podrían recibir vectores latentes de estilo distintos.

Después del entrenamiento, se pueden suministrar múltiples vectores latentes de estilo a bloques de estilo individuales. Los vectores dirigidos a capas inferiores gobiernan atributos estilísticos a gran escala, mientras que los dirigidos a capas superiores gestionan elementos estilísticos con detalles finos.

La mezcla de estilos también se puede ejecutar entre dos imágenes, $x,x'$ . Inicialmente, se emplea un algoritmo de descenso de gradiente para determinar $z,z'$ tal que $G(z)\approx x,G(z')\approx x'$ . Este proceso se denomina "proyectar una imagen al espacio latente de estilo". Posteriormente, $z$ se puede ingresar en los bloques de estilo inferiores, y $z'$ en los bloques de estilo superiores. Esto genera una imagen compuesta que incorpora el estilo a gran escala de $x$ y el estilo de detalle fino de $x'$ . Esta metodología también se puede ampliar para componer varias imágenes.

StyleGAN-2

StyleGAN-2 representa un avance sobre StyleGAN-1, principalmente al emplear el vector latente de estilo para transformar directamente los pesos de las capas convolucionales, mitigando así el problema de los artefactos "blob".

Este modelo fue actualizado posteriormente por StyleGAN-2-ADA, donde "ADA" denota "adaptativo". Esta iteración incorpora aumento de datos reversible, como se detalló anteriormente. Además, ajusta dinámicamente el alcance del aumento de datos, comenzando desde cero y aumentando progresivamente hasta que una "heurística de sobreajuste" alcanza un nivel objetivo predefinido, de ahí su designación como "adaptativa".

StyleGAN-3

StyleGAN-3 mejora StyleGAN-2 al resolver el fenómeno de "textura pegada", que se observa en demostraciones oficiales. Los investigadores analizaron esta cuestión a través del lente del teorema de muestreo de Nyquist-Shannon, postulando que las capas del generador habían aprendido a explotar señales de alta frecuencia dentro de los píxeles que procesaban.

Para abordar esto, se propuso una metodología que implica la imposición de estrictos filtros de paso bajo entre cada capa del generador. Este enfoque obliga al generador a procesar píxeles de manera coherente con sus señales continuas subyacentes, en lugar de tratarlos únicamente como entidades discretas. Además, se impuso la invariancia rotacional y traslacional mediante la aplicación de filtros de señal suplementarios. En consecuencia, StyleGAN-3 mitiga efectivamente el problema de adherencia de texturas y produce imágenes que exhiben una rotación y traducción suaves.

Aplicaciones alternativas

Más allá de sus funciones principales en el modelado de datos generativos y discriminativos, las redes generativas adversarias (GAN) han encontrado utilidad en diversas aplicaciones.

Las GAN se han empleado en el aprendizaje por transferencia para facilitar la alineación de espacios de características latentes, particularmente dentro de contextos de aprendizaje por refuerzo profundo. Esto se logra ingresando las incorporaciones de las tareas de origen y de destino en el discriminador, que intenta inferir el contexto. La pérdida posterior se propaga inversamente a través del codificador.

Aplicaciones

Dominios científicos

Reconstrucción iterativa de imágenes astronómicas.
Simulación de lentes gravitacionales para investigaciones sobre la materia oscura.
Estos modelos pueden delinear la distribución de la materia oscura en direcciones espaciales específicas y pronosticar los fenómenos de lentes gravitacionales asociados.
También se emplean para modelar la formación de chorros de alta energía y las lluvias posteriores dentro de calorímetros utilizados en experimentos de física de alta energía.
Las GAN pueden aproximarse a los cuellos de botella en simulaciones computacionalmente intensivas pertinentes a experimentos de física de partículas. Su aplicación en experimentos actuales y futuros del CERN ha demostrado su capacidad para acelerar las simulaciones y mejorar su fidelidad.
Además, las GAN facilitan la reconstrucción de campos escalares y de velocidad dentro de sistemas de flujo turbulento.

Las moléculas sintetizadas mediante GAN se han sometido a una validación experimental en modelos murinos.

Aplicaciones médicas

La privacidad del paciente constituye una preocupación importante en el ámbito de las imágenes médicas, y con frecuencia impide el acceso de los investigadores a conjuntos de datos relevantes. Se han utilizado redes generativas adversarias (GAN) para mitigar este problema mediante la síntesis de imágenes médicas, incluidas resonancias magnéticas y exploraciones PET.

Las GAN pueden ayudar en la detección de imágenes glaucomatosas, apoyando así el diagnóstico temprano, que es fundamental para prevenir la pérdida parcial o completa de la visión.

Además, las GAN se han empleado para reconstrucciones faciales forenses de personajes históricos fallecidos.

Aplicaciones maliciosas

Han surgido preocupaciones con respecto al potencial de que la síntesis de imágenes humanas basada en GAN sea explotada para objetivos nefastos, como generar fotografías y videos inventados y potencialmente incriminatorios. Además, las GAN pueden producir imágenes de perfil fotorrealistas distintivas de individuos inexistentes, lo que permite la creación automatizada de perfiles de redes sociales fraudulentos.

En 2019, el estado de California promulgó dos leyes importantes: el Proyecto de Ley de la Asamblea (AB) 602, que prohíbe el uso de tecnologías de síntesis de imágenes humanas para crear pornografía fabricada no consensuada, y el AB 730, que prohíbe la difusión de videos manipulados que presenten candidatos políticos dentro de los 60 días posteriores a una elección. Ambos proyectos de ley, escritos por el asambleísta Marc Berman y firmados por el gobernador Gavin Newsom el 3 de octubre de 2019, entraron en vigor en 2020.

El programa Media Forensics de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) investiga metodologías para contrarrestar los medios fabricados, incluido específicamente el contenido generado a través de GAN.

Aplicaciones en moda, arte y publicidad

Las GAN son capaces de generar creaciones artísticas; The Verge señaló en marzo de 2019 que "las imágenes creadas por GAN se han convertido en la apariencia definitoria del arte contemporáneo de IA". Además, las GAN se pueden emplear para:

fotografías pintadas,
genera modelos de moda, sombras y representaciones fotorrealistas de diseño de interiores, diseño industrial y calzado, entre otros elementos. Según se informa, estas redes han sido utilizadas por Facebook.

Los investigadores han explorado la aplicación de GAN para la creatividad artística, a veces denominadas "redes creativas de confrontación". Por ejemplo, una GAN entrenada en 15.000 retratos de WikiArt que abarcan los siglos XIV al XIX produjo la pintura de 2018 Edmond de Belamy, que posteriormente se vendió por 432.500 dólares.

Dentro de la comunidad de modificación de videojuegos, las GAN se han aprovechado para mejorar las texturas 2D de baja resolución en videojuegos heredados. Este proceso implica recrear texturas en resoluciones 4K o superiores mediante entrenamiento de imágenes, seguido de un muestreo descendente para alinearlas con la resolución nativa del juego, imitando así el anti-aliasing de supermuestreo.

En 2020, Artbreeder trabajó en la creación del antagonista principal de la secuela de la serie de terror web psicológico Ben Drowned. Posteriormente, el autor elogió las aplicaciones GAN por su utilidad para generar activos para artistas independientes que operan con presupuestos y personal limitados.

En mayo de 2020, investigadores de Nvidia desarrollaron un sistema de inteligencia artificial, denominado "GameGAN", capaz de recrear el juego Pac-Man únicamente mediante la observación del juego.

En agosto de 2019, se compiló un conjunto de datos sustancial que comprende 12,197 canciones MIDI, cada una con letras y melodías alineadas, para facilitar la generación de melodías neuronales a partir de letras utilizando arquitecturas GAN-LSTM condicionales.

Aplicaciones varias

Las GAN se han aplicado a:

demostrar posibles cambios relacionados con la edad en la apariencia de un individuo,
reconstruir modelos de objetos tridimensionales a partir de imágenes,
generar objetos novedosos representados como nubes de puntos 3D,
modelar patrones de movimiento dentro de secuencias de vídeo,
pintar elementos ausentes en mapas, transferir estilos cartográficos o aumentar las imágenes de Street View
Utilizar mecanismos de retroalimentación para la generación de imágenes y potencialmente reemplazar los sistemas tradicionales de búsqueda de imágenes.
visualizar el impacto proyectado del cambio climático en estructuras residenciales particulares,
reconstruir una imagen facial de un individuo en función de sus características vocales.
Este sistema genera videos de un individuo hablando, requiriendo solo una única entrada fotográfica de esa persona.
Generación de secuencia recurrente.

Historial

En 1991, Juergen Schmidhuber introdujo la "curiosidad artificial", un marco que emplea redes neuronales dentro de un juego de suma cero. Esta configuración implica una red primaria que funciona como un modelo generativo, que establece una distribución de probabilidad sobre patrones de producción potenciales. Luego, una red secundaria utiliza el descenso de gradiente para pronosticar las respuestas ambientales a estos patrones. Las redes generativas adversarias (GAN) se pueden conceptualizar como un caso en el que la reacción ambiental es binaria (1 o 0), dependiendo de si la salida de la red inicial pertenece a un conjunto predefinido.

Otros investigadores concibieron conceptos similares, aunque sus trayectorias de desarrollo divergieron. Una noción temprana que involucra redes adversarias fue articulada en una publicación de blog de 2010 de Olli Niemitalo. Este concepto en particular nunca se implementó y carecía de estocasticidad en su generador, lo que impidió su clasificación como modelo generativo. Ahora se reconoce como una GAN condicional o cGAN. Además, Wei Li, Melvin Gauci y Roderich Gross aplicaron un enfoque similar a GAN para modelar el comportamiento animal en 2013.

La estimación de contraste de ruido sirvió como otra inspiración fundamental para las GAN, empleando una función de pérdida idéntica. Goodfellow investigó esta técnica durante sus estudios de doctorado de 2010 a 2014.

El aprendizaje automático adversario se extiende más allá del modelado generativo y encuentra aplicaciones en varios modelos más allá de las redes neuronales. En el ámbito de la teoría del control, en 2006 se empleó el aprendizaje adversario basado en redes neuronales para entrenar controladores robustos dentro de un marco de teoría de juegos. Esto implicó alternar iteraciones entre una política minimizadora (el controlador) y una política maximizadora (la perturbación).

En 2017, se utilizó una GAN para mejorar la imagen, priorizando texturas realistas sobre la precisión a nivel de píxeles, lo que resultó en una calidad de imagen superior con gran aumento. El mismo año marcó la generación de los primeros rostros humanos sintéticos, que posteriormente se exhibieron en el Grand Palais en febrero de 2018. Los rostros producidos por StyleGAN en 2019 generaron comparaciones con Deepfakes.

Arte de inteligencia artificial

Arte de inteligencia artificial
Deepfake: contenido multimedia generado de forma realista mediante inteligencia artificial.
Aprendizaje profundo: un subcampo especializado dentro del aprendizaje automático.
Modelo de difusión: un método computacional para el modelado generativo de distribuciones de probabilidad continuas.
Inteligencia artificial generativa: un subconjunto de inteligencia artificial que emplea modelos generativos.Páginas que muestran descripciones breves de los objetivos de redireccionamiento
Medios sintéticos: la creación automatizada de contenido multimedia a través de medios artificiales.

Referencias

Caballero, Will. "Cinco grandes predicciones para la inteligencia artificial en 2017". Revisión de tecnología del MIT. Recuperado el 5 de enero de 2017.

Caballero, Will. "Cinco grandes predicciones para la inteligencia artificial en 2017". Revisión de tecnología del MIT. Consultado el 5 de enero de 2017.Karras, Tero; Laine, Samuli; Aila, Timo (2018). "Una arquitectura generadora basada en estilos para redes generativas adversarias". arXiv:1812.04948 [cs.NE].Wang, Zhengwei; Ella, Qi; Ward, Tomás E. (2019). "Redes generativas adversarias en visión por computadora: una encuesta y taxonomía". arXiv:1906.01529 [cs.LG].Fuente: Archivo de la Academia TORIma

Red adversarial generativa (Generative adversarial network)