Una red generativa adversarial (GAN) representa una categoría de marcos de aprendizaje automático y se erige como un enfoque importante dentro de la inteligencia artificial generativa. Este concepto fue concebido originalmente por Ian Goodfellow y sus colaboradores en junio de 2014. Dentro de una GAN, dos redes neuronales distintas participan en una interacción competitiva, estructurada como un juego de suma cero donde la ventaja obtenida por un agente corresponde directamente a una pérdida sufrida por el otro.
Una red generativa adversarial (GAN) es una clase de marcos de aprendizaje automático y un marco destacado para abordar la inteligencia artificial generativa. El concepto fue desarrollado inicialmente por Ian Goodfellow y sus colegas en junio de 2014. En una GAN, dos redes neuronales compiten entre sí en forma de un juego de suma cero, donde la ganancia de un agente es la pérdida de otro.
Cuando se le proporciona un conjunto de datos de entrenamiento, esta metodología adquiere la capacidad de producir datos novedosos que exhiben propiedades estadísticas idénticas a las del conjunto de entrenamiento original. Por ejemplo, una GAN entrenada con imágenes fotográficas puede sintetizar nuevas fotografías que parecen al menos superficialmente auténticas para la percepción humana y poseen numerosos atributos realistas. Si bien inicialmente se conceptualizaron como un modelo generativo principalmente para el aprendizaje no supervisado, las GAN han demostrado posteriormente su utilidad en paradigmas de aprendizaje semisupervisado, aprendizaje totalmente supervisado y aprendizaje por refuerzo.
El principio fundamental de una GAN se basa en un mecanismo de entrenamiento "indirecto", facilitado por un discriminador: una red neuronal adicional capaz de evaluar el "realismo" percibido de la entrada, que se somete a actualizaciones dinámicas. En consecuencia, el objetivo del generador no es minimizar su divergencia con respecto a una imagen particular, sino engañar al discriminador. Este enfoque facilita el aprendizaje no supervisado dentro del modelo.
Las GAN exhiben paralelos con el mimetismo observado en la biología evolutiva, caracterizado por una carrera armamentista evolutiva en curso entre las dos redes constituyentes.
Definición
Formulación matemática
La Red Generativa Adversaria (GAN) original se define formalmente como el juego posterior:
Cada espacio de probabilidad, denotado comoCada espacio de probabilidad , establece un juego GAN.
El juego involucra a dos participantes: un generador y un discriminador.
El conjunto de estrategias del generador se define como , que abarca la colección de todas las medidas de probabilidad sobre el espacio .
El El conjunto de estrategias del discriminador comprende la colección de núcleos de Markov. scriptlevel="0">
: μ D Ω → [ P §3031§ , {\displaystyle \mu _{D}:\Omega \to {\mathcal {P}}[0,1]}§3435§ ] . Aquí, denota el conjunto de medidas de probabilidad definidas en el intervalo . El marco GAN (Generative Adversarial Network) opera como un juego de suma cero, definido por la función objetivo: Dentro de este marco, el objetivo del generador es minimizar esta función, mientras que el objetivo del discriminador es maximizarla.
El objetivo principal del generador es aproximar la distribución de referencia, expresada como , alineando su distribución de salida con la mayor precisión posible. Por el contrario, el discriminador está diseñado para producir un valor cercano a 1 para las entradas que se originan en la distribución de referencia y un valor cercano a 0 para las entradas generadas por el generador.
En aplicaciones prácticas,
La red generativa es responsable de producir los datos de los candidatos, mientras que la red discriminativa evalúa estos candidatos. Esta interacción establece una dinámica competitiva centrada en la distribución de datos, lo que obliga al generador a aprender un mapeo desde un espacio latente hasta la distribución de datos auténtica. Su objetivo es sintetizar candidatos indistinguibles de datos reales por parte del discriminador. El papel del discriminador es clasificar con precisión a estos candidatos; sin embargo, a medida que avanza el rendimiento del generador, la tarea del discriminador se vuelve progresivamente más difícil, lo que lleva a una tasa de error elevada.
Inicialmente, se utiliza un conjunto de datos preexistente para entrenar al discriminador. Este proceso de entrenamiento implica exponer el discriminador a muestras del conjunto de datos hasta que alcance un nivel satisfactorio de precisión. El entrenamiento del generador, por el contrario, depende de su capacidad para engañar al discriminador. Normalmente, el generador recibe una entrada aleatoria, que se muestrea de un espacio latente específico, como una distribución normal multivariada. Posteriormente, el discriminador evalúa los candidatos sintetizados por el generador. Ambas redes se someten a procedimientos de retropropagación independientes, lo que permite al generador producir muestras superiores y al discriminador mejorar su competencia en la identificación de datos sintéticos. En el contexto de la generación de imágenes, el generador suele emplear una red neuronal deconvolucional, mientras que el discriminador suele utilizar una red neuronal convolucional.
Relación con otras metodologías estadísticas de aprendizaje automático
Las redes generativas adversarias (GAN) se clasifican como modelos generativos implícitos porque no modelan explícitamente la función de probabilidad ni ofrecen un mecanismo para identificar la variable latente asociada con una muestra específica, distinguiéndolas de alternativas como los modelos generativos basados en flujo.
A diferencia de las redes de creencias totalmente visibles, incluidas WaveNet y PixelRNN, y otros modelos autorregresivos, las GAN poseen la capacidad de generar una muestra completa en una sola pasada, lo que elimina la necesidad de múltiples iteraciones de red.
A diferencia de las máquinas de Boltzmann y el análisis lineal de componentes independientes (ICA), las GAN no imponen restricciones a las formas funcionales empleadas dentro de su arquitectura de red.
Dado que las redes neuronales funcionan como aproximadores universales, las GAN exhiben consistencia asintótica. Si bien los codificadores automáticos variacionales también pueden ser aproximadores universales, esta propiedad aún no se ha probado en 2017.
Propiedades matemáticas
Consideraciones teóricas de medidas
Esta sección delinea las teorías matemáticas fundamentales que sustentan estas metodologías.
Dentro de la teoría de probabilidad contemporánea, que se basa en la teoría de la medida, un espacio de probabilidad requiere la inclusión de un álgebra σ. En consecuencia, una formulación más rigurosa del juego GAN implicaría las siguientes modificaciones:
Cada espacio de probabilidad, denotado como, establece un juego GAN.
El conjunto de estrategias del generador se define como , que representa la colección de todas las medidas de probabilidad dentro del espacio de medida .
El conjunto de estrategias del discriminador comprende la colección de núcleos de Markov , donde denota el álgebra σ de Borel en el intervalo .
Dado que las aplicaciones prácticas normalmente no encuentran problemas de mensurabilidad, se considera innecesario seguir analizando este tema.
Selección del conjunto de estrategias
Dentro de la formulación más general del marco de la Red Generativa Adversaria (GAN), el espacio de estrategia del discriminador abarca todos los núcleos de Markov . Por el contrario, el conjunto de estrategias del generador comprende cualquier distribución de probabilidad arbitraria. class="MJX-TeXAtom-ORD">
Sin embargo, como se demostrará, la estrategia óptima para el discriminador, cuando se evalúa frente a cualquier , resulta determinista. En consecuencia, restringir las estrategias del discriminador a funciones deterministas no implica ninguna pérdida de generalidad. Normalmente, en implementaciones prácticas, se realiza como una red neuronal profunda.
Con respecto al generador, aunque es teóricamente capaz de representar cualquier distribución de probabilidad computable; en aplicaciones prácticas, normalmente se realiza como una operación de avance: . Esto implica iniciar con una variable aleatoria , donde representa una distribución de probabilidad fácilmente computable (por ejemplo, uniforme o gaussiana). Posteriormente, una función está definido. La distribución resultante entonces corresponde a la distribución de .
La estrategia del generador normalmente se define únicamente como , con se entiende implícitamente. Dentro de este marco, la función objetivo para el juego GAN se expresa como:
Reparametrización generativa
La arquitectura GAN consta de dos componentes principales. El primero implica enmarcar la optimización como un juego, específicamente en la forma , que difiere de la estructura de optimización convencional de . El segundo componente es la descomposición de en , que se reconoce como un truco de reparametrización.
Para apreciar plenamente su importancia, hay que contrastar las GAN con técnicas de aprendizaje de modelos generativos anteriores, que con frecuencia se veían obstaculizadas por "cálculos probabilísticos intratables que surgen con máxima probabilidad estimación y estrategias relacionadas."
Al mismo tiempo, Kingma y Welling, junto con Rezende et al., avanzaron de forma independiente el concepto de reparametrización en una metodología de retropropagación estocástica generalizada. Una de sus aplicaciones iniciales fue el codificador automático variacional.
Orden de movimientos y equilibrios estratégicos
Tanto la publicación fundacional como la mayoría de las investigaciones posteriores comúnmente postulan que el generador inicia la acción, seguido por el discriminador ejecuta su movimiento. Esta interacción secuencial establece el juego minimax posterior:
Cuando los conjuntos de estrategias tanto para el generador como para el discriminador están definidos por un número finito de estrategias, el teorema minimax dicta que, lo que implica que la secuencia de movimientos es intrascendente.
Sin embargo, dado que ambos conjuntos de estrategias no están abarcados de forma finita, el teorema minimax es inaplicable, lo que complica el concepto de "equilibrio". En consecuencia, surgen las siguientes definiciones distintas de equilibrio:
- Equilibrio cuando el generador se mueve primero, seguido por el discriminador:
- El estado de equilibrio cuando el discriminador actúa primero, seguido por el generador, se define como:
- Un equilibrio de Nash , se caracteriza por su estabilidad bajo un orden de movimiento simultáneo, satisfaciendo las siguientes condiciones: .
En el contexto de la teoría general de juegos, no se garantiza que tales equilibrios existan o estén de acuerdo. Sin embargo, para el caso específico del juego Generative Adversarial Network (GAN) original, se ha demostrado que estos equilibrios existen y son equivalentes. Por el contrario, en formulaciones de juegos GAN más generalizadas, la existencia o acuerdo de estos equilibrios no está necesariamente asegurada.
Principales teoremas del juego GAN
El artículo original de GAN estableció los dos teoremas siguientes:
D
Capacitación y evaluación de redes generativas adversarias (GAN)
Metodología de capacitación
Desafíos en la estabilidad de la convergencia
Existe un punto de equilibrio global único dentro del juego Generative Adversarial Network (GAN) cuando tanto el generador como el discriminador poseen acceso a sus conjuntos de estrategias completos; por el contrario, este equilibrio no puede garantizarse cuando sus conjuntos de estrategias son restringidos.
En aplicaciones prácticas, el acceso del generador se limita a medidas de la forma . Aquí, representa una función derivada de una red neuronal parametrizada por , mientras que denota una distribución fácilmente muestreable, como como una distribución uniforme o normal. En consecuencia, el discriminador sólo puede acceder a funciones estructuradas como , que también es una función de red neuronal definida por parámetros . Estos conjuntos de estrategias restringidas constituyen una proporción cada vez más pequeña de sus respectivos conjuntos de estrategias completos.
Además, incluso si un punto de equilibrio persiste, su identificación requiere una búsqueda dentro del espacio de alta dimensión que abarca todas las funciones potenciales de la red neuronal. El enfoque convencional de emplear el descenso de gradiente para localizar este equilibrio con frecuencia resulta ineficaz para las redes generativas adversarias (GAN), lo que a menudo lleva al juego a "colapsar" en varios modos de falla. Para mejorar la estabilidad de la convergencia, ciertas metodologías de entrenamiento comienzan con una tarea más simple, como generar imágenes de baja resolución o sin complicaciones (por ejemplo, un solo objeto contra un fondo uniforme), aumentando progresivamente la complejidad de la tarea a lo largo del proceso de entrenamiento. Este enfoque implementa fundamentalmente un paradigma de aprendizaje curricular.
El fenómeno del colapso modal
Las redes generativas adversarias (GAN) con frecuencia experimentan un colapso de modo, una condición en la que no logran generalizarse de manera efectiva, omitiendo así modos completos presentes en los datos de entrada. Por ejemplo, una GAN entrenada en el conjunto de datos MNIST, que comprende numerosas muestras de cada dígito, podría producir exclusivamente imágenes del dígito 0. Este problema específico se ha denominado "el escenario Helvética".
Un mecanismo común subyacente al colapso modal implica que el generador produzca solo un subconjunto limitado de valores probables o una representación incompleta de la distribución objetivo. Dado que el entrenamiento del discriminador se centra únicamente en diferenciar entre muestras reales y sintéticas, clasifica con precisión las muestras generadas como reales. Sin embargo, este proceso no penaliza a la GAN por su incapacidad para producir datos que abarquen el espectro completo de la distribución objetivo.
Los discriminadores débiles, como aquellos que están subparametrizados o entrenados a un ritmo insuficiente en relación con el generador, también pueden resultar incapaces de distinguir completamente en todo el soporte de la distribución. En consecuencia, es posible que sólo logren una discriminación precisa para un segmento altamente incompleto de la distribución objetivo.
Algunos investigadores atribuyen el problema fundamental a una red discriminativa deficiente que pasa por alto patrones de omisión, mientras que otros sostienen que la responsable es una selección inapropiada de la función objetivo. A pesar de las numerosas soluciones propuestas, el colapso de modo sigue siendo un desafío sin resolver.
Incluso BigGAN (2019), una arquitectura de última generación, no pudo evitar el colapso de modo. Sus desarrolladores optaron por una estrategia de "permitir que se produzca el colapso en las últimas etapas del entrenamiento, momento en el que el modelo está lo suficientemente entrenado para lograr buenos resultados".
La regla de actualización de dos escalas de tiempo
La regla de actualización de dos escalas de tiempo (TTUR) se introdujo para mejorar la estabilidad de la convergencia de GAN al establecer una tasa de aprendizaje más baja para el generador en comparación con el discriminador. Los autores demuestran que cuando se entrenan en estas condiciones, las GAN "convergen, bajo suposiciones leves, hacia un equilibrio de Nash local estacionario". Además, ilustran que esta característica es aplicable al optimizador Adam, que se emplea con frecuencia en algoritmos de descenso de gradiente estocástico.
Sin embargo, es crucial reconocer que un equilibrio de Nash local no excluye inherentemente el colapso modal. Por ejemplo, una red generativa adversaria (GAN) entrenada en el conjunto de datos MNIST que colapsa para producir solo un dígito aún podría cumplir las hipótesis del artículo, a pesar de exhibir un colapso modal.
Gradiente de desaparición
Por el contrario, si el discriminador adquiere conocimiento a un ritmo excesivamente rápido en relación con el generador, el discriminador sería capaz de diferenciar casi perfectamente entre . En consecuencia, el generador experimentaría pérdidas persistentemente altas, independientemente de los ajustes a su , lo que implica que el gradiente se acercaría a cero. En estas circunstancias, el generador no puede aprender, un fenómeno conocido como problema del gradiente de fuga.
Conceptualmente, si el discriminador logra una competencia excesiva y debido a que el generador se ve obligado a realizar solo ajustes incrementales (como es característico del descenso de gradiente) para mejorar su rendimiento, deja de intentar una mayor optimización.
Un enfoque importante para mitigar este problema implica la implementación de Wasserstein GAN.
Evaluación
Las redes generativas adversas (GAN) generalmente se evalúan utilizando la puntuación de inicio (IS), que cuantifica la diversidad de las salidas del generador (según lo determinado por un clasificador de imágenes, comúnmente Inception-v3), o la distancia de inicio de Fréchet (FID), que evalúa la similitud entre las salidas del generador y un conjunto de datos de referencia designado (según lo categoriza un caracterizador de imágenes capacitado, por ejemplo, Inception-v3 excluyendo su capa final). Numerosas publicaciones de investigación que presentan arquitecturas GAN novedosas para la síntesis de imágenes documentan con frecuencia los avances de sus modelos más allá del rendimiento actual, medido por FID o IS.
La similitud de parches de imágenes perceptivas aprendidas (LPIPS) representa una metodología de evaluación alternativa. Este enfoque se inicia con un caracterizador de imagen previamente entrenado, denominado
Variantes
Variantes
Las redes generativas adversas (GAN) abarcan una amplia gama de variantes, con varios ejemplos destacados que se detallan a continuación.
GAN condicional
Las redes adversas generativas condicionales (GAN) amplían la funcionalidad de las GAN estándar al permitir que el modelo genere muestras dependiendo de información adicional especificada. Por ejemplo, se podría emplear una GAN condicional para generar una imagen de la cara de un gato cuando se le proporciona la imagen de un perro como entrada.
Dentro del marco de la Red Generativa Adversaria, el generador normalmente produce
Por ejemplo, cuando se le asigna la tarea de generar imágenes características del conjunto de datos de ImageNet, el generador debe ser capaz de producir una imagen de un gato al recibir la etiqueta de clase "gato".
El artículo de investigación original destacó que el La arquitectura GAN se puede adaptar directamente a una GAN condicional proporcionando las etiquetas relevantes tanto al componente generador como al discriminador.
El marco condicional de Generative Adversarial Network (GAN) opera como una extensión del paradigma GAN estándar, incorporando etiquetas de clase.Esto se expresa formalmente mediante la siguiente función objetivo:
En 2017, una GAN condicional demostró con éxito la capacidad de generar imágenes en 1000 clases distintas dentro del conjunto de datos de ImageNet.
Variaciones arquitectónicas en redes generativas adversarias
El marco GAN fundamental es muy versátil y admite diversas parametrizaciones tanto para el generador
GAN convolucional profunda (DCGAN): Esta arquitectura emplea exclusivamente redes profundas compuestas en su totalidad por capas convolucionales y deconvolucionales tanto para el generador como para el discriminador, constituyendo efectivamente redes completamente convolucionales.
GAN de autoatención (SAGAN): Esta arquitectura extiende la GAN convolucional profunda (DCGAN) integrando módulos de autoatención estándar conectados residualmente tanto en su generador como en su discriminador.
Autocodificador variacional GAN (VAEGAN): Este modelo emplea un autocodificador variacional (VAE) dentro de su componente generativo.
Transformador GAN (TransGAN): Esta variante utiliza una arquitectura de transformador pura tanto para su generador como para su discriminador, omitiendo por completo las capas de convolución y deconvolución.
Flow-GAN: Este modelo incorpora un modelo generativo basado en flujo para su generador, lo que permite un cálculo eficiente de la función de probabilidad.
Redes generativas de confrontación con objetivos alternativos
Muchas variantes de la Red Generativa Adversaria se derivan principalmente de la alteración de las funciones de pérdida aplicadas a sus componentes generador y discriminador.
GAN original:
Para facilitar el análisis comparativo, el objetivo fundamental de la Red Generativa Adversaria (GAN) se reexpresa de la siguiente manera:
La función de pérdida no saturada para la Red Generativa Adversaria (GAN) original se define como:
Las implicaciones de emplear este objetivo se examinan detalladamente en la Sección 2.2.2 de Arjovsky et al.
Red Generativa Adversarial (GAN) original, formulación de máxima verosimilitud:
representa la función logística. Cuando el discriminador alcanza la optimización, el gradiente del generador se alinea con el de la estimación de máxima verosimilitud, a pesar de que una Red Generativa Adversaria (GAN) es inherentemente incapaz de realizar una estimación de máxima verosimilitud por sí misma.
Redes adversarias generativas de pérdida de bisagra (GAN):
La Red Adversarial Generativa de Wasserstein (WGAN)
La Red Generativa Adversaria (GAN) de Wasserstein introduce dos modificaciones clave en el marco GAN estándar:
- Específicamente, el conjunto de estrategias del discriminador comprende funciones medibles de la forma
, que poseen una norma de Lipschitz acotada, expresada comoD : Ω → R {\displaystyle D:\Omega \to \mathbb {R} } , donde‖ D ‖ L ≤ K {\displaystyle \|D\|_{L}\leq K} representa una constante positiva predeterminada.K {\displaystyle K} - La función objetivo para WGAN se define como
.L W G A N ( ,μ G D ) := E x ∼ μ G [E x [ ∼μ ref D ( x ) ] {\displaystyle L_{WGAN}(\mu _{G},D):=\operatorname {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{\text{ref}}}[D(x)]}
Un objetivo principal de WGAN es mitigar el problema del colapso del modo. Los autores originales afirmaron: "En ningún experimento vimos evidencia de colapso de modo para el algoritmo WGAN".
Redes generativas de confrontación con múltiples jugadores
Codificador automático adversario
Un codificador automático adversarial (AAE) funciona fundamentalmente más como un codificador automático que como una red generativa adversaria tradicional. Su principio básico implica iniciar con un codificador automático estándar y posteriormente entrenar un discriminador para distinguir los vectores latentes de una distribución de referencia específica, generalmente una distribución normal.
InfoGAN
En una GAN condicional, el generador procesa un vector de ruido
La aplicación directa de GAN condicionales no es factible cuando el conjunto de datos de entrenamiento carece de etiquetas.
El marco InfoGAN postula que cada vector latente dentro del espacio latente se puede descomponer en dos componentes distintos:
Desafortunadamente, el cálculo directo de
El juego InfoGAN se define formalmente de la siguiente manera:
Un juego InfoGAN se caracteriza por tres espacios de probabilidad distintos:
, que denota el espacio de las imágenes de referencia. {\displaystyle (\Omega _{X},\mu _{\text{ref}})} ( , Ω X μ ref ), que representa el generador de ruido aleatorio fijo. {\displaystyle (\Omega _{Z},\mu _{Z})} ( , Ω Z μ Z )- El generador de información aleatoria fija se define como
. ( Ω C , μ C ) {\displaystyle (\Omega _{C},\mu _{C})} El sistema involucra a tres participantes (un generador, Q y un discriminador) distribuidos en dos equipos, donde el generador y Q forman un equipo y el discriminador comprende el otro.
La función objetivo se define como
. Aquí, L ( G , Q , D ) = ( L G A N G , D ) − λ ( I ^ G , Q ) {\displaystyle L(G,Q,D)=L_{GAN}(G,D)-\lambda {\hat {I}}(G,Q)} denota la función objetivo del juego GAN original, y ( L G A N G , D ) = E x ∼ μ ,ref [ ln D ( x ) ] + E z ∼ μ Z [ ln ( §186187§ − D ( G ( z , c ) ) ) ] {\displaystyle L_{GAN}(G,D)=\operatorname {E} _{x\sim \mu _{\text{ref}},}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z,c)))]} representa el término de información mutua. {\displaystyle {\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))]} ( I ^ G , Q ) = E z [∼ μ ,Z c ∼ μ C ln Q ( c ∣ G ( z , c ) ) ] El equipo Generator-Q se esfuerza por minimizar la función objetivo, mientras que el discriminador busca maximizarla, como lo representa la siguiente expresión:
. min G , Q max D L ( G , Q , D ) {\displaystyle \min _{G,Q}\max _{D}L(G,Q,D)}
GAN bidireccional (BiGAN)
El generador GAN convencional funciona en función del tipo
Los autores del artículo original observaron que "la inferencia aproximada aprendida se puede realizar entrenando una red auxiliar para predecir
BiGAN se define formalmente de la siguiente manera:
Un juego BiGAN se caracteriza por dos espacios de probabilidad distintos:
, que representa el espacio de las imágenes de referencia. ( Ω X , μ X ) {\displaystyle (\Omega _{X},\mu _{X})} , que denota el espacio latente. ( Ω Z , μ Z ) {\displaystyle (\Omega _{Z},\mu _{Z})} La arquitectura BiGAN involucra tres actores distintos organizados en dos equipos: el generador, el codificador y el discriminador. El generador y el codificador forman un equipo colaborativo, mientras que el discriminador opera como el equipo opuesto.
Las estrategias operativas del generador están definidas por funciones
, mientras que el Las estrategias del codificador están representadas por funciones G : Ω Z → Ω X {\displaystyle G:\Omega _{Z}\to \Omega _{X}} . Además, las estrategias del discriminador se formalizan como funciones E : Ω X → Ω Z {\displaystyle E:\Omega _{X}\to \Omega _{Z}} . D : Ω X → [ §102103§, §106107§] {\displaystyle D:\Omega _{X}\to [0,1]} La función objetivo se expresa formalmente como
. L ( G , E , D ) = E x ∼ μ X [ ln D ( x , E ( x ) ) ] + E z ∼ μ Z [ ln ( §106107§− D ( G ( z ) , z ) ) ] {\displaystyle L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))]} El equipo generador-codificador se esfuerza por minimizar esta función objetivo, mientras que el discriminador busca maximizarla, como lo representa el siguiente problema de optimización:
. min G , E max D L ( G , E , D ) {\displaystyle \min _{G,E}\max _{D}L(G,E,D)}
The authors presented an abstract formulation of the objective function:
Los modelos bidireccionales resultan útiles en diversas aplicaciones, como el aprendizaje semisupervisado, el aprendizaje automático interpretable y la traducción automática neuronal.
CycleGAN
CycleGAN representa un marco arquitectónico diseñado para facilitar las traducciones entre distintos dominios, ejemplificado por transformaciones entre imágenes de caballos y cebras, o entre escenas urbanas nocturnas y diurnas.
El marco operativo de CycleGAN se define formalmente mediante los siguientes parámetros:
El sistema incorpora dos espacios de probabilidad distintos,Hay dos espacios de probabilidad
, que representan los dos dominios esenciales para las traducciones bidireccionales. ( Ω X , μ X ) , ( Ω Y , μ Y ) {\displaystyle (\Omega _{X},\mu _{X}),(\Omega _{Y},\mu _{Y})} El sistema consta de cuatro participantes organizados en dos equipos: generadores, denotados como
y discriminadores, representados por G X : Ω X → Ω Y , G Y : Ω Y → Ω X {\displaystyle G_{X}:\Omega _{X}\to \Omega _{Y},G_{Y}:\Omega _{Y}\to \Omega _{X}} . D X : Ω X → [ §108109§, §112113§] , D Y : Ω Y → [ §142143§, §146147§] {\displaystyle D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1]} La función objetivo se formula como:
L ( G X , G Y , D X , D Y ) = L G Un N ( G X , D X ) + L G Un N ( G Y , D Y ) + λ L c y c l e ( G X , G Y ) {\displaystyle L(G_{X},G_{Y},D_{X},D_{Y})=L_{GAN}(G_{X},D_{X})+L_{GAN}(G_{Y},D_{Y})+\lambda L_{cycle}(G_{X},G_{Y})} dónde
representa un parámetro positivo y ajustable; λ {\displaystyle \lambda } denota el objetivo del juego Generative Adversarial Network (GAN); y L G A N {\displaystyle L_{GAN}} representa la consistencia del ciclo pérdida, definida de la siguiente manera: L c y c l e {\displaystyle L_{cycle}}
A diferencia de metodologías anteriores como pix2pix, que requieren datos de entrenamiento emparejados, CycleGAN funciona de manera efectiva sin tal requisito. Por ejemplo, entrenar un modelo pix2pix para transformar una fotografía de un paisaje de verano en una fotografía de un paisaje de invierno, y viceversa, exigiría un conjunto de datos que comprenda imágenes emparejadas de la misma ubicación capturadas durante el verano y el invierno, desde el mismo punto de vista; por el contrario, CycleGAN simplemente requiere una colección de fotografías de paisajes de verano y una colección distinta y no relacionada de fotografías de paisajes de invierno.
Redes generativas de confrontación (GAN) que exhiben escalas operativas notablemente grandes o pequeñas.
BigGAN
BigGAN constituye fundamentalmente una Red Generativa Adversaria (GAN) de autoatención entrenada extensivamente, utilizando hasta 80 millones de parámetros, para la generación de imágenes ImageNet de alta resolución (hasta 512 x 512 píxeles), incorporando varias optimizaciones de ingeniería para facilitar su convergencia.
Aumento de datos invertible
En escenarios caracterizados por datos de entrenamiento insuficientes, la distribución de referencia
El resultado de dicha capacitación sería un generador capaz de imitar
La solución propuesta implica aplicar aumento de datos a imágenes generadas y auténticas:
El documento StyleGAN-2-ADA destaca un aspecto crítico adicional del aumento de datos: su requisito de ser invertible. Para ilustrar esto, considere la tarea de generar imágenes ImageNet. Si el aumento de datos implica "rotar aleatoriamente la imagen 0, 90, 180 o 270 grados con igual probabilidad", el generador no puede discernir la orientación original. Por ejemplo, considere dos generadores,
La solución propuesta implica emplear exclusivamente técnicas de aumento de datos reversibles. En lugar de "rotar aleatoriamente la imagen 0, 90, 180 o 270 grados con igual probabilidad", un enfoque más eficaz es "rotar aleatoriamente la imagen 90, 180 o 270 grados con una probabilidad de 0,1 cada uno, manteniendo al mismo tiempo la orientación original con una probabilidad de 0,7". Esta metodología garantiza que el generador tenga incentivos para mantener la orientación original de las imágenes, de forma coherente con el conjunto de datos ImageNet no aumentado.
Desde una perspectiva abstracta, el muestreo aleatorio de transformaciones
Existen dos ejemplos arquetípicos de núcleos de Markov invertibles.
Caso discreto: esta categoría incluye matrices estocásticas invertibles, particularmente cuando
Por ejemplo, si
Para el caso continuo, el núcleo gaussiano se emplea cuando
Considere un ejemplo ilustrativo donde
En la publicación a la que se hace referencia se detallan ejemplos adicionales de técnicas de aumento de datos reversibles.
SinGAN
SinGAN representa una aplicación extrema de aumento de datos, utilizando solo una imagen singular para el entrenamiento y posteriormente realizando el aumento directamente en esta imagen. La arquitectura Generative Adversarial Network (GAN) está diseñada específicamente para esta metodología de capacitación mediante la implementación de un proceso de múltiples escalas.
El generador
Serie StyleGAN
La familia StyleGAN abarca una colección de diseños arquitectónicos desarrollados y publicados por la división de investigación de Nvidia.
GAN progresiva
Progressive GAN ofrece una metodología para el entrenamiento estable de GAN para la generación de imágenes a gran escala. Esto se logra expandiendo progresivamente el generador GAN desde una resolución baja a una alta de forma piramidal. De manera análoga a SinGAN, descompone el generador como
Durante la fase inicial de capacitación, solo los componentes
Para mitigar las transiciones abruptas entre las etapas sucesivas del proceso GAN, cada capa recién introducida se "mezcla" gradualmente, como se ilustra en la Figura 2 de la publicación a la que se hace referencia. Por ejemplo, el inicio del proceso GAN de segunda etapa se realiza de la siguiente manera:
- Anteriormente, la operación GAN estaba definida por el par
, que se encargaba de generar y discriminar imágenes 4x4.G N , D N {\displaystyle G_{N},D_{N}} - Posteriormente, el proceso GAN pasa a emplear el par
para generar y discriminar imágenes de 8x8. En este contexto, las funciones( ( §1011§− α ) + α ⋅ G N − §3738§) ∘ u ∘ G N , D N ∘ d ∘ ( ( §8182§− α ) + α ⋅ D N − §108109§) {\displaystyle ((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1})} representan operaciones de muestreo ascendente y descendente de imágenes, respectivamente. El parámetrou , d {\displaystyle u,d} funciona como un factor de fusión, análogo a un canal alfa en la composición de imágenes, que cambia suavemente su valor de 0 a 1.α {\displaystyle \alpha }
StyleGAN-1
StyleGAN-1 integra elementos de Progressive GAN con metodologías de transferencia de estilo neuronal.
Una característica arquitectónica fundamental de StyleGAN-1 es su mecanismo de crecimiento progresivo, que refleja el de Progressive GAN. Cada imagen generada se inicia como una constante
Durante la fase de entrenamiento, normalmente se emplea un vector latente de estilo único para cada imagen generada; sin embargo, ocasionalmente se utilizan dos vectores (lo que se denomina "regularización mixta"). Esta práctica tiene como objetivo promover la estilización independiente de cada bloque de estilo, evitando la dependencia de otros bloques que podrían recibir vectores latentes de estilo distintos.
Después del entrenamiento, se pueden suministrar múltiples vectores latentes de estilo a bloques de estilo individuales. Los vectores dirigidos a capas inferiores gobiernan atributos estilísticos a gran escala, mientras que los dirigidos a capas superiores gestionan elementos estilísticos con detalles finos.
La mezcla de estilos también se puede ejecutar entre dos imágenes,
StyleGAN-2
StyleGAN-2 representa un avance sobre StyleGAN-1, principalmente al emplear el vector latente de estilo para transformar directamente los pesos de las capas convolucionales, mitigando así el problema de los artefactos "blob".
Este modelo fue actualizado posteriormente por StyleGAN-2-ADA, donde "ADA" denota "adaptativo". Esta iteración incorpora aumento de datos reversible, como se detalló anteriormente. Además, ajusta dinámicamente el alcance del aumento de datos, comenzando desde cero y aumentando progresivamente hasta que una "heurística de sobreajuste" alcanza un nivel objetivo predefinido, de ahí su designación como "adaptativa".
StyleGAN-3
StyleGAN-3 mejora StyleGAN-2 al resolver el fenómeno de "textura pegada", que se observa en demostraciones oficiales. Los investigadores analizaron esta cuestión a través del lente del teorema de muestreo de Nyquist-Shannon, postulando que las capas del generador habían aprendido a explotar señales de alta frecuencia dentro de los píxeles que procesaban.
Para abordar esto, se propuso una metodología que implica la imposición de estrictos filtros de paso bajo entre cada capa del generador. Este enfoque obliga al generador a procesar píxeles de manera coherente con sus señales continuas subyacentes, en lugar de tratarlos únicamente como entidades discretas. Además, se impuso la invariancia rotacional y traslacional mediante la aplicación de filtros de señal suplementarios. En consecuencia, StyleGAN-3 mitiga efectivamente el problema de adherencia de texturas y produce imágenes que exhiben una rotación y traducción suaves.
Aplicaciones alternativas
Más allá de sus funciones principales en el modelado de datos generativos y discriminativos, las redes generativas adversarias (GAN) han encontrado utilidad en diversas aplicaciones.
Las GAN se han empleado en el aprendizaje por transferencia para facilitar la alineación de espacios de características latentes, particularmente dentro de contextos de aprendizaje por refuerzo profundo. Esto se logra ingresando las incorporaciones de las tareas de origen y de destino en el discriminador, que intenta inferir el contexto. La pérdida posterior se propaga inversamente a través del codificador.
Aplicaciones
Dominios científicos
- Reconstrucción iterativa de imágenes astronómicas.
- Simulación de lentes gravitacionales para investigaciones sobre la materia oscura.
- Estos modelos pueden delinear la distribución de la materia oscura en direcciones espaciales específicas y pronosticar los fenómenos de lentes gravitacionales asociados.
- También se emplean para modelar la formación de chorros de alta energía y las lluvias posteriores dentro de calorímetros utilizados en experimentos de física de alta energía.
- Las GAN pueden aproximarse a los cuellos de botella en simulaciones computacionalmente intensivas pertinentes a experimentos de física de partículas. Su aplicación en experimentos actuales y futuros del CERN ha demostrado su capacidad para acelerar las simulaciones y mejorar su fidelidad.
- Además, las GAN facilitan la reconstrucción de campos escalares y de velocidad dentro de sistemas de flujo turbulento.
Las moléculas sintetizadas mediante GAN se han sometido a una validación experimental en modelos murinos.
Aplicaciones médicas
La privacidad del paciente constituye una preocupación importante en el ámbito de las imágenes médicas, y con frecuencia impide el acceso de los investigadores a conjuntos de datos relevantes. Se han utilizado redes generativas adversarias (GAN) para mitigar este problema mediante la síntesis de imágenes médicas, incluidas resonancias magnéticas y exploraciones PET.
Las GAN pueden ayudar en la detección de imágenes glaucomatosas, apoyando así el diagnóstico temprano, que es fundamental para prevenir la pérdida parcial o completa de la visión.
Además, las GAN se han empleado para reconstrucciones faciales forenses de personajes históricos fallecidos.
Aplicaciones maliciosas
Han surgido preocupaciones con respecto al potencial de que la síntesis de imágenes humanas basada en GAN sea explotada para objetivos nefastos, como generar fotografías y videos inventados y potencialmente incriminatorios. Además, las GAN pueden producir imágenes de perfil fotorrealistas distintivas de individuos inexistentes, lo que permite la creación automatizada de perfiles de redes sociales fraudulentos.
En 2019, el estado de California promulgó dos leyes importantes: el Proyecto de Ley de la Asamblea (AB) 602, que prohíbe el uso de tecnologías de síntesis de imágenes humanas para crear pornografía fabricada no consensuada, y el AB 730, que prohíbe la difusión de videos manipulados que presenten candidatos políticos dentro de los 60 días posteriores a una elección. Ambos proyectos de ley, escritos por el asambleísta Marc Berman y firmados por el gobernador Gavin Newsom el 3 de octubre de 2019, entraron en vigor en 2020.
El programa Media Forensics de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) investiga metodologías para contrarrestar los medios fabricados, incluido específicamente el contenido generado a través de GAN.
Aplicaciones en moda, arte y publicidad
Las GAN son capaces de generar creaciones artísticas; The Verge señaló en marzo de 2019 que "las imágenes creadas por GAN se han convertido en la apariencia definitoria del arte contemporáneo de IA". Además, las GAN se pueden emplear para:
- fotografías pintadas,
- genera modelos de moda, sombras y representaciones fotorrealistas de diseño de interiores, diseño industrial y calzado, entre otros elementos. Según se informa, estas redes han sido utilizadas por Facebook.
Los investigadores han explorado la aplicación de GAN para la creatividad artística, a veces denominadas "redes creativas de confrontación". Por ejemplo, una GAN entrenada en 15.000 retratos de WikiArt que abarcan los siglos XIV al XIX produjo la pintura de 2018 Edmond de Belamy, que posteriormente se vendió por 432.500 dólares.
Dentro de la comunidad de modificación de videojuegos, las GAN se han aprovechado para mejorar las texturas 2D de baja resolución en videojuegos heredados. Este proceso implica recrear texturas en resoluciones 4K o superiores mediante entrenamiento de imágenes, seguido de un muestreo descendente para alinearlas con la resolución nativa del juego, imitando así el anti-aliasing de supermuestreo.
En 2020, Artbreeder trabajó en la creación del antagonista principal de la secuela de la serie de terror web psicológico Ben Drowned. Posteriormente, el autor elogió las aplicaciones GAN por su utilidad para generar activos para artistas independientes que operan con presupuestos y personal limitados.
En mayo de 2020, investigadores de Nvidia desarrollaron un sistema de inteligencia artificial, denominado "GameGAN", capaz de recrear el juego Pac-Man únicamente mediante la observación del juego.
En agosto de 2019, se compiló un conjunto de datos sustancial que comprende 12,197 canciones MIDI, cada una con letras y melodías alineadas, para facilitar la generación de melodías neuronales a partir de letras utilizando arquitecturas GAN-LSTM condicionales.
Aplicaciones varias
Las GAN se han aplicado a:
- demostrar posibles cambios relacionados con la edad en la apariencia de un individuo,
- reconstruir modelos de objetos tridimensionales a partir de imágenes,
- generar objetos novedosos representados como nubes de puntos 3D,
- modelar patrones de movimiento dentro de secuencias de vídeo,
- pintar elementos ausentes en mapas, transferir estilos cartográficos o aumentar las imágenes de Street View
- Utilizar mecanismos de retroalimentación para la generación de imágenes y potencialmente reemplazar los sistemas tradicionales de búsqueda de imágenes.
- visualizar el impacto proyectado del cambio climático en estructuras residenciales particulares,
- reconstruir una imagen facial de un individuo en función de sus características vocales.
- Este sistema genera videos de un individuo hablando, requiriendo solo una única entrada fotográfica de esa persona.
- Generación de secuencia recurrente.
Historial
En 1991, Juergen Schmidhuber introdujo la "curiosidad artificial", un marco que emplea redes neuronales dentro de un juego de suma cero. Esta configuración implica una red primaria que funciona como un modelo generativo, que establece una distribución de probabilidad sobre patrones de producción potenciales. Luego, una red secundaria utiliza el descenso de gradiente para pronosticar las respuestas ambientales a estos patrones. Las redes generativas adversarias (GAN) se pueden conceptualizar como un caso en el que la reacción ambiental es binaria (1 o 0), dependiendo de si la salida de la red inicial pertenece a un conjunto predefinido.
Otros investigadores concibieron conceptos similares, aunque sus trayectorias de desarrollo divergieron. Una noción temprana que involucra redes adversarias fue articulada en una publicación de blog de 2010 de Olli Niemitalo. Este concepto en particular nunca se implementó y carecía de estocasticidad en su generador, lo que impidió su clasificación como modelo generativo. Ahora se reconoce como una GAN condicional o cGAN. Además, Wei Li, Melvin Gauci y Roderich Gross aplicaron un enfoque similar a GAN para modelar el comportamiento animal en 2013.
La estimación de contraste de ruido sirvió como otra inspiración fundamental para las GAN, empleando una función de pérdida idéntica. Goodfellow investigó esta técnica durante sus estudios de doctorado de 2010 a 2014.
El aprendizaje automático adversario se extiende más allá del modelado generativo y encuentra aplicaciones en varios modelos más allá de las redes neuronales. En el ámbito de la teoría del control, en 2006 se empleó el aprendizaje adversario basado en redes neuronales para entrenar controladores robustos dentro de un marco de teoría de juegos. Esto implicó alternar iteraciones entre una política minimizadora (el controlador) y una política maximizadora (la perturbación).
En 2017, se utilizó una GAN para mejorar la imagen, priorizando texturas realistas sobre la precisión a nivel de píxeles, lo que resultó en una calidad de imagen superior con gran aumento. El mismo año marcó la generación de los primeros rostros humanos sintéticos, que posteriormente se exhibieron en el Grand Palais en febrero de 2018. Los rostros producidos por StyleGAN en 2019 generaron comparaciones con Deepfakes.
Arte de inteligencia artificial
- Arte de inteligencia artificial
- Deepfake: contenido multimedia generado de forma realista mediante inteligencia artificial.
- Aprendizaje profundo: un subcampo especializado dentro del aprendizaje automático.
- Modelo de difusión: un método computacional para el modelado generativo de distribuciones de probabilidad continuas.
- Inteligencia artificial generativa: un subconjunto de inteligencia artificial que emplea modelos generativos.Páginas que muestran descripciones breves de los objetivos de redireccionamiento
- Medios sintéticos: la creación automatizada de contenido multimedia a través de medios artificiales.
Referencias
Caballero, Will. "Cinco grandes predicciones para la inteligencia artificial en 2017". Revisión de tecnología del MIT. Recuperado el 5 de enero de 2017.
- Caballero, Will. "Cinco grandes predicciones para la inteligencia artificial en 2017". Revisión de tecnología del MIT. Consultado el 5 de enero de 2017.Karras, Tero; Laine, Samuli; Aila, Timo (2018). "Una arquitectura generadora basada en estilos para redes generativas adversarias". arXiv:1812.04948 [cs.NE].Wang, Zhengwei; Ella, Qi; Ward, Tomás E. (2019). "Redes generativas adversarias en visión por computadora: una encuesta y taxonomía". arXiv:1906.01529 [cs.LG].Fuente: Archivo de la Academia TORIma