Üretken rakip ağ (Generative adversarial network)

Üretken bir rakip ağ (GAN), bir makine öğrenimi çerçeveleri sınıfıdır ve üretken yapay yaklaşıma yaklaşmak için önemli bir çerçevedir…

Üretken rakip ağ (GAN), makine öğrenimi çerçevelerinin bir kategorisini temsil eder ve üretken yapay zeka içinde önemli bir yaklaşım olarak durur. Bu konsept ilk olarak Haziran 2014'te Ian Goodfellow ve işbirlikçileri tarafından tasarlandı. Bir GAN'da iki farklı sinir ağı, bir aracının kazandığı avantajın diğerinin uğradığı zarara doğrudan karşılık geldiği sıfır toplamlı bir oyun olarak yapılandırılmış rekabetçi bir etkileşime girer.

Üretken rekabet ağı (GAN), bir makine öğrenimi çerçeveleri sınıfıdır ve üretken yapay zekaya yaklaşmak için öne çıkan bir çerçevedir. Konsept ilk olarak Haziran 2014'te Ian Goodfellow ve meslektaşları tarafından geliştirildi. Bir GAN'da iki sinir ağı, bir aracının kazancının diğer aracının kaybı olduğu sıfır toplamlı bir oyun biçiminde birbiriyle rekabet eder.

Bir eğitim veri seti sağlandığında, bu metodoloji orijinal eğitim setininkilerle aynı istatistiksel özellikleri sergileyen yeni veriler üretme yeteneği kazanır. Örneğin, fotografik görüntüler kullanılarak eğitilmiş bir GAN, insan algısına en azından yüzeysel olarak özgün görünen ve çok sayıda gerçekçi niteliğe sahip olan yeni fotoğrafları sentezleyebilir. Başlangıçta öncelikle denetimsiz öğrenme için üretken bir model olarak kavramsallaştırılan GAN'lar, daha sonra yarı denetimli öğrenme, tam denetimli öğrenme ve takviyeli öğrenme paradigmaları genelinde yararlılık gösterdi.

GAN'ın temel ilkesi, kendisi de dinamik güncellemelerden geçen, girdinin algılanan "gerçekliğini" değerlendirebilen ek bir sinir ağı olan bir ayırıcı tarafından kolaylaştırılan "dolaylı" bir eğitim mekanizmasına dayanır. Sonuç olarak, jeneratörün amacı belirli bir görüntüden farklılığını en aza indirmek değil, bunun yerine ayrımcıyı aldatmaktır. Bu yaklaşım, model içinde denetimsiz öğrenmeyi kolaylaştırır.

GAN'lar, iki kurucu ağ arasında devam eden evrimsel silahlanma yarışıyla karakterize edilen, evrimsel biyolojide gözlemlenen taklitçilikle paralellikler sergiler.

Tanım

Matematiksel Formülasyon

Orijinal Üretken Rekabet Ağı (GAN) resmi olarak sonraki oyun olarak tanımlanır:

Her olasılık alanı,
Her olasılık alanı ${\displaystyle (\Omega ,\mu _{\text{ref}})$ , bir GAN oyunu kurar.
Oyun iki katılımcıdan oluşur: bir oluşturucu ve bir ayırıcı.
Oluşturucunun strateji kümesi şu şekilde tanımlanır: ${\displaystyle {\mathcal {P}}(\Omega )$ , tüm olasılık ölçümlerinin toplanmasını kapsar $\mu _{G$ ${\displaystyle \Omega$ .
discriminator'ın strateji seti Markov çekirdeklerinin koleksiyonunu içerir $\mu _{D}:\Omega \to {\mathcal {P}}[0,1]$ . Burada, ${\mathcal {P}}[0,1]$ , $[0,1]$ 86§ , §8990§ ] {\displaystyle [0,1] .
GAN (Üretimsel Rekabet Ağı) çerçevesi, şu amaç fonksiyonuyla tanımlanan sıfır toplamlı bir oyun olarak çalışır: $L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatöradı {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$ 147§−y)].{\displaystyle L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)]. Bu çerçevede, jeneratörün amacı bu fonksiyonu en aza indirmek, ayrıştırıcının hedefi ise maksimuma çıkarmaktır.

Oluşturucunun birincil amacı, $\mu _{G}\approx \mu _{\text{ref}$ , çıktı dağıtımını mümkün olduğunca hassas bir şekilde hizalayarak. Bunun tersine, ayırıcı, referans dağılımdan kaynaklanan girdiler için 1'e yakın bir değer ve oluşturucu tarafından üretilen girdiler için 0'a yakın bir değer üretecek şekilde tasarlanmıştır.

Pratik uygulamalarda,

Üretici ağ, aday verilerinin üretilmesinden sorumludur, oysa ayrımcı ağ bu adayları değerlendirir. Bu etkileşim, veri dağıtımlarına odaklanan rekabetçi bir dinamik oluşturarak oluşturucuyu gizli bir alandan gerçek veri dağıtımına kadar bir eşleme öğrenmeye zorlar. Amacı, ayırıcı tarafından gerçek verilerden ayırt edilemeyecek adayları sentezlemektir. Ayrımcının rolü bu adayları doğru bir şekilde sınıflandırmaktır; ancak jeneratörün performansı arttıkça ayırıcının görevi giderek zorlaşır ve bu da hata oranının artmasına neden olur.

Başlangıçta, ayrımcıyı eğitmek için önceden var olan bir veri kümesi kullanılır. Bu eğitim süreci, ayırıcının tatmin edici bir doğruluk düzeyine ulaşana kadar veri kümesindeki örneklere maruz bırakılmasını içerir. Jeneratörün eğitimi ise aksine, ayrımcıyı aldatma yeteneğine bağlıdır. Tipik olarak jeneratör, çok değişkenli normal dağılım gibi belirli bir gizli alandan örneklenen rastgele bir girdi alır. Daha sonra ayırıcı, jeneratör tarafından sentezlenen adayları değerlendirir. Her iki ağ da bağımsız geri yayılım prosedürlerinden geçerek, oluşturucunun üstün örnekler üretmesine ve ayırıcının sentetik verileri tanımlama yeterliliğini geliştirmesine olanak tanır. Görüntü oluşturma bağlamında, oluşturucu genellikle ters evrişimli bir sinir ağı kullanırken, ayırıcı genellikle evrişimli bir sinir ağı kullanır.

Diğer istatistiksel makine öğrenimi metodolojileriyle ilişki

Üretken Rekabetçi Ağlar (GAN'lar), örtük üretken modeller olarak kategorize edilir çünkü olabilirlik fonksiyonunu açıkça modellemezler veya belirli bir örnekle ilişkili gizli değişkeni tanımlamaya yönelik bir mekanizma sunarak onları akış tabanlı üretken modeller gibi alternatiflerden ayırırlar.

WaveNet ve PixelRNN dahil tamamen görünür inanç ağlarının ve diğer otoregresif modellerin aksine, GAN'lar tek geçişte tam bir örnek oluşturma yeteneğine sahiptir, bu da birden fazla ağ yineleme ihtiyacını ortadan kaldırır.

Boltzmann makinelerinden ve doğrusal Bağımsız Bileşen Analizinden (ICA) farklı olarak GAN'lar, ağ mimarilerinde kullanılan işlevsel formlar üzerinde hiçbir kısıtlama getirmez.

Sinir ağlarının evrensel yaklaşım araçları olarak işlev gördüğü göz önüne alındığında, GAN'lar şunları sergiler: asimptotik tutarlılık Değişken otomatik kodlayıcılar aynı zamanda evrensel yaklaşım araçları olsa da, bu özellik 2017 itibarıyla kanıtlanmamıştır.

Matematiksel Özellikler

Ölçüm-Teorik Hususlar

Bu bölüm, bu metodolojileri destekleyen temel matematik teorilerini açıklamaktadır.

Ölçü teorisine dayanan çağdaş olasılık teorisi dahilinde, bir olasılık uzayı, bir σ-cebirinin dahil edilmesini gerektirir. Sonuç olarak, GAN oyununun daha titiz bir formülasyonu sonraki değişiklikleri gerektirecektir:

Her olasılık alanı,
olarak gösterilir ${\displaystyle (\Omega ,{\mathcal {B}},\mu _{\text{ref}})$ , bir GAN oyunu kurar.
Oluşturucunun strateji kümesi şu şekilde tanımlanır: ${\displaystyle {\mathcal {P}}(\Omega ,{\mathcal {B}})$ , tüm olasılık ölçümlerinin koleksiyonunu temsil eder $\mu _{G$ ölçüm alanı içinde ${\displaystyle (\Omega ,{\mathcal {B}})$ .
Ayrımcının strateji seti Markov çekirdeklerinin koleksiyonunu içerir $\mu _{D}:(\Omega ,{\mathcal {B}})\to {\mathcal {P}}([0,1],{\mathcal {B}}([0,1]))$ 46§ , §4950§ ] , B ( [ §6566§ , §6970§ ] ) ) {\displaystyle \mu _{D}:(\Omega ,{\mathcal {B}})\to {\mathcal {P}}([0,1],{\mathcal {B}}([0,1])) , burada ${\mathcal {B}}([0,1])$ 102§ , §105106§ ] ) {\displaystyle {\mathcal {B}}([0,1]) $[0,1]$ 128§ , §131132§ ] {\displaystyle [0,1] .

Pratik uygulamaların genellikle ölçülebilirlik sorunlarıyla karşılaşmadığı göz önüne alındığında, bu konu hakkında daha fazla tartışmanın gereksiz olduğu düşünülmektedir.

Strateji Kümesi Seçimi

Üretken Rekabet Ağı (GAN) çerçevesinin en genel formülasyonunda, ayrımcının strateji alanı tüm Markov çekirdeklerini kapsar $\mu _{D}:\Omega \to {\mathcal {P}}[0,1]$ 32§,§3536§]{\displaystyle \mu _{D}:\Omega \to {\mathcal {P}}[0,1]. Bunun tersine, oluşturucunun strateji seti herhangi bir rastgele olasılık dağılımını içerir $\mu _{G$ , ${\displaystyle \Omega$ .

Bununla birlikte, gösterileceği gibi, herhangi bir $\mu _{G$ , deterministik olduğunu kanıtlıyor. Sonuç olarak, ayırıcının stratejilerini deterministik işlevlerle sınırlamak $D:\Omega \to [0,1]$ 42§,§4546§]{\displaystyle D:\Omega \to [0,1] herhangi bir genellik kaybına yol açmaz. Tipik olarak, pratik uygulamalarda, ${\displaystyle D$ derin bir sinir ağı olarak gerçekleştirilir.

Jeneratörle ilgili olarak, $\mu _{G$ teorik olarak herhangi bir hesaplanabilir olasılık dağılımını temsil etme yeteneğine sahiptir; pratik uygulamalarda genellikle bir ileri itme işlemi olarak gerçekleştirilir: $\mu _{G}=\mu _{Z}\circ G^{-1}$ 60§{\displaystyle \mu _{G}=\mu _{Z}\circ G^{-1}. Bu, rastgele bir değişkenle başlatmayı içerir $z\sim \mu _{Z$ , burada $\mu _{Z$ , kolayca hesaplanabilen bir olasılık dağılımını temsil eder (ör. tek biçimli veya Gaussian). Daha sonra, bir ${\displaystyle G:\Omega _{Z}\to \Omega$ tanımlandı. Ortaya çıkan dağılım $\mu _{G$ bu durumda $G(z)$ .

Oluşturucunun stratejisi genellikle yalnızca şu şekilde tanımlanır: ${\displaystyle G$ , with $z\sim \mu _{Z$ örtülü olarak anlaşılmaktadır. Bu çerçevede, GAN oyununun amaç fonksiyonu şu şekilde ifade edilir: $L(G,D):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z))))].$ 139§ − D ( G ( z ) ) ) ] . {\displaystyle L(G,D):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z)))].

Üretimsel Yeniden Parametreleştirme

GAN mimarisi iki ana bileşenden oluşur. Bunlardan ilki, optimizasyonu özellikle şu biçimde bir oyun olarak çerçevelemeyi içerir: ${\displaystyle \min _{G}\max _{D}L(G,D)$ , geleneksel optimizasyon yapısından farklıdır. ${\displaystyle \min _{\theta }L(\theta )$ . İkinci bileşen $\mu _{G}$ içine $\mu _{Z}\circ G^{-1}$ 123§ {\displaystyle \mu _{Z}\circ G^{-1} , bu bir yeniden parametrelendirme hilesi olarak kabul edilir.

Önemini tam olarak takdir etmek için, GAN'ları, sıklıkla "maksimum olasılık tahmininde ve bağlantılı olarak ortaya çıkan zorlu olasılık hesaplamaları" tarafından engellenen önceki üretken model öğrenme teknikleriyle karşılaştırmak gerekir.

Eş zamanlı olarak Kingma ve Welling, Rezende ve diğerleri ile birlikte yeniden parametrelendirme kavramını bağımsız olarak genelleştirilmiş bir stokastik geriye yayılım metodolojisine dönüştürdü. İlk uygulamalarından biri değişken otomatik kodlayıcıydı.

Hareket Sırası ve Stratejik Dengeler

Hem temel yayın hem de sonraki araştırmaların çoğunluğu, genellikle jeneratörün eylemi başlattığını ve ardından ayrımcının hareketini gerçekleştirdiğini öne sürüyor. Bu sıralı etkileşim sonraki minimaks oyununu oluşturur: ${\displaystyle \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}):=\operatör adı {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatöradı {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$

Hem oluşturucu hem de ayırıcı için strateji kümeleri sonlu sayıda stratejiyle tanımlandığında, minimaks teoremi şunu belirtir: ${\displaystyle \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=\max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})$ , hamle sırasının önemsiz olduğunu ima ediyor.

Ancak, her iki strateji seti de sonlu olarak yayılmadığından minimaks teoremi uygulanamaz ve bu da "denge" kavramını karmaşıklaştırır. Sonuç olarak, aşağıdaki farklı denge tanımları ortaya çıkar:

Jeneratör ilk olarak hareket ettiğinde denge ve bunu ayırıcı takip eder: ${\hat {\mu }__{G}\in \arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }__{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }__{G},\mu _{D}),\quad$
Ayırıcının ilk önce harekete geçtiği ve ardından üretecin izlediği denge durumu şu şekilde tanımlanır: ${\hat {\mu }} _ {D}\in \arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }} _{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }__{D}),$
Bir Nash dengesi ${\ displaystyle ({\ şapka {\ mu }} _ {D}, {\ şapka {\ mu }__{G})$ , eş zamanlı bir hareket sırası altında kararlılığıyla karakterize edilir ve aşağıdaki koşulları karşılar: ${\ displaystyle {\ şapka {\ mu } _ {D} \ in \ arg \ max _ {\ mu _ {D}} L ({\ şapka {\ mu } _ {G}, \ mu _ {D}), \ quad {\ şapka {\ mu } _ {G} \ in \ arg \ min _{\mu _{G}}L(\mu _{G},{\hat {\mu }__{D})$ .

Genel oyun teorisi bağlamında bu tür dengelerin var olması veya uyum içinde olması garanti edilmez. Ancak orijinal Üretken Çekişmeli Ağ (GAN) oyununun özel durumu için bu dengelerin var olduğu ve eşdeğer olduğu kanıtlanmıştır. Tersine, daha genelleştirilmiş GAN oyun formülasyonlarında bu dengelerin varlığı veya anlaşması mutlaka garanti edilmez.

GAN Oyunu için Temel Teoremler

Orijinal GAN makalesi aşağıdaki iki teoremi oluşturdu:

Üretken Rekabetçi Ağların (GAN'lar) Eğitimi ve Değerlendirilmesi

Eğitim Metodolojisi

Yakınsama Kararlılığındaki Zorluklar

Üretken Çekişmeli Ağ (GAN) oyununda, hem oluşturucunun hem de ayırıcının kendi strateji setlerinin tamamına erişime sahip olduğu benzersiz bir küresel denge noktası mevcuttur; tam tersi, strateji setleri kısıtlandığında bu denge garanti edilemez.

Pratik uygulamalarda, jeneratörün erişimi şu formdaki ölçümlerle sınırlıdır: $\mu _{Z}\circ G_{\theta }^{-1}$ 31§ {\displaystyle \mu _{Z}\circ G_{\theta }^{-1} . Burada, $G_{\theta$ , ${\displaystyle \theta$ , while $\mu _{Z$ , tekdüze veya normal dağılım gibi kolayca örneklenebilir bir dağılımı belirtir. Buna uygun olarak, ayırıcı yalnızca $D_{\zeta$ , bu aynı zamanda parametrelerle tanımlanan bir sinir ağı işlevidir ${\displaystyle \zeta$ . Bu kısıtlı strateji setleri, ilgili tam strateji setlerinin kaybolacak kadar küçük bir kısmını oluşturur.

Ayrıca, bir denge noktası devam etse bile, bunun tanımlanması, tüm potansiyel sinir ağı fonksiyonlarını kapsayan yüksek boyutlu uzayda bir araştırmayı gerektirir. Bu dengeyi bulmak için gradyan inişini kullanan geleneksel yaklaşımın, Üretken Rekabetçi Ağlar (GAN'ler) için sıklıkla etkisiz olduğu kanıtlanıyor ve çoğu zaman oyunun çeşitli başarısızlık modlarına "çökmesine" yol açıyor. Yakınsama kararlılığını arttırmak için, belirli eğitim metodolojileri, düşük çözünürlüklü veya karmaşık olmayan görüntüler oluşturmak (örneğin, tek tip bir arka plana karşı tek bir nesne) gibi daha basit bir görevle başlar ve eğitim süreci boyunca görevin karmaşıklığını kademeli olarak artırır. Bu yaklaşım temel olarak bir müfredat öğrenme paradigmasını uygular.

Mod Çöküşü Olgusu

Üretimsel Rekabetçi Ağlar (GAN'lar), sıklıkla mod çöküşü ile karşı karşıya kalır; bu durum, etkili bir şekilde genellemede başarısız oldukları ve dolayısıyla giriş verilerinde mevcut modların tamamının atlandığı bir durumdur. Örneğin, her rakamdan çok sayıda örnek içeren MNIST veri kümesi üzerinde eğitilmiş bir GAN, yalnızca 0 rakamının görüntülerini üretebilir. Bu özel soruna "Helvetica senaryosu" adı verilmiştir.

Mod çöküşünün altında yatan yaygın bir mekanizma, jeneratörün yalnızca sınırlı bir olası değerler alt kümesi üretmesini veya hedef dağılımın eksik bir temsilini üretmesini içerir. Ayırıcının eğitimi yalnızca gerçek ve sentetik numuneler arasında ayrım yapmaya odaklandığından, oluşturulan numuneleri doğru bir şekilde gerçek olarak sınıflandırır. Ancak bu süreç, GAN'ı hedef dağıtımın tüm spektrumunu kapsayan verileri üretemediği için cezalandırmaz.

Parametrelendirilmemiş veya oluşturucuya göre yetersiz hızda eğitilmiş olanlar gibi zayıf ayırıcılar da dağıtımın tüm desteğini tam olarak ayırt edemeyebilir. Sonuç olarak, yalnızca hedef dağılımın son derece eksik bir bölümü için doğru ayrımcılığı başarabilirler.

Bazı araştırmacılar temel sorunu, ihmal kalıplarını gözden kaçıran yetersiz bir ayrımcı ağa bağlarken, diğerleri bunun sorumlusunun amaç fonksiyonunun uygunsuz seçimi olduğunu iddia ediyor. Önerilen çok sayıda çözüme rağmen mod çökmesi çözülmemiş bir zorluk olmaya devam ediyor.

En son teknolojiye sahip bir mimari olan BigGAN (2019) bile mod çökmesini atlatamadı. Geliştiricileri, "eğitimin sonraki aşamalarında çöküşün gerçekleşmesine izin verme ve bu süreye kadar modelin iyi sonuçlar elde etmek için yeterince eğitilmesine izin verme" stratejisini tercih etti.

İki Zaman Ölçeği Güncelleme Kuralı

İki zaman ölçekli güncelleme kuralı (TTUR), ayırıcıya kıyasla oluşturucu için daha düşük bir öğrenme hızı ayarlayarak GAN yakınsama kararlılığını artırmak için tanıtıldı. Yazarlar, bu koşullar altında eğitildiklerinde GAN'ların "hafif varsayımlar altında durağan bir yerel Nash dengesine yakınlaştığını" göstermektedir. Ayrıca, bu özelliğin stokastik gradyan iniş algoritmalarında sıklıkla kullanılan Adam optimize ediciye uygulanabileceğini göstermektedir.

Ancak, yerel bir Nash dengesinin doğal olarak mod çöküşünü engellemediğini kabul etmek çok önemlidir. Örneğin, MNIST veri kümesi üzerinde eğitilen ve yalnızca tek bir rakam üretecek şekilde çöken bir Üretken Rekabet Ağı (GAN), mod çöküşü sergilemesine rağmen yine de makalenin hipotezlerini karşılayabilir.

Kaybolan degrade

Tersine, ayırıcı, bilgiyi oluşturucuya göre aşırı hızlı bir hızda edinirse, ayırıcı $\mu _{G_{\theta }},\mu _{\text{ref}$ . Sonuç olarak, oluşturucu $G_{\theta$ , ayarlarında yapılan ayarlamalardan bağımsız olarak sürekli olarak yüksek kayıp yaşayacaktır. ${\displaystyle \theta$ , degradenin ${\displaystyle \nabla _{\theta }L(G_{\theta },D_{\zeta })$ sıfıra yaklaşır. Bu koşullar altında, oluşturucu, kaybolan gradyan sorunu olarak bilinen bir olguyu öğrenemez.

Kavramsal olarak, eğer ayrımcı aşırı yeterlilik kazanırsa ve jeneratör, performansını artırmak için yalnızca artımlı ayarlamalar yapmakla (gradyan inişinin özelliği olduğu gibi) sınırlı olduğundan, daha fazla optimizasyon girişiminde bulunmayı bırakır.

Bu sorunu hafifletmeye yönelik önemli bir yaklaşım, Wasserstein GAN'ın uygulanmasını içerir.

Değerlendirme

Üretken Rekabetçi Ağlar (GAN'lar), genellikle, jeneratörün çıktılarının çeşitliliğini ölçen Başlangıç Puanı (IS) kullanılarak değerlendirilir (bir görüntü sınıflandırıcı, genellikle Inception-v3 tarafından belirlenir) veya jeneratörün çıktıları ile belirlenmiş bir referans veri kümesi arasındaki benzerliği değerlendiren Fréchet Başlangıç Mesafesi (FID), (eğitimli bir görüntü belirleyici tarafından kategorize edilir, örneğin son katmanı hariç Inception-v3). Görüntü sentezi için yeni GAN mimarilerini tanıtan çok sayıda araştırma yayını, modellerinin FID veya IS ile ölçülen mevcut son teknoloji performansın ötesindeki ilerlemelerini sıklıkla belgeliyor.

Öğrenilmiş Algısal Görüntü Yaması Benzerliği (LPIPS), alternatif bir değerlendirme yöntemini temsil eder. Bu yaklaşım, $f_{\theta}:{\text{Görüntü}}\to \mathbb {R} ^{n$ ${\displaystyle (x,x',\operatorname {algısal~fark} (x,x'))$ ${\displaystyle x$ orijinal bir görüntüyü belirtir, ${\displaystyle x'$ bu görüntünün değiştirilmiş bir versiyonunu temsil eder ve ${\displaystyle \operatorname {perceptual~difference} (x,x')$ , insan gözlemciler tarafından değerlendirildiği şekliyle aralarında algılanan farklılığı ölçer.İnce ayar süreci, modeli, ${\displaystyle \|f_{\theta }(x)-f_{\theta }(x')\|\approx \operatöradı {algısal~fark} (x,x')$ ${\displaystyle \operatorname {LPIPS} (x,x'):=\|f_{\theta }(x)-f_{\theta }(x')\|$

Çeşitleri

Varyantlar

Üretici Rekabet Ağları (GAN'lar), aşağıda ayrıntıları verilen birkaç önemli örnekle birlikte çok çeşitli değişkenleri kapsar.

Koşullu GAN

Koşullu Üretken Rekabetçi Ağlar (GAN'lar), modelin belirtilen ek bilgilere bağlı olarak örnekler oluşturmasını sağlayarak standart GAN'ların işlevselliğini genişletir. Örneğin, girdi olarak bir köpeğin resmi sağlandığında bir kedinin yüzünün görüntüsünü oluşturmak için koşullu bir GAN kullanılabilir.

Üretken Çekişmeli Ağ çerçevesinde, oluşturucu genellikle $\mu _{G$ , olasılık alanı üzerindeki olasılık dağılımını temsil eder ${\displaystyle \Omega$ . Bu temel kavram, ${\displaystyle \Omega$ , oluşturucu farklı bir olasılık dağılımı oluşturur ${\displaystyle \mu _{G}(c)$ on ${\displaystyle \Omega$ belirtilen her sınıf etiketi için ${\displaystyle c$ .

Örneğin, ImageNet veri kümesine özgü görüntüler oluşturma görevi verildiğinde, oluşturucunun "kedi" sınıf etiketini aldıktan sonra bir kedi görüntüsü üretebilmesi gerekir.

Orijinal araştırma makalesi, GAN mimarisinin, aşağıdaki koşulları sağlayarak koşullu bir GAN'a doğrudan uyarlanabileceğini vurguladı: hem oluşturucu hem de ayırıcı bileşenlerle ilgili etiketler.

Koşullu Üretken Rekabetçi Ağ (GAN) çerçevesi, sınıf etiketlerini içeren standart GAN paradigmasının bir uzantısı olarak çalışır.Bu, resmi olarak aşağıdaki amaç fonksiyonuyla ifade edilir: $L(\mu _{G},D):=\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{\text{ref}}(c)}[\ln D(x,c)]+\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{G}(c)}[\ln(1-D(x,c))]$ 150§ − D ( x , c ) ) ] {\displaystyle L(\mu _{G},D):=\operatöradı {E} _{c\sim \mu _{C},x\sim \mu _{\text{ref}}(c)}[\ln D(x,c)]+\operatöradı {E} _{c\sim \mu _{C},x\sim \mu _{G}(c)}[\ln(1-D(x,c))] Burada, $\mu _{C$ çeşitli sınıflar arasındaki olasılık dağılımını belirtir; ${\displaystyle \mu _{\text{ref}}(c)$ ${\displaystyle c$ ; ve ${\displaystyle \mu _{G}(c)$ , ${\displaystyle c$ .

2017'de koşullu bir GAN, ImageNet veri kümesindeki 1000 farklı sınıfta görüntü oluşturma yeteneğini başarıyla gösterdi.

Üretken Rekabetçi Ağlarda Mimari Farklılıklar

Temel GAN çerçevesi son derece çok yönlüdür ve hem oluşturucu için çeşitli parametrelendirmeleri barındırır ${\displaystyle G$ ve ayırıcı ${\displaystyle D$ . Başlangıçta, temel araştırma, bunun çok katmanlı algılayıcı ağlar ve evrişimli sinir ağları kullanılarak uygulanmasını sergiledi. Daha sonra çok sayıda alternatif mimari konfigürasyon araştırıldı.

Derin Evrişimli GAN (DCGAN): Bu mimari, hem oluşturucu hem de ayırıcı için tamamen evrişimli ve ters evrişimli katmanlardan oluşan derin ağları kullanır ve etkili bir şekilde tam evrişimli ağlar oluşturur.

Öz dikkat GAN (SAGAN): Bu mimari, artık bağlantılı standart öz dikkat modüllerini hem oluşturucuya hem de ayırıcıya entegre ederek Derin Evrişimli GAN'ı (DCGAN) genişletir.

Varyasyonel otomatik kodlayıcı GAN (VAEGAN): Bu model, üretkenliği içinde bir varyasyonel otomatik kodlayıcı (VAE) kullanır. bileşeni.

Transformer GAN (TransGAN): Bu varyant, hem üreteci hem de ayırıcı için saf bir transformatör mimarisini kullanır ve evrişim ve ters evrişim katmanlarını tamamen ortadan kaldırır.

Akış-GAN: Bu model, üreteci için akış tabanlı bir üretken model içerir ve olabilirlik fonksiyonunun verimli bir şekilde hesaplanmasına olanak tanır.

Alternatif Hedeflere Sahip Üretken Rekabet Ağları

Birçok Üretken Çekişmeli Ağ çeşidi, öncelikle oluşturucu ve ayırıcı bileşenlerine uygulanan kayıp fonksiyonlarının değiştirilmesiyle türetilir.

Orijinal GAN:

Karşılaştırmalı analizi kolaylaştırmak için, Üretken Rekabet Ağı'nın (GAN) temel hedefi şu şekilde yeniden ifade edilmiştir: ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$ 127§ − D ( x ) ) ] dak G L G ( D , μ G ) = − E x ∼ μ G ⁡ [ in ⁡ ( §217218§ − D ( x ) ) ] {\displaystyle {\begin{vakalar}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}

Orijinal Üretken Rekabet Ağı (GAN) için doymayan kayıp fonksiyonu şu şekilde tanımlanır:

Bu hedefi kullanmanın sonuçları Arjovsky ve arkadaşlarının Bölüm 2.2.2'sinde ayrıntılı olarak incelenmiştir.

Orijinal Üretken Rekabet Ağı (GAN), maksimum olasılık formülasyonu:

lojistik işlevi temsil eder. Ayırıcı optimalliğe ulaştığında, Üretken Rekabetçi Ağın (GAN) doğası gereği maksimum olasılık tahminini tek başına gerçekleştirmekten aciz olmasına rağmen, üretecin gradyanı maksimum olabilirlik tahminiyle aynı hizaya gelir.

Menteşe Kaybı Üreten Çekişmeli Ağlar (GAN'lar): $L_{D}=-\operatorname {E} _{x\sim p_{\text{ref}}}\left[\min \left(0,-1+D(x)\right)\right]-\operatorname {E} _{x\sim \mu _{G}}\left[\min \left(0,-1-D\left(x\right)\right)\right]$

Wasserstein Üretken Rekabet Ağı (WGAN)

Wasserstein Üretken Rekabet Ağı (GAN), standart GAN çerçevesine iki önemli değişiklik getiriyor:

Özellikle, ayırıcının strateji seti şu formun ölçülebilir fonksiyonlarını içerir: $D:\Omega \to \mathbb {R$ , sınırlı bir Lipschitz normuna sahiptir ve ${\displaystyle \|D\|_{L}\leq K$ , burada ${\displaystyle K$ önceden belirlenmiş bir pozitif sabiti temsil eder.
WGAN için amaç işlevi şu şekilde tanımlanır: $L_{WGAN}(\mu _{G},D):=\operatorname {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{\text{ref}}}[D(x)]$ .

WGAN'ın temel hedeflerinden biri mod çökmesi sorununu azaltmaktır. Orijinal yazarlar şunu iddia etti: "Hiçbir deneyde WGAN algoritmasında modun çöktüğüne dair kanıt görmedik."

Çok Oyunculu Üretken Rekabet Ağları

Rakip Otomatik Kodlayıcı

Bir rakip otomatik kodlayıcı (AAE), temel olarak, geleneksel bir Üretken Çekişmeli Ağdan daha çok bir otomatik kodlayıcı olarak çalışır. Temel ilkesi, standart bir otomatik kodlayıcıyla başlatmayı ve ardından gizli vektörleri belirli bir referans dağılımından (tipik olarak normal bir dağılım) ayırt etmek için bir ayırıcıyı eğitmeyi içerir.

InfoGAN

Koşullu bir GAN'da, jeneratör hem gürültü vektörünü işler ${\displaystyle z$ ve bir etiket ${\displaystyle c$ bir görüntüyü sentezlemek için ${\displaystyle G(z,c)$ . Bunun tersine, ayırıcı görüntü etiketi çiftlerini değerlendirir ${\displaystyle (x,c)$ ve hesaplar ${\displaystyle D(x,c)$ .

Eğitim veri kümesinde etiketler bulunmadığında koşullu GAN'ların doğrudan uygulanması mümkün değildir.

InfoGAN çerçevesi, gizli uzay içindeki her gizli vektörün iki farklı bileşene ayrılabileceğini öne sürer: ${\displaystyle (z,c)$ . Bunlar, ${\displaystyle z$ ve ${\displaystyle c$ . Oluşturucunun bu ayrıştırmaya uymasını sağlamak için, açıkça ${\displaystyle I(c,G(z,c))$ , bu, ${\displaystyle c$ ve oluşturulan çıktı ${\displaystyle G(z,c)$ . Bunun tersine, ${\displaystyle z$ ve ${\displaystyle G(z,c)$ .

Ne yazık ki, ${\displaystyle I(c,G(z,c))$ genellikle inatçıdır. InfoGAN'ın temel prensibi, bir alt sınırı optimize ederek bu miktarı dolaylı olarak maksimuma çıkarmayı içeren Değişken Karşılıklı Bilgi Maksimizasyonu'dur. Bu şu şekilde ifade edilir: ${\displaystyle {\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))];\quad I(c,G(z,c))\geq \sup _{Q}{\hat {I}}(G,Q)$ , burada $Q {\displaystyle Q$ , formun tüm Markov çekirdeklerini temsil eder $Q:\Omega _{Y}\to {\mathcal {P}}(\Omega _{C})$

InfoGAN oyunu resmi olarak şu şekilde tanımlanır:

Bir InfoGAN oyunu üç farklı olasılık alanıyla karakterize edilir:
$(\Omega _{X},\mu _{\text{ref}})$ , referans görüntülerinin alanını belirtir.

$(\Omega _{Z},\mu _{Z})$ , sabit rastgele gürültü oluşturucuyu temsil eder.

Sabit rastgele bilgi oluşturucu şu şekilde tanımlanır: ${\displaystyle (\Omega _{C},\mu _{C})$ .

Sistem iki takıma dağıtılmış üç katılımcıdan (bir jeneratör, Q ve bir ayırıcı) oluşur; jeneratör ve Q bir takımı oluştururken ayırıcı da diğerini oluşturur.
Hedef işlevi şu şekilde tanımlanır: ${\displaystyle L(G,Q,D)=L_{GAN}(G,D)-\lambda {\hat {I}}(G,Q)$ . Burada, ${\displaystyle L_{GAN}(G,D)=\operatöradı {E} _{x\sim \mu _{\text{ref}},}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z,c)))]$ orijinal GAN oyununun amaç fonksiyonunu belirtir ve ${\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))]$ karşılıklı bilgi terimini temsil eder.
Generator-Q ekibi amaç fonksiyonunu en aza indirmeye çalışırken, ayırıcı aşağıdaki ifadeyle temsil edildiği gibi onu en üst düzeye çıkarmaya çalışır: ${\displaystyle \min _{G,Q}\max _{D}L(G,Q,D)$ .

Çift Yönlü GAN (BiGAN)

Geleneksel GAN oluşturucu, $G:\Omega _{Z}\to \Omega _{X$ , gizli bir alandan eşleme anlamına gelir $\Omega _{Z$ görüntü alanına $\Omega _{X$ . Bu süreç, her gizli vektörün $z\in \Omega _{Z$ bir resim için kod görevi görür $x\in \Omega _{X$ ve oluşturucu bu kod çözme işlemini yürütür. Bu doğal özellik, doğal olarak "kodlama" için ek bir ağın geliştirilmesini ve böylece kodlayıcı-üretici kombinasyonundan bir otomatik kodlayıcının oluşturulmasını akla getirir.

Orijinal makalenin yazarları şunu gözlemledi: "Öğrenilmiş yaklaşık çıkarım, ${\displaystyle z$ verilmiştir ${\displaystyle x$ ." Çift yönlü GAN mimarisi bu konsepti tam olarak uygular.

BiGAN resmi olarak şu şekilde tanımlanır:

Bir BiGAN oyunu iki farklı olasılık alanıyla karakterize edilir:
${\displaystyle (\Omega _{X},\mu _{X})$ , referans görüntülerinin alanını temsil eder.

${\displaystyle (\Omega _{Z},\mu _{Z})$ , gizli alanı belirtir.

BiGAN mimarisi iki takım halinde organize edilmiş üç farklı oyuncuyu içerir: oluşturucu, kodlayıcı ve ayırıcı. Jeneratör ve kodlayıcı ortak çalışmaya dayalı tek bir ekip oluştururken, ayırıcı ekip karşıt ekip olarak çalışır.
Jeneratörün operasyonel stratejileri $G:\Omega _{Z}\to \Omega _{X$ , kodlayıcının stratejileri $E:\Omega _{X}\to \Omega _{Z$ . Ayrıca, ayırıcının stratejileri $D:\Omega _{X}\to [0,1]$ 103§ , §106107§ ] {\displaystyle D:\Omega _{X}\to [0,1] .
Amaç işlevi resmi olarak şu şekilde ifade edilir: $L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))]$ 107§ − D ( G ( z ) , z ) ) ] {\displaystyle L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))] .
Jeneratör-kodlayıcı ekibi bu amaç fonksiyonunu en aza indirmeye çalışırken, ayırıcı, aşağıdaki optimizasyon problemiyle temsil edildiği gibi bunu en üst düzeye çıkarmaya çalışır: ${\displaystyle \min _{G,E}\max _{D}L(G,E,D)$ .

The authors presented an abstract formulation of the objective function: $L(G,E,D)=\mathbb {E} _{(x,z)\sim \mu _{E,X}}[\ln D(x,z)]+\mathbb {E} _{(x,z)\sim \mu _{G,Z}}[\ln(1-D(x,z))]$ 125§ − D ( x , z ) ) ] {\displaystyle L(G,E,D)=\mathbb {E} _{(x,z)\sim \mu _{E,X}}[\ln D(x,z)]+\mathbb {E} _{(x,z)\sim \mu _{G,Z}}[\ln(1-D(x,z))]} where $\mu _{E,X}(dx,dz)=\mu _{X}(dx)\cdot \delta _{E(x)}(dz)$ represents the probability distribution over $\Omega _{X}\times \Omega _{Z}$ derived by pushing forward $\mu _{X}$ forward via $x\mapsto (x,E(x))$ , and $\mu _{G,Z}(dx,dz)=\delta _{G(z)}(dx)\cdot \mu _{Z}(dz)$ represents the probability distribution over $\Omega _{X}\times \Omega _{Z}$ derived by pushing forward $\mu _{Z}$ forward via $z\mapsto (G(x),z)$ .

Çift yönlü modeller, yarı denetimli öğrenme, yorumlanabilir makine öğrenimi ve sinirsel makine çevirisi gibi çeşitli uygulamalarda kullanım alanı bulur.

CycleGAN

CycleGAN, at ve zebra görüntüleri arasındaki veya gece ve gündüz şehir sahneleri arasındaki dönüşümlerle örneklendirilen, farklı alanlar arasındaki çevirileri kolaylaştırmak için tasarlanmış bir mimari çerçeveyi temsil eder.

CycleGAN'ın operasyonel çerçevesi resmi olarak aşağıdaki parametrelerle tanımlanır:

Sistem iki farklı olasılık alanı içerir,
İki olasılık alanı vardır ${\displaystyle (\Omega _{X},\mu _{X}),(\Omega _{Y},\mu _{Y})$ , çift yönlü çeviriler için gerekli iki alanı temsil eder.
Sistem iki takım halinde organize edilmiş dört katılımcıdan oluşur: oluşturucular, $G_{X}:\Omega _{X}\to \Omega _{Y},G_{Y}:\Omega _{Y}\to \Omega _{X$ ve ayırıcılar, $D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1]$ 109§ , §112113§ ] , D E : Ω E → [ §142143§ , §146147§ ] {\displaystyle D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1] .
Amaç işlevi şu şekilde formüle edilir: ${\displaystyle L(G_{X},G_{Y},D_{X},D_{Y})=L_{GAN}(G_{X},D_{X})+L_{GAN}(G_{Y},D_{Y})+\lambda L_{cycle}(G_{X},G_{Y})$

burada ${\displaystyle \lambda$ pozitif, ayarlanabilir bir parametreyi temsil eder; $L_{GAN$ , Üretken Rekabet Ağı (GAN) oyun hedefini belirtir; ve $L_{cycle$ şu şekilde tanımlanan döngü tutarlılık kaybını temsil eder: şu şekildedir: $L_{döngü}(G_{X},G_{Y})=E_{x\sim \mu _{X}}\|G_{X}(G_{Y}(x))-x\|+E_{y\sim \mu _{Y}}\|G_{Y}(G_{X}(y))-y\|$

Eşleştirilmiş eğitim verileri gerektiren pix2pix gibi önceki metodolojilerin aksine CycleGAN, böyle bir gereksinim olmadan etkili bir şekilde çalışır. Örneğin, bir pix2pix modelinin bir yaz manzarası fotoğrafını bir kış manzarası fotoğrafına (veya tam tersi) dönüştürmek için eğitilmesi, aynı bakış noktasından hem yaz hem de kış aylarında çekilen aynı konumun eşleştirilmiş görüntülerini içeren bir veri kümesini zorunlu kılacaktır; tersine, CycleGAN yalnızca yaz manzarası fotoğraflarından oluşan bir koleksiyona ve ayrı, ilgisiz bir kış manzarası fotoğrafları koleksiyonuna ihtiyaç duyar.

Oldukça büyük veya küçük operasyonel ölçekler sergileyen Üretken Rekabet Ağları (GAN'lar).

BigGAN

BigGAN temel olarak, yüksek çözünürlüklü ImageNet görüntülerinin (512 x 512 piksele kadar) oluşturulması için 80 milyona kadar parametre kullanan ve yakınsamasını kolaylaştırmak için çeşitli mühendislik optimizasyonları içeren kapsamlı bir şekilde eğitilmiş bir Öz-dikkat Üretken Rekabetçi Ağ (GAN) oluşturur.

Tersine Çevrilebilir Veri Artırma

Eğitim verilerinin yetersiz olduğu senaryolarda, referans dağılımı $\mu _{\text{ref}$ ampirik dağılımla doğru bir şekilde tahmin edilemez mevcut eğitim veri setinden türetilmiştir. Bu koşullar altında, daha sınırlı veri kümeleri kullanılarak Üretken Rekabetçi Ağların (GAN'ler) eğitilmesini sağlamak için veri artırma teknikleri kullanılabilir. Bununla birlikte, veri artırmanın basit bir uygulaması, doğası gereği zorlukları da beraberinde getirir.

Böyle bir eğitimin sonucu, ${\displaystyle \mu _{\text{ref}}'$ . Örneğin, veri artırma süreci rastgele kırpmayı içeriyorsa oluşturucu, rastgele kırpmayla tutarlı özellikler sergileyen görüntüler üretecektir.

Önerilen çözüm, hem oluşturulan hem de orijinal görüntülere veri büyütme uygulamayı içerir: ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}}[\ln D(T(x))]-\operatöradı {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x)))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatöradı {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x))))]\end{cases}}$

StyleGAN-2-ADA makalesi, veri artırmanın ek bir kritik yönünü vurguluyor: tersine çevrilebilir olma gerekliliği. Bunu göstermek için ImageNet görüntüleri oluşturma görevini düşünün. Veri büyütme "resmin eşit olasılıkla 0, 90, 180 veya 270 derece rastgele döndürülmesini" içeriyorsa, jeneratör orijinal yönelimi ayırt edemez. Örneğin, iki oluşturucuyu düşünün: ${\displaystyle G,G'$ , burada herhangi bir gizli vektör için $z$ , ${\displaystyle G(z)$ , ${\displaystyle G'(z)$ . Böyle bir senaryoda, her iki jeneratör de aynı beklenen kayıp değerlerini sergileyecek ve bu da ikisini de tercih edilmez hale getirecektir.

Önerilen çözüm, yalnızca tersine çevrilebilir veri artırma tekniklerinin kullanılmasını içerir. "Resmi eşit olasılıkla 0, 90, 180 veya 270 derece rastgele döndürmek" yerine, "0,7 olasılıkla orijinal yönlendirmeyi korurken resmi her biri 0,1 olasılıkla 90, 180 veya 270 derece rastgele döndürmektir." Bu metodoloji, oluşturucunun, artırılmamış ImageNet veri kümesiyle tutarlı olarak görüntülerin orijinal yönünü korumaya teşvik edilmesini sağlar.

Soyut bir perspektiften bakıldığında, dönüşümlerin rastgele örneklemesi ${\displaystyle T:\Omega \to \Omega$ , $\mu _{\text{trans}$ , bir Markov çekirdeği oluşturur ${\displaystyle K_{\text{trans}}:\Omega \to {\mathcal {P}}(\Omega )$ .

Tersine çevrilebilir Markov çekirdeğinin iki arketipik örneği mevcuttur.

Ayrık Durum: Bu kategori, özellikle $\Omega$

olduğunda ters çevrilebilir stokastik matrisleri içerir.

Örneğin, eğer $\Omega =\{\uparrow ,\downarrow ,\leftarrow ,\rightarrow \}$

Sürekli durum için, Gauss çekirdeği şu durumlarda kullanılır: $\Omega =\mathbb {R} ^{n}$

Açıklayıcı bir örnek düşünün: $\Omega =\mathbb {R} ^{256^{2}$ 256x256 görsellik alanı temsil eder. Seçilen veri artırma tekniği Gauss gürültüsü oluşturmayı içeriyorsa $z\sim {\mathcal {N}}(0,I_{256^{2}})$ 55§,I256§66 $\Omega =\mathbb {R} ^{256^{2}}$ ){\displaystyle z\sim {\mathcal {N}}(0,I_{256^{2}}) ve ardından ${\displaystyle \epsilon z$ 'i her bir görüntüye aktarın, ardından dönüşüm çekirdeğini $K_{\text{trans}}$ , ${\mathcal {N}}(0,\epsilon ^{2}I_{256^{2}})$ 138§,ϵ§146 $\Omega =\mathbb {R} ^{256^{2}}$ I256§158 $\Omega =\mathbb {R} ^{256^{2}}$ ){\displaystyle {\mathcal {N}}(0,\epsilon ^{2}I_{256^{2}}). Bu işlem tersine çevrilebilir çünkü Gauss evrişimi matematiksel olarak ısı çekirdeğinin evrişimine eşdeğerdir.Sonuç olarak, herhangi bir dağıtım için ${\displaystyle \mu \ in {\mathcal {P}}(\mathbb {R} ^{n})$ , elde edilen evrilmiş dağılım ${\displaystyle K_{\text{trans}}*\mu$ , alanı ısıtmak olarak kavramsallaştırılabilir $\mathbb {R} ^{n$ tam olarak şuna göre ${\displaystyle \mu$ ve ardından $\epsilon ^{2}/4$ . Sonuç olarak, orijinal dağıtım ${\displaystyle \mu$ , ısı denklemini aynı süre içinde zamanda geriye doğru çözerek kurtarılabilir, $\epsilon ^{2}/4$ .

Tersine çevrilebilir veri artırma tekniklerinin ek örnekleri, başvurulan yayında ayrıntılı olarak açıklanmıştır.

SinGAN

SinGAN, eğitim için yalnızca tek bir görüntü kullanan ve ardından doğrudan bu görüntü üzerinde büyütme gerçekleştiren aşırı bir veri artırma uygulamasını temsil ediyor. Üretken Rekabetçi Ağ (GAN) mimarisi, çok ölçekli bir ardışık düzenin uygulanması yoluyla bu eğitim metodolojisi için özel olarak tasarlanmıştır.

Oluşturucu ${\displaystyle G$ , $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ 31§ ∘ G §41 $G$ ∘ ⋯ ∘ G N {\displaystyle G=G_{1}\circ G_{2}\circ \cdots \circ G_{N} . En düşük seviyeli oluşturucu bir görüntü üretir $G_{N}(z_{N})$ 'i en kaba çözünürlükte kullanın. Oluşturulan bu görüntü daha sonra ${\displaystyle r(G_{N}(z_{N}))$ ve daha sonra bir görüntü oluşturan sonraki seviyeye girdi olarak sağlanır $G_{N-1}(z_{N-1}+r(G_{N}(z_{N}))))$ 160§ ( z N − §174175§ + r ( G N ( z N ) ) ) {\displaystyle G_{N-1}(z_{N-1}+r(G_{N}(z_{N}))) 'i daha iyi bir çözünürlükte kullanarak bu işlemi yinelemeli olarak sürdürün. Benzer şekilde ayırıcı da piramidal ayrıştırma şeklinde yapılandırılmıştır.

StyleGAN serisi

StyleGAN ailesi, Nvidia'nın araştırma bölümü tarafından geliştirilen ve piyasaya sürülen bir mimari tasarım koleksiyonunu kapsar.

Aşamalı GAN

Progressive GAN, büyük ölçekli görüntü oluşturmaya yönelik GAN'ların istikrarlı eğitimi için bir metodoloji sunar. Bu, GAN üretecinin piramidal bir şekilde düşük çözünürlükten yüksek çözünürlüğe doğru aşamalı olarak genişletilmesiyle elde edilir. SinGAN'a benzer şekilde, jeneratörü şu şekilde ayrıştırır: $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ 15§ ∘ G §25 $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ ∘ ⋯ ∘ G N {\displaystyle G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}} ve benzer şekilde ayırıcı $D=D_{1}\circ D_{2}\circ \cdots \circ D_{N}$ 69§ ∘ D §79 $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ ∘ ⋯ ∘ D N {\displaystyle D=D_{1}\circ D_{2}\circ \cdots \circ D_{N} .

Eğitimin ilk aşamasında yalnızca ${\displaystyle G_{N},D_{N}>$ , 4x4 görüntüler üretmek için bir GAN çerçevesinde kullanılır. Daha sonra, $G_{N-1},D_{N-1}$ 48§,DN−§6263§{\displaystyle G_{N-1},D_{N-1}, GAN'ı 8x8 görüntüler oluşturmak için ikinci aşamasına ilerleterek aşamalı olarak dahil edilir. Bu yinelemeli süreç, GAN 1024x1024 görüntü oluşturma kapasitesine ulaşana kadar devam eder.

GAN sürecinin ardışık aşamaları arasındaki ani geçişleri azaltmak için, yeni eklenen her katman, başvurulan yayındaki Şekil 2'de gösterildiği gibi kademeli olarak "harmanlanır". Örneğin ikinci aşama GAN sürecinin başlatılması şu şekilde ilerliyor:

Önceden, GAN işlemi $G_{N},D_{N$ , 4x4 görüntülerin oluşturulmasından ve ayrıştırılmasından sorumluydu.
Daha sonra, GAN süreci $((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1})$ 11§−α)+α⋅GN−§3738§)∘u∘GN,DN∘d∘((§8182§−α)+α⋅DN−§108109§){\displaystyle ((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1}) 8x8 görüntüleri oluşturmak ve ayırt etmek için. Bu bağlamda, ${\displaystyle u,d$ sırasıyla görüntü yukarı örnekleme ve aşağı örnekleme işlemlerini temsil eder. Parametre ${\displaystyle \alpha$ , görüntü kompozisyonunda değerini 0'dan 1'e yumuşak bir şekilde değiştiren alfa kanalına benzer şekilde bir uyum faktörü olarak işlev görür.

StilGAN-1

StyleGAN-1, Progressive GAN'ın öğelerini sinir tarzı aktarım metodolojileriyle bütünleştirir.

StyleGAN-1'in temel mimari özelliği, Progressive GAN'ınkini yansıtan aşamalı büyüme mekanizmasıdır. Oluşturulan her görüntü bir sabit olarak başlatılır ${\displaystyle 4\times 4\times 512$ dizisi, daha sonra stil blokları aracılığıyla yinelemeli işleme tabi tutuluyor. Her stil bloğunda, bir afin dönüşüm, özellikle de "uyarlanabilir örnek normalleştirme" yoluyla bir "stil gizli vektörü" uygulanır; bu teknik, sinir stili aktarımındaki Gramian matris uygulamasına benzer bir tekniktir. Bunu takiben gürültü eklenir ve ortalama çıkarılıp varyansa bölünerek veriler normalleştirilir.

Eğitim aşamasında, oluşturulan her görüntü için genellikle tek bir stil gizli vektör kullanılır; ancak bazen iki vektör kullanılır ("karıştırma düzenlemesi" olarak adlandırılır). Bu uygulama, farklı stil gizli vektörleri alabilecek diğer bloklara bağımlılığı önleyerek her stil bloğu tarafından bağımsız stilizasyonu teşvik etmeyi amaçlamaktadır.

Eğitim sonrası, bireysel stil bloklarına birden fazla stil gizli vektörü sağlanabilir. Alt katmanlara yönlendirilen vektörler büyük ölçekli biçimsel nitelikleri yönetirken, daha yüksek katmanlara yönlendirilenler ince ayrıntılı biçimsel öğeleri yönetir.

Stil karıştırma iki görüntü arasında da yürütülebilir, ${\displaystyle x,x'$ . Başlangıçta, ${\displaystyle z,z'$ öyle ki ${\displaystyle G(z)\approx x,G(z')\approx x'$ . Bu işleme "bir görüntünün stil gizli alanına geri yansıtılması" adı verilir. Daha sonra, ${\displaystyle z$ alt stil bloklarına girilebilir ve ${\displaystyle z'$ 'i daha yüksek stil bloklarına yerleştirin. Bu, $x {\displaystyle x$ ve ${\displaystyle x'$ . Bu metodoloji birden fazla görsel oluşturacak şekilde genişletilebilir.

StilGAN-2

StyleGAN-2, öncelikle evrişim katmanlarının ağırlıklarını doğrudan dönüştürmek için gizli stil vektörünü kullanarak ve böylece "blob" yapı sorununu hafifleterek StyleGAN-1'e göre bir ilerlemeyi temsil eder.

Bu model daha sonra StyleGAN-2-ADA tarafından güncellendi; burada "ADA", "adaptif" anlamına gelir. Bu yineleme, daha önce ayrıntılı olarak açıklandığı gibi, tersine çevrilebilir veri artırmayı içerir. Ayrıca, sıfırdan başlayıp "aşırı uyum sağlayan buluşsal yöntem" önceden tanımlanmış bir hedef seviyeye ulaşana kadar giderek artan şekilde veri artırmanın kapsamını dinamik olarak ayarlar, dolayısıyla "uyarlanabilir" olarak adlandırılır.

StilGAN-3

StyleGAN-3, resmi gösterilerde gözlemlenebilen "doku yapışması" olgusunu çözerek StyleGAN-2'yi geliştirir. Araştırmacılar bu sorunu Nyquist-Shannon örnekleme teoremi merceğinden analiz ederek jeneratörün katmanlarının işledikleri pikseller içindeki yüksek frekanslı sinyallerden yararlanmayı öğrendiğini öne sürdü.

Bunun üstesinden gelmek için, jeneratörün her katmanı arasına sıkı alçak geçiren filtrelerin yerleştirilmesini içeren bir metodoloji önerildi. Bu yaklaşım, jeneratörü pikselleri yalnızca ayrı varlıklar olarak ele almak yerine, temeldeki sürekli sinyallerle tutarlı bir şekilde işlemeye zorlar. Ek olarak, tamamlayıcı sinyal filtrelerinin uygulanması yoluyla dönme ve öteleme değişmezliği sağlandı. Sonuç olarak StyleGAN-3, doku yapışması sorununu etkili bir şekilde azaltır ve düzgün dönüş ve öteleme sergileyen görüntüler üretir.

Alternatif Uygulamalar

Üretken ve ayırt edici veri modellemedeki birincil rollerinin ötesinde, Üretken Rekabetçi Ağlar (GAN'lar), çeşitli uygulamalarda kullanım alanı buldu.

GAN'lar, özellikle derin pekiştirmeli öğrenme bağlamlarında, gizli özellik alanlarının hizalanmasını kolaylaştırmak için transfer öğreniminde kullanılmıştır. Bu, hem kaynak hem de hedef görevlerden gelen yerleştirmelerin, bağlamı çıkarmaya çalışan ayırıcıya girilmesiyle gerçekleştirilir. Sonraki kayıp, kodlayıcı aracılığıyla ters şekilde geriye yayılır.

Uygulamalar

Bilimsel Alanlar

Astronomik görüntülerin yinelemeli yeniden inşası.
Karanlık madde araştırmaları için yerçekimsel merceklenmenin simülasyonu.
Bu modeller, karanlık maddenin belirli uzaysal yönlerdeki dağılımını tasvir edebilir ve ilişkili yerçekimsel merceklenme olayını tahmin edebilir.
Aynı zamanda yüksek enerji fiziği deneylerinde kullanılan kalorimetreler içinde yüksek enerjili jetlerin oluşumunu ve ardından gelen sağanakları modellemek için de kullanılırlar.
GAN'lar, parçacık fiziği deneyleriyle ilgili hesaplama açısından yoğun simülasyonlardaki darboğazları yaklaşık olarak tahmin edebilir. Mevcut ve gelecekteki CERN deneylerindeki uygulamaları, simülasyonları hızlandırma ve aslına uygunluklarını artırma kapasitelerini ortaya koydu.
Ayrıca, GAN'lar türbülanslı akış sistemleri içindeki hız ve skaler alanların yeniden yapılandırılmasını kolaylaştırır.

GAN'lar kullanılarak sentezlenen moleküller, fare modellerinde deneysel olarak doğrulanmıştır.

Tıbbi Uygulamalar

Hasta mahremiyeti tıbbi görüntülemede önemli bir endişe kaynağıdır ve sıklıkla araştırmacıların ilgili veri kümelerine erişimini engeller. MRI ve PET taramaları da dahil olmak üzere tıbbi görüntüleri sentezleyerek bu sorunu hafifletmek için Üretken Rekabetçi Ağlar (GAN'lar) kullanılmıştır.

GAN'lar, glokomlu görüntülerin tespit edilmesine yardımcı olabilir ve böylece kısmi veya tam görme kaybının önlenmesi için kritik önem taşıyan erken teşhisi destekleyebilir.

Ayrıca, GAN'lar, ölen tarihi kişilerin adli yüz rekonstrüksiyonları için de kullanılmıştır.

Kötü Amaçlı Uygulamalar

GAN tabanlı insan görüntüsü sentezinin, uydurma, potansiyel olarak suçlayıcı fotoğraf ve videolar oluşturmak gibi hain amaçlar için kullanılması potansiyeline ilişkin endişeler ortaya çıktı. Üstelik GAN'lar, var olmayan kişilerin ayırt edici, fotogerçekçi profil resimlerini üreterek sahte sosyal medya profillerinin otomatik olarak oluşturulmasına olanak tanıyor.

2019'da Kaliforniya eyaleti iki önemli yasayı yürürlüğe koydu: Rıza dışı uydurma pornografi oluşturmak için insan imajı sentezi teknolojilerinin kullanılmasını yasaklayan Meclis Yasa Tasarısı (AB) 602 ve siyasi adayların yer aldığı manipüle edilmiş videoların yayılmasını yasaklayan AB 730. Seçime 60 gün kaldı. Meclis üyesi Marc Berman tarafından yazılan ve Vali Gavin Newsom tarafından 3 Ekim 2019'da imzalanan her iki yasa tasarısı da 2020'de yürürlüğe girdi.

Savunma İleri Araştırma Projeleri Ajansı'nın (DARPA) Medya Adli Bilimleri programı, özellikle GAN'lar aracılığıyla oluşturulan içerik de dahil olmak üzere, uydurma medyayla mücadele etmeye yönelik metodolojileri araştırıyor.

Moda, Sanat ve Reklamcılıktaki Uygulamalar

GAN'lar sanatsal yaratımlar üretme kapasitesine sahiptir; The Verge Mart 2019'da "GAN'lar tarafından oluşturulan görsellerin çağdaş yapay zeka sanatının belirleyici görünümü haline geldiğini" belirtti. Ayrıca GAN'lar şu amaçlarla kullanılabilir:

fotoğrafları iç boyama,
diğer öğelerin yanı sıra iç tasarım, endüstriyel tasarım ve ayakkabıların moda modelleri, gölgeleri ve fotogerçekçi görüntülerini oluşturur. Bu ağların Facebook tarafından kullanıldığı bildiriliyor.

Araştırmacılar, bazen "yaratıcı rakip ağlar" olarak da adlandırılan GAN'ların sanatsal yaratıcılık için uygulanmasını araştırdılar. Örneğin, WikiArt'tan 14. yüzyıldan 19. yüzyıla kadar uzanan 15.000 portre üzerinde eğitim alan bir GAN, 2018 yılında Edmond de Belamy tablosunu üretti ve bu tablo daha sonra 432.500 ABD dolarına satıldı.

Video oyunu modlama topluluğu içinde, eski video oyunlarındaki düşük çözünürlüklü 2D dokuları yükseltmek için GAN'lardan yararlanıldı. Bu süreç, görüntü eğitimi yoluyla dokuların 4K veya daha yüksek çözünürlüklerde yeniden oluşturulmasını, ardından oyunun doğal çözünürlüğüne uyum sağlamak için alt örneklemeyi ve böylece süper örnekleme kenar yumuşatmayı taklit etmeyi içerir.

2020'de Artbreeder, psikolojik web korku serisi Ben Drished'in devamı için birincil düşmanın yaratılmasında görevlendirildi. Yazar daha sonra, sınırlı bütçeler ve personel ile çalışan bağımsız sanatçılar için varlık oluşturmadaki faydalarından dolayı GAN uygulamalarını övdü.

Mayıs 2020'de Nvidia'daki araştırmacılar, "GameGAN" olarak adlandırılan ve Pac-Man oyununu yalnızca oynanışı gözlemleyerek yeniden yaratabilen bir yapay zeka sistemi geliştirdiler.

Ağustos 2019'da, her biri uyumlu sözler ve melodilere sahip 12.197 MIDI şarkıdan oluşan önemli bir veri kümesi, kolaylaştırmak için derlendi. Koşullu GAN-LSTM mimarilerini kullanan şarkı sözlerinden sinirsel melodi üretimi.

Çeşitli Uygulamalar

GAN'lar şunlara uygulandı:

Bireyin görünümünde yaşa bağlı olası değişiklikleri göstermek,
görüntülerden üç boyutlu nesne modellerini yeniden oluşturma,
3B nokta bulutları olarak temsil edilen yeni nesneler oluşturabilir
Video dizilerindeki hareket modellerini modelleyebilir,
Haritalarda eksik olan özellikleri yeniden boyamak, kartografik stilleri aktarmak veya sokak görünümü görüntülerini geliştirmek,
görüntü oluşturmak için geri bildirim mekanizmalarından faydalanmak ve potansiyel olarak geleneksel görsel arama sistemlerinin yerini almak,
İklim değişikliğinin belirli konut yapıları üzerindeki öngörülen etkisini görselleştirmek,
Bir kişinin yüz görüntüsünü ses özelliklerine göre yeniden oluşturur.
Bu sistem, konuşan bir kişinin videolarını oluşturur ve bu kişinin yalnızca tek bir fotoğrafik girişini gerektirir.
Yinelenen dizi oluşturma.

Geçmiş

1991 yılında Juergen Schmidhuber, sıfır toplamlı bir oyun içinde sinir ağlarını kullanan bir çerçeve olan "yapay merakı" tanıttı. Bu kurulum, potansiyel çıktı modelleri üzerinde bir olasılık dağılımı oluşturan, üretken bir model olarak işlev gören birincil bir ağı içerir. İkincil bir ağ daha sonra bu modellere çevresel tepkileri tahmin etmek için gradyan inişini kullanır. Üretken Çekişmeli Ağlar (GAN'lar), çevresel reaksiyonun ikili (1 veya 0) olduğu ve ilk ağın çıktısının önceden tanımlanmış bir kümeye ait olup olmamasına bağlı olduğu bir örnek olarak kavramsallaştırılabilir.

Gelişme yörüngeleri farklı olsa da diğer araştırmacılar da benzer kavramlar tasarladılar. Rakip ağları içeren erken bir fikir, Olli Niemitalo'nun 2010 tarihli bir blog yazısında dile getirildi. Bu özel konsept hiçbir zaman uygulanmadı ve oluşturucusunda stokastisiteden yoksundu, dolayısıyla üretken bir model olarak sınıflandırılması engellendi. Artık koşullu bir GAN veya cGAN olarak tanınmaktadır. Ayrıca Wei Li, Melvin Gauci ve Roderich Gross tarafından 2013 yılında hayvan davranışını modellemek için GAN benzeri bir yaklaşım uygulandı.

Gürültü karşılaştırmalı tahmin, aynı kayıp fonksiyonunu kullanarak GAN'lar için başka bir temel ilham kaynağı oldu. Goodfellow, 2010'dan 2014'e kadar yaptığı doktora çalışmaları sırasında bu tekniği araştırdı.

Çekişmeli makine öğrenimi, üretken modellemenin ötesine geçiyor ve sinir ağlarının ötesinde çeşitli modellerde uygulamalar buluyor. Kontrol teorisi alanında, oyun teorisi çerçevesinde sağlam kontrolörleri eğitmek için 2006 yılında sinir ağı tabanlı çekişmeli öğrenme kullanıldı. Bu, küçültme politikası (denetleyici) ile maksimize etme politikası (bozulma) arasında değişen yinelemeleri içeriyordu.

2017'de görüntü iyileştirme için piksel düzeyindeki doğruluk yerine gerçekçi dokulara öncelik veren bir GAN kullanıldı ve bu da yüksek büyütmede üstün görüntü kalitesiyle sonuçlandı. Aynı yıl, ilk sentetik insan yüzlerinin üretimi de gerçekleşti ve daha sonra Şubat 2018'de Grand Palais'te sergilendi. StyleGAN tarafından 2019'da üretilen yüzler, Deepfake'lerle karşılaştırmalar topladı.

Yapay zeka sanatı

Yapay zeka sanatı
Deepfake – Yapay zeka aracılığıyla gerçekçi bir şekilde oluşturulan medya içeriği.
Derin öğrenme – Makine öğreniminde uzmanlaşmış bir alt alan.
Yayılma modeli – Sürekli olasılık dağılımlarının üretken modellemesine yönelik hesaplamalı bir yöntem.
Üretken yapay zeka – Üretken modeller kullanan bir yapay zeka alt kümesi.Yönlendirme hedeflerinin kısa açıklamalarını gösteren sayfalar
Sentetik medya – Medya içeriğinin yapay yollarla otomatik olarak oluşturulması.

Referanslar

Knight, Will. "2017 Yılında Yapay Zeka İçin 5 Büyük Tahmin". MIT Teknoloji İncelemesi. Erişim tarihi: 5 Ocak 2017.

Şövalye, Will. "2017 Yılında Yapay Zeka İçin 5 Büyük Tahmin". MIT Teknoloji İncelemesi. Erişim tarihi: 5 Ocak 2017.Karras, Tero; Laine, Samuli; Aila, Timo (2018). "Üretken Rekabetçi Ağlar için Stil Tabanlı Jeneratör Mimarisi". arXiv:1812.04948 [cs.NE].Wang, Zhengwei; O, Qi; Ward, Tomas E. (2019). "Bilgisayarlı Görmede Üretken Çekişmeli Ağlar: Bir Araştırma ve Taksonomi". arXiv:1906.01529 [cs.LG].Kaynak: TORİma Akademi Arşivi

Üretken rakip ağ (Generative adversarial network)