Üretken rakip ağ (GAN), makine öğrenimi çerçevelerinin bir kategorisini temsil eder ve üretken yapay zeka içinde önemli bir yaklaşım olarak durur. Bu konsept ilk olarak Haziran 2014'te Ian Goodfellow ve işbirlikçileri tarafından tasarlandı. Bir GAN'da iki farklı sinir ağı, bir aracının kazandığı avantajın diğerinin uğradığı zarara doğrudan karşılık geldiği sıfır toplamlı bir oyun olarak yapılandırılmış rekabetçi bir etkileşime girer.
Üretken rekabet ağı (GAN), bir makine öğrenimi çerçeveleri sınıfıdır ve üretken yapay zekaya yaklaşmak için öne çıkan bir çerçevedir. Konsept ilk olarak Haziran 2014'te Ian Goodfellow ve meslektaşları tarafından geliştirildi. Bir GAN'da iki sinir ağı, bir aracının kazancının diğer aracının kaybı olduğu sıfır toplamlı bir oyun biçiminde birbiriyle rekabet eder.
Bir eğitim veri seti sağlandığında, bu metodoloji orijinal eğitim setininkilerle aynı istatistiksel özellikleri sergileyen yeni veriler üretme yeteneği kazanır. Örneğin, fotografik görüntüler kullanılarak eğitilmiş bir GAN, insan algısına en azından yüzeysel olarak özgün görünen ve çok sayıda gerçekçi niteliğe sahip olan yeni fotoğrafları sentezleyebilir. Başlangıçta öncelikle denetimsiz öğrenme için üretken bir model olarak kavramsallaştırılan GAN'lar, daha sonra yarı denetimli öğrenme, tam denetimli öğrenme ve takviyeli öğrenme paradigmaları genelinde yararlılık gösterdi.
GAN'ın temel ilkesi, kendisi de dinamik güncellemelerden geçen, girdinin algılanan "gerçekliğini" değerlendirebilen ek bir sinir ağı olan bir ayırıcı tarafından kolaylaştırılan "dolaylı" bir eğitim mekanizmasına dayanır. Sonuç olarak, jeneratörün amacı belirli bir görüntüden farklılığını en aza indirmek değil, bunun yerine ayrımcıyı aldatmaktır. Bu yaklaşım, model içinde denetimsiz öğrenmeyi kolaylaştırır.
GAN'lar, iki kurucu ağ arasında devam eden evrimsel silahlanma yarışıyla karakterize edilen, evrimsel biyolojide gözlemlenen taklitçilikle paralellikler sergiler.
Tanım
Matematiksel Formülasyon
Orijinal Üretken Rekabet Ağı (GAN) resmi olarak sonraki oyun olarak tanımlanır:
Her olasılık alanı,Her olasılık alanı , bir GAN oyunu kurar.
Oyun iki katılımcıdan oluşur: bir oluşturucu ve bir ayırıcı.
Oluşturucunun strateji kümesi şu şekilde tanımlanır: , tüm olasılık ölçümlerinin toplanmasını kapsar .
discriminator'ın strateji seti Markov çekirdeklerinin koleksiyonunu içerir . Burada, , .
GAN (Üretimsel Rekabet Ağı) çerçevesi, şu amaç fonksiyonuyla tanımlanan sıfır toplamlı bir oyun olarak çalışır: Bu çerçevede, jeneratörün amacı bu fonksiyonu en aza indirmek, ayrıştırıcının hedefi ise maksimuma çıkarmaktır.
Oluşturucunun birincil amacı, , çıktı dağıtımını mümkün olduğunca hassas bir şekilde hizalayarak. Bunun tersine, ayırıcı, referans dağılımdan kaynaklanan girdiler için 1'e yakın bir değer ve oluşturucu tarafından üretilen girdiler için 0'a yakın bir değer üretecek şekilde tasarlanmıştır.
Pratik uygulamalarda,
Üretici ağ, aday verilerinin üretilmesinden sorumludur, oysa ayrımcı ağ bu adayları değerlendirir. Bu etkileşim, veri dağıtımlarına odaklanan rekabetçi bir dinamik oluşturarak oluşturucuyu gizli bir alandan gerçek veri dağıtımına kadar bir eşleme öğrenmeye zorlar. Amacı, ayırıcı tarafından gerçek verilerden ayırt edilemeyecek adayları sentezlemektir. Ayrımcının rolü bu adayları doğru bir şekilde sınıflandırmaktır; ancak jeneratörün performansı arttıkça ayırıcının görevi giderek zorlaşır ve bu da hata oranının artmasına neden olur.
Başlangıçta, ayrımcıyı eğitmek için önceden var olan bir veri kümesi kullanılır. Bu eğitim süreci, ayırıcının tatmin edici bir doğruluk düzeyine ulaşana kadar veri kümesindeki örneklere maruz bırakılmasını içerir. Jeneratörün eğitimi ise aksine, ayrımcıyı aldatma yeteneğine bağlıdır. Tipik olarak jeneratör, çok değişkenli normal dağılım gibi belirli bir gizli alandan örneklenen rastgele bir girdi alır. Daha sonra ayırıcı, jeneratör tarafından sentezlenen adayları değerlendirir. Her iki ağ da bağımsız geri yayılım prosedürlerinden geçerek, oluşturucunun üstün örnekler üretmesine ve ayırıcının sentetik verileri tanımlama yeterliliğini geliştirmesine olanak tanır. Görüntü oluşturma bağlamında, oluşturucu genellikle ters evrişimli bir sinir ağı kullanırken, ayırıcı genellikle evrişimli bir sinir ağı kullanır.
Diğer istatistiksel makine öğrenimi metodolojileriyle ilişki
Üretken Rekabetçi Ağlar (GAN'lar), örtük üretken modeller olarak kategorize edilir çünkü olabilirlik fonksiyonunu açıkça modellemezler veya belirli bir örnekle ilişkili gizli değişkeni tanımlamaya yönelik bir mekanizma sunarak onları akış tabanlı üretken modeller gibi alternatiflerden ayırırlar.
WaveNet ve PixelRNN dahil tamamen görünür inanç ağlarının ve diğer otoregresif modellerin aksine, GAN'lar tek geçişte tam bir örnek oluşturma yeteneğine sahiptir, bu da birden fazla ağ yineleme ihtiyacını ortadan kaldırır.
Boltzmann makinelerinden ve doğrusal Bağımsız Bileşen Analizinden (ICA) farklı olarak GAN'lar, ağ mimarilerinde kullanılan işlevsel formlar üzerinde hiçbir kısıtlama getirmez.
Sinir ağlarının evrensel yaklaşım araçları olarak işlev gördüğü göz önüne alındığında, GAN'lar şunları sergiler: asimptotik tutarlılık Değişken otomatik kodlayıcılar aynı zamanda evrensel yaklaşım araçları olsa da, bu özellik 2017 itibarıyla kanıtlanmamıştır.
Matematiksel Özellikler
Ölçüm-Teorik Hususlar
Bu bölüm, bu metodolojileri destekleyen temel matematik teorilerini açıklamaktadır.
Ölçü teorisine dayanan çağdaş olasılık teorisi dahilinde, bir olasılık uzayı, bir σ-cebirinin dahil edilmesini gerektirir. Sonuç olarak, GAN oyununun daha titiz bir formülasyonu sonraki değişiklikleri gerektirecektir:
Her olasılık alanı,olarak gösterilir , bir GAN oyunu kurar.
Oluşturucunun strateji kümesi şu şekilde tanımlanır: , tüm olasılık ölçümlerinin koleksiyonunu temsil eder ölçüm alanı içinde .
Ayrımcının strateji seti Markov çekirdeklerinin koleksiyonunu içerir , burada .
Pratik uygulamaların genellikle ölçülebilirlik sorunlarıyla karşılaşmadığı göz önüne alındığında, bu konu hakkında daha fazla tartışmanın gereksiz olduğu düşünülmektedir.
Strateji Kümesi Seçimi
Üretken Rekabet Ağı (GAN) çerçevesinin en genel formülasyonunda, ayrımcının strateji alanı tüm Markov çekirdeklerini kapsar . Bunun tersine, oluşturucunun strateji seti herhangi bir rastgele olasılık dağılımını içerir , .
Bununla birlikte, gösterileceği gibi, herhangi bir , deterministik olduğunu kanıtlıyor. Sonuç olarak, ayırıcının stratejilerini deterministik işlevlerle sınırlamak herhangi bir genellik kaybına yol açmaz. Tipik olarak, pratik uygulamalarda, derin bir sinir ağı olarak gerçekleştirilir.
Jeneratörle ilgili olarak, teorik olarak herhangi bir hesaplanabilir olasılık dağılımını temsil etme yeteneğine sahiptir; pratik uygulamalarda genellikle bir ileri itme işlemi olarak gerçekleştirilir: . Bu, rastgele bir değişkenle başlatmayı içerir , burada , kolayca hesaplanabilen bir olasılık dağılımını temsil eder (ör. tek biçimli veya Gaussian). Daha sonra, bir tanımlandı. Ortaya çıkan dağılım bu durumda .
Oluşturucunun stratejisi genellikle yalnızca şu şekilde tanımlanır: , with örtülü olarak anlaşılmaktadır. Bu çerçevede, GAN oyununun amaç fonksiyonu şu şekilde ifade edilir:
Üretimsel Yeniden Parametreleştirme
GAN mimarisi iki ana bileşenden oluşur. Bunlardan ilki, optimizasyonu özellikle şu biçimde bir oyun olarak çerçevelemeyi içerir: , geleneksel optimizasyon yapısından farklıdır. . İkinci bileşen içine , bu bir yeniden parametrelendirme hilesi olarak kabul edilir.
Önemini tam olarak takdir etmek için, GAN'ları, sıklıkla "maksimum olasılık tahmininde ve bağlantılı olarak ortaya çıkan zorlu olasılık hesaplamaları" tarafından engellenen önceki üretken model öğrenme teknikleriyle karşılaştırmak gerekir.
Eş zamanlı olarak Kingma ve Welling, Rezende ve diğerleri ile birlikte yeniden parametrelendirme kavramını bağımsız olarak genelleştirilmiş bir stokastik geriye yayılım metodolojisine dönüştürdü. İlk uygulamalarından biri değişken otomatik kodlayıcıydı.
Hareket Sırası ve Stratejik Dengeler
Hem temel yayın hem de sonraki araştırmaların çoğunluğu, genellikle jeneratörün eylemi başlattığını ve ardından ayrımcının hareketini gerçekleştirdiğini öne sürüyor. Bu sıralı etkileşim sonraki minimaks oyununu oluşturur:
Hem oluşturucu hem de ayırıcı için strateji kümeleri sonlu sayıda stratejiyle tanımlandığında, minimaks teoremi şunu belirtir:, hamle sırasının önemsiz olduğunu ima ediyor.
Ancak, her iki strateji seti de sonlu olarak yayılmadığından minimaks teoremi uygulanamaz ve bu da "denge" kavramını karmaşıklaştırır. Sonuç olarak, aşağıdaki farklı denge tanımları ortaya çıkar:
- Jeneratör ilk olarak hareket ettiğinde denge ve bunu ayırıcı takip eder:
- Ayırıcının ilk önce harekete geçtiği ve ardından üretecin izlediği denge durumu şu şekilde tanımlanır:
- Bir Nash dengesi , eş zamanlı bir hareket sırası altında kararlılığıyla karakterize edilir ve aşağıdaki koşulları karşılar: .
Genel oyun teorisi bağlamında bu tür dengelerin var olması veya uyum içinde olması garanti edilmez. Ancak orijinal Üretken Çekişmeli Ağ (GAN) oyununun özel durumu için bu dengelerin var olduğu ve eşdeğer olduğu kanıtlanmıştır. Tersine, daha genelleştirilmiş GAN oyun formülasyonlarında bu dengelerin varlığı veya anlaşması mutlaka garanti edilmez.
GAN Oyunu için Temel Teoremler
Orijinal GAN makalesi aşağıdaki iki teoremi oluşturdu:
D
Üretken Rekabetçi Ağların (GAN'lar) Eğitimi ve Değerlendirilmesi
Eğitim Metodolojisi
Yakınsama Kararlılığındaki Zorluklar
Üretken Çekişmeli Ağ (GAN) oyununda, hem oluşturucunun hem de ayırıcının kendi strateji setlerinin tamamına erişime sahip olduğu benzersiz bir küresel denge noktası mevcuttur; tam tersi, strateji setleri kısıtlandığında bu denge garanti edilemez.
Pratik uygulamalarda, jeneratörün erişimi şu formdaki ölçümlerle sınırlıdır: . Burada, , , while , tekdüze veya normal dağılım gibi kolayca örneklenebilir bir dağılımı belirtir. Buna uygun olarak, ayırıcı yalnızca , bu aynı zamanda parametrelerle tanımlanan bir sinir ağı işlevidir . Bu kısıtlı strateji setleri, ilgili tam strateji setlerinin kaybolacak kadar küçük bir kısmını oluşturur.
Ayrıca, bir denge noktası devam etse bile, bunun tanımlanması, tüm potansiyel sinir ağı fonksiyonlarını kapsayan yüksek boyutlu uzayda bir araştırmayı gerektirir. Bu dengeyi bulmak için gradyan inişini kullanan geleneksel yaklaşımın, Üretken Rekabetçi Ağlar (GAN'ler) için sıklıkla etkisiz olduğu kanıtlanıyor ve çoğu zaman oyunun çeşitli başarısızlık modlarına "çökmesine" yol açıyor. Yakınsama kararlılığını arttırmak için, belirli eğitim metodolojileri, düşük çözünürlüklü veya karmaşık olmayan görüntüler oluşturmak (örneğin, tek tip bir arka plana karşı tek bir nesne) gibi daha basit bir görevle başlar ve eğitim süreci boyunca görevin karmaşıklığını kademeli olarak artırır. Bu yaklaşım temel olarak bir müfredat öğrenme paradigmasını uygular.
Mod Çöküşü Olgusu
Üretimsel Rekabetçi Ağlar (GAN'lar), sıklıkla mod çöküşü ile karşı karşıya kalır; bu durum, etkili bir şekilde genellemede başarısız oldukları ve dolayısıyla giriş verilerinde mevcut modların tamamının atlandığı bir durumdur. Örneğin, her rakamdan çok sayıda örnek içeren MNIST veri kümesi üzerinde eğitilmiş bir GAN, yalnızca 0 rakamının görüntülerini üretebilir. Bu özel soruna "Helvetica senaryosu" adı verilmiştir.
Mod çöküşünün altında yatan yaygın bir mekanizma, jeneratörün yalnızca sınırlı bir olası değerler alt kümesi üretmesini veya hedef dağılımın eksik bir temsilini üretmesini içerir. Ayırıcının eğitimi yalnızca gerçek ve sentetik numuneler arasında ayrım yapmaya odaklandığından, oluşturulan numuneleri doğru bir şekilde gerçek olarak sınıflandırır. Ancak bu süreç, GAN'ı hedef dağıtımın tüm spektrumunu kapsayan verileri üretemediği için cezalandırmaz.
Parametrelendirilmemiş veya oluşturucuya göre yetersiz hızda eğitilmiş olanlar gibi zayıf ayırıcılar da dağıtımın tüm desteğini tam olarak ayırt edemeyebilir. Sonuç olarak, yalnızca hedef dağılımın son derece eksik bir bölümü için doğru ayrımcılığı başarabilirler.
Bazı araştırmacılar temel sorunu, ihmal kalıplarını gözden kaçıran yetersiz bir ayrımcı ağa bağlarken, diğerleri bunun sorumlusunun amaç fonksiyonunun uygunsuz seçimi olduğunu iddia ediyor. Önerilen çok sayıda çözüme rağmen mod çökmesi çözülmemiş bir zorluk olmaya devam ediyor.
En son teknolojiye sahip bir mimari olan BigGAN (2019) bile mod çökmesini atlatamadı. Geliştiricileri, "eğitimin sonraki aşamalarında çöküşün gerçekleşmesine izin verme ve bu süreye kadar modelin iyi sonuçlar elde etmek için yeterince eğitilmesine izin verme" stratejisini tercih etti.
İki Zaman Ölçeği Güncelleme Kuralı
İki zaman ölçekli güncelleme kuralı (TTUR), ayırıcıya kıyasla oluşturucu için daha düşük bir öğrenme hızı ayarlayarak GAN yakınsama kararlılığını artırmak için tanıtıldı. Yazarlar, bu koşullar altında eğitildiklerinde GAN'ların "hafif varsayımlar altında durağan bir yerel Nash dengesine yakınlaştığını" göstermektedir. Ayrıca, bu özelliğin stokastik gradyan iniş algoritmalarında sıklıkla kullanılan Adam optimize ediciye uygulanabileceğini göstermektedir.
Ancak, yerel bir Nash dengesinin doğal olarak mod çöküşünü engellemediğini kabul etmek çok önemlidir. Örneğin, MNIST veri kümesi üzerinde eğitilen ve yalnızca tek bir rakam üretecek şekilde çöken bir Üretken Rekabet Ağı (GAN), mod çöküşü sergilemesine rağmen yine de makalenin hipotezlerini karşılayabilir.
Kaybolan degrade
Tersine, ayırıcı, bilgiyi oluşturucuya göre aşırı hızlı bir hızda edinirse, ayırıcı . Sonuç olarak, oluşturucu , ayarlarında yapılan ayarlamalardan bağımsız olarak sürekli olarak yüksek kayıp yaşayacaktır. , degradenin sıfıra yaklaşır. Bu koşullar altında, oluşturucu, kaybolan gradyan sorunu olarak bilinen bir olguyu öğrenemez.
Kavramsal olarak, eğer ayrımcı aşırı yeterlilik kazanırsa ve jeneratör, performansını artırmak için yalnızca artımlı ayarlamalar yapmakla (gradyan inişinin özelliği olduğu gibi) sınırlı olduğundan, daha fazla optimizasyon girişiminde bulunmayı bırakır.
Bu sorunu hafifletmeye yönelik önemli bir yaklaşım, Wasserstein GAN'ın uygulanmasını içerir.
Değerlendirme
Üretken Rekabetçi Ağlar (GAN'lar), genellikle, jeneratörün çıktılarının çeşitliliğini ölçen Başlangıç Puanı (IS) kullanılarak değerlendirilir (bir görüntü sınıflandırıcı, genellikle Inception-v3 tarafından belirlenir) veya jeneratörün çıktıları ile belirlenmiş bir referans veri kümesi arasındaki benzerliği değerlendiren Fréchet Başlangıç Mesafesi (FID), (eğitimli bir görüntü belirleyici tarafından kategorize edilir, örneğin son katmanı hariç Inception-v3). Görüntü sentezi için yeni GAN mimarilerini tanıtan çok sayıda araştırma yayını, modellerinin FID veya IS ile ölçülen mevcut son teknoloji performansın ötesindeki ilerlemelerini sıklıkla belgeliyor.
Öğrenilmiş Algısal Görüntü Yaması Benzerliği (LPIPS), alternatif bir değerlendirme yöntemini temsil eder. Bu yaklaşım,
Çeşitleri
Varyantlar
Üretici Rekabet Ağları (GAN'lar), aşağıda ayrıntıları verilen birkaç önemli örnekle birlikte çok çeşitli değişkenleri kapsar.
Koşullu GAN
Koşullu Üretken Rekabetçi Ağlar (GAN'lar), modelin belirtilen ek bilgilere bağlı olarak örnekler oluşturmasını sağlayarak standart GAN'ların işlevselliğini genişletir. Örneğin, girdi olarak bir köpeğin resmi sağlandığında bir kedinin yüzünün görüntüsünü oluşturmak için koşullu bir GAN kullanılabilir.
Üretken Çekişmeli Ağ çerçevesinde, oluşturucu genellikle
Örneğin, ImageNet veri kümesine özgü görüntüler oluşturma görevi verildiğinde, oluşturucunun "kedi" sınıf etiketini aldıktan sonra bir kedi görüntüsü üretebilmesi gerekir.
Orijinal araştırma makalesi, GAN mimarisinin, aşağıdaki koşulları sağlayarak koşullu bir GAN'a doğrudan uyarlanabileceğini vurguladı: hem oluşturucu hem de ayırıcı bileşenlerle ilgili etiketler.
Koşullu Üretken Rekabetçi Ağ (GAN) çerçevesi, sınıf etiketlerini içeren standart GAN paradigmasının bir uzantısı olarak çalışır.Bu, resmi olarak aşağıdaki amaç fonksiyonuyla ifade edilir:
2017'de koşullu bir GAN, ImageNet veri kümesindeki 1000 farklı sınıfta görüntü oluşturma yeteneğini başarıyla gösterdi.
Üretken Rekabetçi Ağlarda Mimari Farklılıklar
Temel GAN çerçevesi son derece çok yönlüdür ve hem oluşturucu için çeşitli parametrelendirmeleri barındırır
Derin Evrişimli GAN (DCGAN): Bu mimari, hem oluşturucu hem de ayırıcı için tamamen evrişimli ve ters evrişimli katmanlardan oluşan derin ağları kullanır ve etkili bir şekilde tam evrişimli ağlar oluşturur.
Öz dikkat GAN (SAGAN): Bu mimari, artık bağlantılı standart öz dikkat modüllerini hem oluşturucuya hem de ayırıcıya entegre ederek Derin Evrişimli GAN'ı (DCGAN) genişletir.
Varyasyonel otomatik kodlayıcı GAN (VAEGAN): Bu model, üretkenliği içinde bir varyasyonel otomatik kodlayıcı (VAE) kullanır. bileşeni.
Transformer GAN (TransGAN): Bu varyant, hem üreteci hem de ayırıcı için saf bir transformatör mimarisini kullanır ve evrişim ve ters evrişim katmanlarını tamamen ortadan kaldırır.
Akış-GAN: Bu model, üreteci için akış tabanlı bir üretken model içerir ve olabilirlik fonksiyonunun verimli bir şekilde hesaplanmasına olanak tanır.
Alternatif Hedeflere Sahip Üretken Rekabet Ağları
Birçok Üretken Çekişmeli Ağ çeşidi, öncelikle oluşturucu ve ayırıcı bileşenlerine uygulanan kayıp fonksiyonlarının değiştirilmesiyle türetilir.
Orijinal GAN:
Karşılaştırmalı analizi kolaylaştırmak için, Üretken Rekabet Ağı'nın (GAN) temel hedefi şu şekilde yeniden ifade edilmiştir:
Orijinal Üretken Rekabet Ağı (GAN) için doymayan kayıp fonksiyonu şu şekilde tanımlanır:
Bu hedefi kullanmanın sonuçları Arjovsky ve arkadaşlarının Bölüm 2.2.2'sinde ayrıntılı olarak incelenmiştir.
Orijinal Üretken Rekabet Ağı (GAN), maksimum olasılık formülasyonu:
lojistik işlevi temsil eder. Ayırıcı optimalliğe ulaştığında, Üretken Rekabetçi Ağın (GAN) doğası gereği maksimum olasılık tahminini tek başına gerçekleştirmekten aciz olmasına rağmen, üretecin gradyanı maksimum olabilirlik tahminiyle aynı hizaya gelir.
Menteşe Kaybı Üreten Çekişmeli Ağlar (GAN'lar):
Wasserstein Üretken Rekabet Ağı (WGAN)
Wasserstein Üretken Rekabet Ağı (GAN), standart GAN çerçevesine iki önemli değişiklik getiriyor:
- Özellikle, ayırıcının strateji seti şu formun ölçülebilir fonksiyonlarını içerir:
, sınırlı bir Lipschitz normuna sahiptir veD : Ω → R {\displaystyle D:\Omega \to \mathbb {R} , burada‖ D ‖ L ≤ K {\displaystyle \|D\|_{L}\leq K önceden belirlenmiş bir pozitif sabiti temsil eder.K {\displaystyle K - WGAN için amaç işlevi şu şekilde tanımlanır:
. {\displaystyle L_{WGAN}(\mu _{G},D):=\operatöradı {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{\text{ref}}}[D(x)]L W G A N ( ,μ G D ) := E x ∼ μ G [ D ( x ) ] −E x [ ∼μ ref D ( x ) ]
WGAN'ın temel hedeflerinden biri mod çökmesi sorununu azaltmaktır. Orijinal yazarlar şunu iddia etti: "Hiçbir deneyde WGAN algoritmasında modun çöktüğüne dair kanıt görmedik."
Çok Oyunculu Üretken Rekabet Ağları
Rakip Otomatik Kodlayıcı
Bir rakip otomatik kodlayıcı (AAE), temel olarak, geleneksel bir Üretken Çekişmeli Ağdan daha çok bir otomatik kodlayıcı olarak çalışır. Temel ilkesi, standart bir otomatik kodlayıcıyla başlatmayı ve ardından gizli vektörleri belirli bir referans dağılımından (tipik olarak normal bir dağılım) ayırt etmek için bir ayırıcıyı eğitmeyi içerir.
InfoGAN
Koşullu bir GAN'da, jeneratör hem gürültü vektörünü işler
Eğitim veri kümesinde etiketler bulunmadığında koşullu GAN'ların doğrudan uygulanması mümkün değildir.
InfoGAN çerçevesi, gizli uzay içindeki her gizli vektörün iki farklı bileşene ayrılabileceğini öne sürer:
Ne yazık ki,
InfoGAN oyunu resmi olarak şu şekilde tanımlanır:
Bir InfoGAN oyunu üç farklı olasılık alanıyla karakterize edilir:
, referans görüntülerinin alanını belirtir. {\displaystyle (\Omega _{X},\mu _{\text{ref}}) ( , Ω X μ ref ), sabit rastgele gürültü oluşturucuyu temsil eder. {\displaystyle (\Omega _{Z},\mu _{Z}) ( , Ω Z μ Z )- Sabit rastgele bilgi oluşturucu şu şekilde tanımlanır:
. ( Ω C , μ C ) {\displaystyle (\Omega _{C},\mu _{C}) Sistem iki takıma dağıtılmış üç katılımcıdan (bir jeneratör, Q ve bir ayırıcı) oluşur; jeneratör ve Q bir takımı oluştururken ayırıcı da diğerini oluşturur.
Hedef işlevi şu şekilde tanımlanır:
. Burada, L ( G , Q , D ) = ( L G A N G , D ) − λ ( I ^ G , Q ) {\displaystyle L(G,Q,D)=L_{GAN}(G,D)-\lambda {\hat {I}}(G,Q) orijinal GAN oyununun amaç fonksiyonunu belirtir ve ( L G A N G , D ) = E x ∼ μ ,ref [ ln D ( x ) ] + E z ∼ μ Z [ ln ( §186187§ − D ( G ( z , c ) ) ) ] {\displaystyle L_{GAN}(G,D)=\operatöradı {E} _{x\sim \mu _{\text{ref}},}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z,c)))] karşılıklı bilgi terimini temsil eder. {\displaystyle {\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))] ( I ^ G , Q ) = E z [∼ μ ,Z c ∼ μ C ln Q ( c ∣ G ( z , c ) ) ] Generator-Q ekibi amaç fonksiyonunu en aza indirmeye çalışırken, ayırıcı aşağıdaki ifadeyle temsil edildiği gibi onu en üst düzeye çıkarmaya çalışır:
. dak G , Soru maks. D L ( G , Soru , D ) {\displaystyle \min _{G,Q}\max _{D}L(G,Q,D)
Çift Yönlü GAN (BiGAN)
Geleneksel GAN oluşturucu,
Orijinal makalenin yazarları şunu gözlemledi: "Öğrenilmiş yaklaşık çıkarım,
BiGAN resmi olarak şu şekilde tanımlanır:
Bir BiGAN oyunu iki farklı olasılık alanıyla karakterize edilir:
, referans görüntülerinin alanını temsil eder. ( Ω X , μ X ) {\displaystyle (\Omega _{X},\mu _{X}) , gizli alanı belirtir. ( Ω Z , μ Z ) {\displaystyle (\Omega _{Z},\mu _{Z}) BiGAN mimarisi iki takım halinde organize edilmiş üç farklı oyuncuyu içerir: oluşturucu, kodlayıcı ve ayırıcı. Jeneratör ve kodlayıcı ortak çalışmaya dayalı tek bir ekip oluştururken, ayırıcı ekip karşıt ekip olarak çalışır.
Jeneratörün operasyonel stratejileri
, kodlayıcının stratejileri işlevleriyle tanımlanır. G : Ω Z → Ω X {\displaystyle G:\Omega _{Z}\to \Omega _{X} . Ayrıca, ayırıcının stratejileri E işlevleriyle temsil edilir: Ω X → Ω Z {\displaystyle E:\Omega _{X}\to \Omega _{Z} . işlevleri olarak resmileştirilir. D : Ω X → [ §102103§, §106107§] {\displaystyle D:\Omega _{X}\to [0,1] Amaç işlevi resmi olarak şu şekilde ifade edilir:
. L ( G , E , D ) = E x ∼ μ X [ ln D ( x , E ( x ) ) ] + E z ∼ μ Z [ ln ( §106107§− D ( G ( z ) , z ) ) ] {\displaystyle L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))] Jeneratör-kodlayıcı ekibi bu amaç fonksiyonunu en aza indirmeye çalışırken, ayırıcı, aşağıdaki optimizasyon problemiyle temsil edildiği gibi bunu en üst düzeye çıkarmaya çalışır:
. dak G , E max D L ( G , E , D ) {\displaystyle \min _{G,E}\max _{D}L(G,E,D)
The authors presented an abstract formulation of the objective function:
Çift yönlü modeller, yarı denetimli öğrenme, yorumlanabilir makine öğrenimi ve sinirsel makine çevirisi gibi çeşitli uygulamalarda kullanım alanı bulur.
CycleGAN
CycleGAN, at ve zebra görüntüleri arasındaki veya gece ve gündüz şehir sahneleri arasındaki dönüşümlerle örneklendirilen, farklı alanlar arasındaki çevirileri kolaylaştırmak için tasarlanmış bir mimari çerçeveyi temsil eder.
CycleGAN'ın operasyonel çerçevesi resmi olarak aşağıdaki parametrelerle tanımlanır:
Sistem iki farklı olasılık alanı içerir,İki olasılık alanı vardır
, çift yönlü çeviriler için gerekli iki alanı temsil eder. ( Ω X , μ X ) , ( Ω E , μ E ) {\displaystyle (\Omega _{X},\mu _{X}),(\Omega _{Y},\mu _{Y}) Sistem iki takım halinde organize edilmiş dört katılımcıdan oluşur: oluşturucular,
ve ayırıcılar, G X : Ω X → Ω E , G E : Ω E → Ω X {\displaystyle G_{X}:\Omega _{X}\to \Omega _{Y},G_{Y}:\Omega _{Y}\to \Omega _{X} ile temsil edilir .D X : Ω X → [ §108109§, §112113§] , D E : Ω E → [ §142143§, §146147§] {\displaystyle D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1] Amaç işlevi şu şekilde formüle edilir:
L ( G X , G E , D X , D E ) = L G Bir H ( G X , D X ) + L G Bir H ( G E , D E ) + λ L c y c ben e ( G X , G E ) {\displaystyle L(G_{X},G_{Y},D_{X},D_{Y})=L_{GAN}(G_{X},D_{X})+L_{GAN}(G_{Y},D_{Y})+\lambda L_{cycle}(G_{X},G_{Y}) burada
pozitif, ayarlanabilir bir parametreyi temsil eder; λ {\displaystyle \lambda , Üretken Rekabet Ağı (GAN) oyun hedefini belirtir; ve L G A N {\displaystyle L_{GAN} şu şekilde tanımlanan döngü tutarlılık kaybını temsil eder: şu şekildedir: L c y c c e {\displaystyle L_{cycle}
Eşleştirilmiş eğitim verileri gerektiren pix2pix gibi önceki metodolojilerin aksine CycleGAN, böyle bir gereksinim olmadan etkili bir şekilde çalışır. Örneğin, bir pix2pix modelinin bir yaz manzarası fotoğrafını bir kış manzarası fotoğrafına (veya tam tersi) dönüştürmek için eğitilmesi, aynı bakış noktasından hem yaz hem de kış aylarında çekilen aynı konumun eşleştirilmiş görüntülerini içeren bir veri kümesini zorunlu kılacaktır; tersine, CycleGAN yalnızca yaz manzarası fotoğraflarından oluşan bir koleksiyona ve ayrı, ilgisiz bir kış manzarası fotoğrafları koleksiyonuna ihtiyaç duyar.
Oldukça büyük veya küçük operasyonel ölçekler sergileyen Üretken Rekabet Ağları (GAN'lar).
BigGAN
BigGAN temel olarak, yüksek çözünürlüklü ImageNet görüntülerinin (512 x 512 piksele kadar) oluşturulması için 80 milyona kadar parametre kullanan ve yakınsamasını kolaylaştırmak için çeşitli mühendislik optimizasyonları içeren kapsamlı bir şekilde eğitilmiş bir Öz-dikkat Üretken Rekabetçi Ağ (GAN) oluşturur.
Tersine Çevrilebilir Veri Artırma
Eğitim verilerinin yetersiz olduğu senaryolarda, referans dağılımı
Böyle bir eğitimin sonucu,
Önerilen çözüm, hem oluşturulan hem de orijinal görüntülere veri büyütme uygulamayı içerir:
StyleGAN-2-ADA makalesi, veri artırmanın ek bir kritik yönünü vurguluyor: tersine çevrilebilir olma gerekliliği. Bunu göstermek için ImageNet görüntüleri oluşturma görevini düşünün. Veri büyütme "resmin eşit olasılıkla 0, 90, 180 veya 270 derece rastgele döndürülmesini" içeriyorsa, jeneratör orijinal yönelimi ayırt edemez. Örneğin, iki oluşturucuyu düşünün:
Önerilen çözüm, yalnızca tersine çevrilebilir veri artırma tekniklerinin kullanılmasını içerir. "Resmi eşit olasılıkla 0, 90, 180 veya 270 derece rastgele döndürmek" yerine, "0,7 olasılıkla orijinal yönlendirmeyi korurken resmi her biri 0,1 olasılıkla 90, 180 veya 270 derece rastgele döndürmektir." Bu metodoloji, oluşturucunun, artırılmamış ImageNet veri kümesiyle tutarlı olarak görüntülerin orijinal yönünü korumaya teşvik edilmesini sağlar.
Soyut bir perspektiften bakıldığında, dönüşümlerin rastgele örneklemesi
Tersine çevrilebilir Markov çekirdeğinin iki arketipik örneği mevcuttur.
Ayrık Durum: Bu kategori, özellikle
Örneğin, eğer
Sürekli durum için, Gauss çekirdeği şu durumlarda kullanılır:
Açıklayıcı bir örnek düşünün:
Tersine çevrilebilir veri artırma tekniklerinin ek örnekleri, başvurulan yayında ayrıntılı olarak açıklanmıştır.
SinGAN
SinGAN, eğitim için yalnızca tek bir görüntü kullanan ve ardından doğrudan bu görüntü üzerinde büyütme gerçekleştiren aşırı bir veri artırma uygulamasını temsil ediyor. Üretken Rekabetçi Ağ (GAN) mimarisi, çok ölçekli bir ardışık düzenin uygulanması yoluyla bu eğitim metodolojisi için özel olarak tasarlanmıştır.
Oluşturucu
StyleGAN serisi
StyleGAN ailesi, Nvidia'nın araştırma bölümü tarafından geliştirilen ve piyasaya sürülen bir mimari tasarım koleksiyonunu kapsar.
Aşamalı GAN
Progressive GAN, büyük ölçekli görüntü oluşturmaya yönelik GAN'ların istikrarlı eğitimi için bir metodoloji sunar. Bu, GAN üretecinin piramidal bir şekilde düşük çözünürlükten yüksek çözünürlüğe doğru aşamalı olarak genişletilmesiyle elde edilir. SinGAN'a benzer şekilde, jeneratörü şu şekilde ayrıştırır:
Eğitimin ilk aşamasında yalnızca
GAN sürecinin ardışık aşamaları arasındaki ani geçişleri azaltmak için, yeni eklenen her katman, başvurulan yayındaki Şekil 2'de gösterildiği gibi kademeli olarak "harmanlanır". Örneğin ikinci aşama GAN sürecinin başlatılması şu şekilde ilerliyor:
- Önceden, GAN işlemi
, 4x4 görüntülerin oluşturulmasından ve ayrıştırılmasından sorumluydu.G N , D N {\displaystyle G_{N},D_{N} - Daha sonra, GAN süreci
8x8 görüntüleri oluşturmak ve ayırt etmek için. Bu bağlamda,( ( §1011§− α ) + α ⋅ G N − §3738§) ∘ u ∘ G N , D N ∘ d ∘ ( ( §8182§− α ) + α ⋅ D N − §108109§) {\displaystyle ((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1}) sırasıyla görüntü yukarı örnekleme ve aşağı örnekleme işlemlerini temsil eder. Parametreu , d {\displaystyle u,d , görüntü kompozisyonunda değerini 0'dan 1'e yumuşak bir şekilde değiştiren alfa kanalına benzer şekilde bir uyum faktörü olarak işlev görür.α {\displaystyle \alpha
StilGAN-1
StyleGAN-1, Progressive GAN'ın öğelerini sinir tarzı aktarım metodolojileriyle bütünleştirir.
StyleGAN-1'in temel mimari özelliği, Progressive GAN'ınkini yansıtan aşamalı büyüme mekanizmasıdır. Oluşturulan her görüntü bir sabit olarak başlatılır
Eğitim aşamasında, oluşturulan her görüntü için genellikle tek bir stil gizli vektör kullanılır; ancak bazen iki vektör kullanılır ("karıştırma düzenlemesi" olarak adlandırılır). Bu uygulama, farklı stil gizli vektörleri alabilecek diğer bloklara bağımlılığı önleyerek her stil bloğu tarafından bağımsız stilizasyonu teşvik etmeyi amaçlamaktadır.
Eğitim sonrası, bireysel stil bloklarına birden fazla stil gizli vektörü sağlanabilir. Alt katmanlara yönlendirilen vektörler büyük ölçekli biçimsel nitelikleri yönetirken, daha yüksek katmanlara yönlendirilenler ince ayrıntılı biçimsel öğeleri yönetir.
Stil karıştırma iki görüntü arasında da yürütülebilir,
StilGAN-2
StyleGAN-2, öncelikle evrişim katmanlarının ağırlıklarını doğrudan dönüştürmek için gizli stil vektörünü kullanarak ve böylece "blob" yapı sorununu hafifleterek StyleGAN-1'e göre bir ilerlemeyi temsil eder.
Bu model daha sonra StyleGAN-2-ADA tarafından güncellendi; burada "ADA", "adaptif" anlamına gelir. Bu yineleme, daha önce ayrıntılı olarak açıklandığı gibi, tersine çevrilebilir veri artırmayı içerir. Ayrıca, sıfırdan başlayıp "aşırı uyum sağlayan buluşsal yöntem" önceden tanımlanmış bir hedef seviyeye ulaşana kadar giderek artan şekilde veri artırmanın kapsamını dinamik olarak ayarlar, dolayısıyla "uyarlanabilir" olarak adlandırılır.
StilGAN-3
StyleGAN-3, resmi gösterilerde gözlemlenebilen "doku yapışması" olgusunu çözerek StyleGAN-2'yi geliştirir. Araştırmacılar bu sorunu Nyquist-Shannon örnekleme teoremi merceğinden analiz ederek jeneratörün katmanlarının işledikleri pikseller içindeki yüksek frekanslı sinyallerden yararlanmayı öğrendiğini öne sürdü.
Bunun üstesinden gelmek için, jeneratörün her katmanı arasına sıkı alçak geçiren filtrelerin yerleştirilmesini içeren bir metodoloji önerildi. Bu yaklaşım, jeneratörü pikselleri yalnızca ayrı varlıklar olarak ele almak yerine, temeldeki sürekli sinyallerle tutarlı bir şekilde işlemeye zorlar. Ek olarak, tamamlayıcı sinyal filtrelerinin uygulanması yoluyla dönme ve öteleme değişmezliği sağlandı. Sonuç olarak StyleGAN-3, doku yapışması sorununu etkili bir şekilde azaltır ve düzgün dönüş ve öteleme sergileyen görüntüler üretir.
Alternatif Uygulamalar
Üretken ve ayırt edici veri modellemedeki birincil rollerinin ötesinde, Üretken Rekabetçi Ağlar (GAN'lar), çeşitli uygulamalarda kullanım alanı buldu.
GAN'lar, özellikle derin pekiştirmeli öğrenme bağlamlarında, gizli özellik alanlarının hizalanmasını kolaylaştırmak için transfer öğreniminde kullanılmıştır. Bu, hem kaynak hem de hedef görevlerden gelen yerleştirmelerin, bağlamı çıkarmaya çalışan ayırıcıya girilmesiyle gerçekleştirilir. Sonraki kayıp, kodlayıcı aracılığıyla ters şekilde geriye yayılır.
Uygulamalar
Bilimsel Alanlar
- Astronomik görüntülerin yinelemeli yeniden inşası.
- Karanlık madde araştırmaları için yerçekimsel merceklenmenin simülasyonu.
- Bu modeller, karanlık maddenin belirli uzaysal yönlerdeki dağılımını tasvir edebilir ve ilişkili yerçekimsel merceklenme olayını tahmin edebilir.
- Aynı zamanda yüksek enerji fiziği deneylerinde kullanılan kalorimetreler içinde yüksek enerjili jetlerin oluşumunu ve ardından gelen sağanakları modellemek için de kullanılırlar.
- GAN'lar, parçacık fiziği deneyleriyle ilgili hesaplama açısından yoğun simülasyonlardaki darboğazları yaklaşık olarak tahmin edebilir. Mevcut ve gelecekteki CERN deneylerindeki uygulamaları, simülasyonları hızlandırma ve aslına uygunluklarını artırma kapasitelerini ortaya koydu.
- Ayrıca, GAN'lar türbülanslı akış sistemleri içindeki hız ve skaler alanların yeniden yapılandırılmasını kolaylaştırır.
GAN'lar kullanılarak sentezlenen moleküller, fare modellerinde deneysel olarak doğrulanmıştır.
Tıbbi Uygulamalar
Hasta mahremiyeti tıbbi görüntülemede önemli bir endişe kaynağıdır ve sıklıkla araştırmacıların ilgili veri kümelerine erişimini engeller. MRI ve PET taramaları da dahil olmak üzere tıbbi görüntüleri sentezleyerek bu sorunu hafifletmek için Üretken Rekabetçi Ağlar (GAN'lar) kullanılmıştır.
GAN'lar, glokomlu görüntülerin tespit edilmesine yardımcı olabilir ve böylece kısmi veya tam görme kaybının önlenmesi için kritik önem taşıyan erken teşhisi destekleyebilir.
Ayrıca, GAN'lar, ölen tarihi kişilerin adli yüz rekonstrüksiyonları için de kullanılmıştır.
Kötü Amaçlı Uygulamalar
GAN tabanlı insan görüntüsü sentezinin, uydurma, potansiyel olarak suçlayıcı fotoğraf ve videolar oluşturmak gibi hain amaçlar için kullanılması potansiyeline ilişkin endişeler ortaya çıktı. Üstelik GAN'lar, var olmayan kişilerin ayırt edici, fotogerçekçi profil resimlerini üreterek sahte sosyal medya profillerinin otomatik olarak oluşturulmasına olanak tanıyor.
2019'da Kaliforniya eyaleti iki önemli yasayı yürürlüğe koydu: Rıza dışı uydurma pornografi oluşturmak için insan imajı sentezi teknolojilerinin kullanılmasını yasaklayan Meclis Yasa Tasarısı (AB) 602 ve siyasi adayların yer aldığı manipüle edilmiş videoların yayılmasını yasaklayan AB 730. Seçime 60 gün kaldı. Meclis üyesi Marc Berman tarafından yazılan ve Vali Gavin Newsom tarafından 3 Ekim 2019'da imzalanan her iki yasa tasarısı da 2020'de yürürlüğe girdi.
Savunma İleri Araştırma Projeleri Ajansı'nın (DARPA) Medya Adli Bilimleri programı, özellikle GAN'lar aracılığıyla oluşturulan içerik de dahil olmak üzere, uydurma medyayla mücadele etmeye yönelik metodolojileri araştırıyor.
Moda, Sanat ve Reklamcılıktaki Uygulamalar
GAN'lar sanatsal yaratımlar üretme kapasitesine sahiptir; The Verge Mart 2019'da "GAN'lar tarafından oluşturulan görsellerin çağdaş yapay zeka sanatının belirleyici görünümü haline geldiğini" belirtti. Ayrıca GAN'lar şu amaçlarla kullanılabilir:
- fotoğrafları iç boyama,
- diğer öğelerin yanı sıra iç tasarım, endüstriyel tasarım ve ayakkabıların moda modelleri, gölgeleri ve fotogerçekçi görüntülerini oluşturur. Bu ağların Facebook tarafından kullanıldığı bildiriliyor.
Araştırmacılar, bazen "yaratıcı rakip ağlar" olarak da adlandırılan GAN'ların sanatsal yaratıcılık için uygulanmasını araştırdılar. Örneğin, WikiArt'tan 14. yüzyıldan 19. yüzyıla kadar uzanan 15.000 portre üzerinde eğitim alan bir GAN, 2018 yılında Edmond de Belamy tablosunu üretti ve bu tablo daha sonra 432.500 ABD dolarına satıldı.
Video oyunu modlama topluluğu içinde, eski video oyunlarındaki düşük çözünürlüklü 2D dokuları yükseltmek için GAN'lardan yararlanıldı. Bu süreç, görüntü eğitimi yoluyla dokuların 4K veya daha yüksek çözünürlüklerde yeniden oluşturulmasını, ardından oyunun doğal çözünürlüğüne uyum sağlamak için alt örneklemeyi ve böylece süper örnekleme kenar yumuşatmayı taklit etmeyi içerir.
2020'de Artbreeder, psikolojik web korku serisi Ben Drished'in devamı için birincil düşmanın yaratılmasında görevlendirildi. Yazar daha sonra, sınırlı bütçeler ve personel ile çalışan bağımsız sanatçılar için varlık oluşturmadaki faydalarından dolayı GAN uygulamalarını övdü.
Mayıs 2020'de Nvidia'daki araştırmacılar, "GameGAN" olarak adlandırılan ve Pac-Man oyununu yalnızca oynanışı gözlemleyerek yeniden yaratabilen bir yapay zeka sistemi geliştirdiler.
Ağustos 2019'da, her biri uyumlu sözler ve melodilere sahip 12.197 MIDI şarkıdan oluşan önemli bir veri kümesi, kolaylaştırmak için derlendi. Koşullu GAN-LSTM mimarilerini kullanan şarkı sözlerinden sinirsel melodi üretimi.
Çeşitli Uygulamalar
GAN'lar şunlara uygulandı:
- Bireyin görünümünde yaşa bağlı olası değişiklikleri göstermek,
- görüntülerden üç boyutlu nesne modellerini yeniden oluşturma,
- 3B nokta bulutları olarak temsil edilen yeni nesneler oluşturabilir
- Video dizilerindeki hareket modellerini modelleyebilir,
- Haritalarda eksik olan özellikleri yeniden boyamak, kartografik stilleri aktarmak veya sokak görünümü görüntülerini geliştirmek,
- görüntü oluşturmak için geri bildirim mekanizmalarından faydalanmak ve potansiyel olarak geleneksel görsel arama sistemlerinin yerini almak,
- İklim değişikliğinin belirli konut yapıları üzerindeki öngörülen etkisini görselleştirmek,
- Bir kişinin yüz görüntüsünü ses özelliklerine göre yeniden oluşturur.
- Bu sistem, konuşan bir kişinin videolarını oluşturur ve bu kişinin yalnızca tek bir fotoğrafik girişini gerektirir.
- Yinelenen dizi oluşturma.
Geçmiş
1991 yılında Juergen Schmidhuber, sıfır toplamlı bir oyun içinde sinir ağlarını kullanan bir çerçeve olan "yapay merakı" tanıttı. Bu kurulum, potansiyel çıktı modelleri üzerinde bir olasılık dağılımı oluşturan, üretken bir model olarak işlev gören birincil bir ağı içerir. İkincil bir ağ daha sonra bu modellere çevresel tepkileri tahmin etmek için gradyan inişini kullanır. Üretken Çekişmeli Ağlar (GAN'lar), çevresel reaksiyonun ikili (1 veya 0) olduğu ve ilk ağın çıktısının önceden tanımlanmış bir kümeye ait olup olmamasına bağlı olduğu bir örnek olarak kavramsallaştırılabilir.
Gelişme yörüngeleri farklı olsa da diğer araştırmacılar da benzer kavramlar tasarladılar. Rakip ağları içeren erken bir fikir, Olli Niemitalo'nun 2010 tarihli bir blog yazısında dile getirildi. Bu özel konsept hiçbir zaman uygulanmadı ve oluşturucusunda stokastisiteden yoksundu, dolayısıyla üretken bir model olarak sınıflandırılması engellendi. Artık koşullu bir GAN veya cGAN olarak tanınmaktadır. Ayrıca Wei Li, Melvin Gauci ve Roderich Gross tarafından 2013 yılında hayvan davranışını modellemek için GAN benzeri bir yaklaşım uygulandı.
Gürültü karşılaştırmalı tahmin, aynı kayıp fonksiyonunu kullanarak GAN'lar için başka bir temel ilham kaynağı oldu. Goodfellow, 2010'dan 2014'e kadar yaptığı doktora çalışmaları sırasında bu tekniği araştırdı.
Çekişmeli makine öğrenimi, üretken modellemenin ötesine geçiyor ve sinir ağlarının ötesinde çeşitli modellerde uygulamalar buluyor. Kontrol teorisi alanında, oyun teorisi çerçevesinde sağlam kontrolörleri eğitmek için 2006 yılında sinir ağı tabanlı çekişmeli öğrenme kullanıldı. Bu, küçültme politikası (denetleyici) ile maksimize etme politikası (bozulma) arasında değişen yinelemeleri içeriyordu.
2017'de görüntü iyileştirme için piksel düzeyindeki doğruluk yerine gerçekçi dokulara öncelik veren bir GAN kullanıldı ve bu da yüksek büyütmede üstün görüntü kalitesiyle sonuçlandı. Aynı yıl, ilk sentetik insan yüzlerinin üretimi de gerçekleşti ve daha sonra Şubat 2018'de Grand Palais'te sergilendi. StyleGAN tarafından 2019'da üretilen yüzler, Deepfake'lerle karşılaştırmalar topladı.
Yapay zeka sanatı
- Yapay zeka sanatı
- Deepfake – Yapay zeka aracılığıyla gerçekçi bir şekilde oluşturulan medya içeriği.
- Derin öğrenme – Makine öğreniminde uzmanlaşmış bir alt alan.
- Yayılma modeli – Sürekli olasılık dağılımlarının üretken modellemesine yönelik hesaplamalı bir yöntem.
- Üretken yapay zeka – Üretken modeller kullanan bir yapay zeka alt kümesi.Yönlendirme hedeflerinin kısa açıklamalarını gösteren sayfalar
- Sentetik medya – Medya içeriğinin yapay yollarla otomatik olarak oluşturulması.
Referanslar
Knight, Will. "2017 Yılında Yapay Zeka İçin 5 Büyük Tahmin". MIT Teknoloji İncelemesi. Erişim tarihi: 5 Ocak 2017.
- Şövalye, Will. "2017 Yılında Yapay Zeka İçin 5 Büyük Tahmin". MIT Teknoloji İncelemesi. Erişim tarihi: 5 Ocak 2017.Karras, Tero; Laine, Samuli; Aila, Timo (2018). "Üretken Rekabetçi Ağlar için Stil Tabanlı Jeneratör Mimarisi". arXiv:1812.04948 [cs.NE].Wang, Zhengwei; O, Qi; Ward, Tomas E. (2019). "Bilgisayarlı Görmede Üretken Çekişmeli Ağlar: Bir Araştırma ve Taksonomi". arXiv:1906.01529 [cs.LG].Kaynak: TORİma Akademi Arşivi