یادگیری عمیق (Deep learning)

در یادگیری ماشینی، یادگیری عمیق (DL) بر استفاده از شبکه های عصبی چندلایه برای انجام وظایفی مانند طبقه بندی، رگرسیون و … تمرکز دارد.

در یادگیری ماشین، یادگیری عمیق (DL) از شبکه‌های عصبی چندلایه برای اجرای وظایفی مانند طبقه‌بندی، رگرسیون و یادگیری بازنمایی استفاده می‌کند. این حوزه با الهام گرفتن از علوم اعصاب زیستی، شامل مرتب کردن نورون های مصنوعی در لایه های سلسله مراتبی و متعاقباً آموزش آنها برای پردازش مجموعه داده های متنوع است. توصیفگر "عمیق" به معنای ادغام چندین لایه در این شبکه ها است که معمولاً از سه تا هزاران بالقوه متغیر است. روش‌شناسی عملیاتی می‌تواند شامل پارادایم‌های یادگیری نظارت‌شده، نیمه‌نظارت‌شده یا بدون نظارت باشد.

معماری‌های یادگیری عمیق برجسته شبکه‌های کاملاً متصل، شبکه‌های باور عمیق، شبکه‌های عصبی تکرارشونده، شبکه‌های عصبی کانولوشن، شبکه‌های متخاصم مولد، ترانسفورماتورها، و میدان‌های تشعشع عصبی را در بر می‌گیرند. این چارچوب‌های معماری کاربرد گسترده‌ای در حوزه‌های مختلف پیدا کرده‌اند، از جمله بینایی رایانه، تشخیص گفتار، پردازش زبان طبیعی، ترجمه ماشینی، بیوانفورماتیک، طراحی دارو، تجزیه و تحلیل تصویر پزشکی، علم آب و هوا، بازرسی مواد، و برنامه‌های بازی روی تخته. در این کاربردها، آنها به طور مداوم نتایج عملکردی را ارائه می دهند که یا قابل مقایسه یا در موارد خاص، برتر از نتایج بدست آمده توسط متخصصان انسانی است.

تکرارهای اولیه شبکه های عصبی از پردازش اطلاعات و مکانیسم های ارتباطی توزیع شده مشاهده شده در سیستم های بیولوژیکی، به ویژه مغز انسان، الهام گرفتند. با این وجود، شبکه های عصبی معاصر برای تقلید دقیق عملکردهای مغز موجودات طراحی نشده اند و به طور کلی مدل های ناکافی برای چنین هدف خاصی در نظر گرفته می شوند.

نمای کلی

اکثر مدل‌های یادگیری عمیق معاصر اساساً بر اساس شبکه‌های عصبی چند لایه ساخته شده‌اند که نمونه‌هایی از آن‌ها توسط شبکه‌های عصبی کانولوشن و ترانسفورماتورها است. با این حال، دامنه آنها می‌تواند به ترکیب فرمول‌های گزاره‌ای یا متغیرهای پنهان نیز گسترش یابد که به صورت لایه‌ای در مدل‌های مولد عمیق سازمان‌دهی شده‌اند، مانند گره‌های موجود در شبکه‌های باور عمیق و ماشین‌های بولتزمن عمیق.

در هسته‌ی خود، یادگیری عمیق دسته‌ای از الگوریتم‌های یادگیری ماشین را تعیین می‌کند که به صورت اهرمی ساختار داده‌ها را به‌صورت افزایشی ساختاری از لایه‌های پیشرفته تبدیل می‌کند. نمایش های انتزاعی و ترکیبی به عنوان مثال، در یک چارچوب تشخیص تصویر، ورودی خام اولیه ممکن است یک تصویر باشد که معمولاً به صورت تانسور پیکسل ها نشان داده می شود. یک لایه نمایشی بعدی می‌تواند تلاش کند تا اصول اولیه هندسی مانند خطوط و دایره‌ها را تشخیص دهد. لایه دوم ممکن است ترتیب لبه ها را ترکیب و رمزگذاری کند، در حالی که لایه سوم می تواند ویژگی های پیچیده تری مانند بینی و چشم را رمزگذاری کند. در نهایت، لایه چهارم مسئول تشخیص حضور یک چهره در تصویر خواهد بود.

به طور اساسی، یک فرآیند یادگیری عمیق دارای قابلیت ذاتی برای تعیین مستقل قرارگیری بهینه ویژگی ها در سطوح سلسله مراتبی خود به تنهایی است. از لحاظ تاریخی، قبل از ظهور یادگیری عمیق، روش‌های متداول یادگیری ماشینی اغلب نیاز به مهندسی ویژگی‌های دستی برای تبدیل داده‌های خام به قالبی مناسب‌تر برای الگوریتم‌های طبقه‌بندی داشتند. در مقابل، الگوی یادگیری عمیق نیاز به ویژگی های دست ساز را برطرف می کند، زیرا مدل به طور خودکار بازنمایی ویژگی های مربوطه را مستقیماً از داده ها شناسایی و استخراج می کند. با این حال، این اتوماسیون به طور کامل نیاز به بهینه سازی دستی را نفی نمی کند. برای مثال، تنظیم تعداد و ابعاد لایه‌ها می‌تواند سطوح متفاوتی از انتزاع به دست آورد.

در زمینه "یادگیری عمیق"، اصطلاح "عمیق" به طور خاص به مقدار لایه هایی اشاره می کند که داده ها از طریق آنها تغییر شکل می دهند. به طور دقیق تر، سیستم های یادگیری عمیق با عمق مسیر تخصیص اعتبار (CAP) قابل توجه مشخص می شوند. CAP نشان‌دهنده زنجیره متوالی تبدیل‌ها است که ورودی را به خروجی مرتبط می‌کند و در نتیجه روابط علی بالقوه بین آنها را مشخص می‌کند. در یک شبکه عصبی پیشخور، عمق CAP مطابق با عمق شبکه است که به عنوان تعداد لایه های پنهان به اضافه یک محاسبه می شود (با توجه به اینکه لایه خروجی نیز پارامتری است). برعکس، برای شبکه‌های عصبی مکرر، که در آن سیگنال می‌تواند چندین بار از یک لایه عبور کند، عمق CAP از نظر تئوری می‌تواند نامحدود باشد. در حالی که هیچ آستانه عمق پذیرفته شده جهانی به طور قطعی یادگیری کم عمق را از عمیق متمایز نمی کند، اجماع بین محققان نشان می دهد که یادگیری عمیق معمولاً شامل عمق CAP بیش از دو است. یک CAP عمق دو نشان داده شده است که به عنوان یک تقریب جهانی عمل می کند که قادر به شبیه سازی هر تابع دلخواه است. فراتر از این نکته، لایه‌های اضافی ذاتاً قابلیت تقریب تابع بنیادی شبکه را افزایش نمی‌دهند. با این وجود، مدل‌های عمیق (مدل‌های دارای CAP > دو) قابلیت‌های استخراج ویژگی برتر را در مقایسه با مدل‌های کم عمق نشان می‌دهند، که نشان می‌دهد لایه‌های اضافی در یادگیری مؤثر ویژگی‌های پیچیده مؤثر هستند.

معماری‌های یادگیری عمیق را می‌توان با استفاده از یک روش ساخت لایه به لایه حریصانه مونتاژ کرد. این رویکرد، از هم گسیختگی انتزاعات پیچیده را تسهیل می‌کند و شناسایی ویژگی‌هایی را ممکن می‌سازد که عملکرد را به‌طور بهینه افزایش می‌دهند.

الگوریتم‌های یادگیری عمیق برای کارهای یادگیری بدون نظارت قابل استفاده هستند، که با توجه به فراوانی بیشتر داده‌های بدون برچسب در مقایسه با داده‌های برچسب‌دار، مزیت قابل توجهی است. شبکه‌های باور عمیق نمونه‌ای از معماری‌های عمیق هستند که قابل آموزش بدون نظارت هستند.

عبارت یادگیری عمیق توسط رینا دچتر در سال 1986 به حوزه یادگیری ماشینی معرفی شد. متعاقباً، ایگور آیزنبرگ و همکارانش آن را در سال 2000، به‌ویژه در چارچوب Bouleshole. با این حال، به نظر می رسد تکامل تاریخی این اصطلاح پیچیده تر است.

تفسیرها

شبکه‌های عصبی عمیق معمولاً از طریق عدسی قضیه تقریب جهانی یا استنتاج احتمالی درک می‌شوند.

قضیه تقریب جهانی پایه به قابلیت شبکه‌های عصبی پیش‌خور، دارای یک لایه پنهان واحد از ابعاد محدود، برای تقریبی توابع پیوسته می‌پردازد. جورج سایبنکو اثبات اولیه را در سال 1989 ارائه کرد، به‌ویژه برای توابع فعال‌سازی سیگموئید، که بعداً کورت هورنیک در سال 1991 آن را تعمیم داد تا معماری‌های چند لایه پیش‌خور را در بر بگیرد. تحقیقات اخیر بیشتر نشان داده است که تقریب جهانی به توابع فعال‌سازی غیرمحدود، از جمله واحد خطی اصلاح‌شده کونیهیکو فوکوشیما، گسترش می‌یابد.

برای شبکه‌های عصبی عمیق، قضیه تقریب جهانی به ظرفیت شبکه‌هایی با عرض محدود اما عمق قابل گسترش مربوط می‌شود. لو و همکاران نشان داد که یک شبکه عصبی عمیق که از فعال‌سازی ReLU استفاده می‌کند، می‌تواند هر تابع ادغام‌پذیر Lebesgue را در صورتی که عرض آن به شدت از بعد ورودی بیشتر باشد، تقریبی کند. برعکس، اگر عرض کمتر یا مساوی با بعد ورودی باشد، شبکه عصبی عمیق به‌عنوان یک تقریب‌کننده جهانی عمل نمی‌کند.

برگرفته از حوزه یادگیری ماشین، تفسیر احتمالی استنتاج را در کنار اصول بهینه‌سازی آموزش و آزمایش، که به ترتیب با برازش و تعمیم مطابقت دارند، ترکیب می‌کند. به طور خاص، این تفسیر غیرخطی فعال سازی را به عنوان یک تابع توزیع تجمعی مفهوم می کند. این دیدگاه در توسعه ترک تحصیل به عنوان یک تکنیک منظم سازی در شبکه های عصبی بسیار مفید بود. محققان برجسته از جمله هاپفیلد، ویدرو و نارندرا این تفسیر احتمالی را معرفی کردند که متعاقباً از طریق بررسی‌های جامع، مانند بررسی‌های بیشاپ، رایج شد.

تاریخچه

قبل از 1980

شبکه‌های عصبی مصنوعی (ANN) به دو نوع اصلی تقسیم می‌شوند: شبکه‌های عصبی پیش‌خور (FNN) که به عنوان پرسپترون‌های چندلایه (MLPs) نیز شناخته می‌شوند، و شبکه‌های عصبی بازگشتی (RNN). یک تمایز کلیدی این است که RNN ها چرخه هایی را در ساختار اتصال خود گنجانده اند، در حالی که FNN ها اینطور نیستند. در طول دهه 1920، ویلهلم لنز و ارنست ایزینگ مدل Ising را توسعه دادند که اساساً یک معماری RNN غیر یادگیری متشکل از عناصر آستانه نورون مانند را نشان می دهد. Shun'ichi آماری متعاقباً این معماری را در سال 1972 تطبیق داد، و RNN یادگیری او بعداً توسط جان هاپفیلد در سال 1982 مجدداً منتشر شد. دیگر شبکه‌های عصبی تکراری پیشگام توسط Kaoru Nakano در سال 1971 معرفی شدند. مربوط به تکامل مصنوعی و یادگیری RNNs.

در سال 1958، فرانک روزنبلات پرسپترون را معرفی کرد، یک پرسپترون چند لایه سه لایه (MLP) که شامل یک لایه ورودی، یک لایه پنهان با وزن های تصادفی، غیر یادگیری و یک لایه خروجی است. انتشارات او در سال 1962 جزئیات بیشتری از انواع و آزمایش‌های محاسباتی، از جمله یک مدل پرسپترون چهار لایه با "شبکه‌های پیش پایانی تطبیقی" که در آن دو لایه نهایی دارای وزن‌های آموخته شده بودند، بیشتر شد. او برای این کار، H. D. Block و B. W. Knight را به حساب آورد. کتاب روزنبلات همچنین به شبکه قبلی توسط R. D. Joseph (1960) ارجاع داده شده است، که به عنوان "از نظر عملکردی معادل یک نوع سیستم چهار لایه" توصیف شده است، و جوزف بیش از 30 بار ذکر شده است. این سؤال را مطرح می‌کند که آیا جوزف را باید به‌عنوان مولد پرسپترون‌های چندلایه واقعاً تطبیقی مجهز به واحدهای پنهان یادگیری شناخت. متأسفانه، الگوریتم یادگیری مرتبط غیر کاربردی ثابت شد و متعاقباً در ابهام محو شد.

الگوریتم یادگیری عمیق عملیاتی افتتاحیه، روش گروهی مدیریت داده بود که توسط الکسی ایواخننکو و لاپا در سال 1965 معرفی شد و برای آموزش شبکه های عصبی با عمق دلخواه طراحی شد. این رویکرد به عنوان گونه‌ای از رگرسیون چند جمله‌ای مفهوم‌سازی شد که به طور موثر پرسپترون روزنبلات را برای مدیریت روابط داده‌های پیچیده، غیرخطی و سلسله مراتبی گسترش داد. نشریه بعدی در سال 1971 یک شبکه عمیق هشت لایه ای را که با استفاده از این روش آموزش داده شده بود، که از تحلیل رگرسیون لایه به لایه استفاده می کرد، شرح داد. واحدهای پنهان اضافی از طریق هرس، با استفاده از یک مجموعه داده اعتبار سنجی مجزا حذف شدند. با توجه به اینکه توابع فعال‌سازی گره‌ای شامل چندجمله‌ای کولموگروف-گابور هستند، این شبکه‌ها همچنین اولین نمونه‌های معماری عمیق را نشان می‌دهند که واحدهای ضربی یا «دروازه‌ها» را در خود جای داده است. Saito، شاگرد آماری، نشان داد که یک MLP پنج لایه، دارای دو لایه سازگار، می‌تواند نمایش‌های داخلی را که قادر به طبقه‌بندی مقوله‌های الگوی غیرخطی قابل تفکیک هستند، به دست آورد. پیشرفت‌ها در سخت‌افزار و اصلاحات در تنظیم فراپارامتر، از آن زمان نزول گرادیان تصادفی سرتاسری را به‌عنوان روش آموزشی رایج ایجاد کرده است.

کونیهیکو فوکوشیما در سال 1969 در تابع فعال‌سازی واحد خطی اصلاح‌شده (ReLU) پیشگام شد. معماری‌ها.

پیدایش معماری‌های یادگیری عمیق برای شبکه‌های عصبی کانولوشن (CNN)، که لایه‌های کانولوشنال و نمونه‌برداری پایینی را در بر می‌گیرد، را می‌توان در نئوگنیترون که توسط کونیهیکو فوکوشیما در سال 1979 پرده برداری کرد، البته بدون استفاده از انتشار پس‌انداز برای آموزش، ردیابی کرد.

انتشار پس‌زمینه اجرای کارآمد قانون زنجیره را نشان می‌دهد که در ابتدا توسط گوتفرید ویلهلم لایب‌نیتس در سال 1673 فرمول‌بندی شد و برای شبکه‌های متشکل از گره‌های قابل تمایز اعمال شد. در حالی که روزنبلات در سال 1962 اصطلاح "خطاهای پس از انتشار" را ابداع کرد، او فاقد یک روش اجرایی عملی بود. با این حال، هنری جی. کلی پیش از این در سال 1960 یک پیشینه پیوسته برای انتشار پس‌انداز در حوزه تئوری کنترل ایجاد کرده بود. تکرار معاصر پس انتشار اولین بار در پایان نامه کارشناسی ارشد Seppo Linnainmaa در سال 1970 ظاهر شد. G.M. استروسکی و همکاران متعاقباً این اثر را مجدداً در سال 1971 منتشر کرد. Paul Werbos بعداً در سال 1982 از انتشار پس‌باز به شبکه‌های عصبی استفاده کرد. به ویژه، پایان نامه دکترای او در سال 1974، اگرچه در کتابی در سال 1994 تجدید چاپ شد، اما در آن زمان جزئیات الگوریتم را ارائه نکرد. دیوید ای. روملهارت و همکاران. در سال 1986 به طور قابل توجهی انتشار پس از آن رواج یافت، اما کار آنها به مشارکت های اصلی اشاره نمی کرد.

توسعه ها از دهه 1980 تا 2000

Alex Waibel شبکه عصبی تاخیر زمانی (TDNN) را در سال 1987 معرفی کرد که برای اعمال شبکه‌های عصبی کانولوشنال (CNN) در وظایف تشخیص واج طراحی شده بود. این معماری شامل کانولوشن ها، اشتراک وزن و انتشار پس زمینه بود. متعاقباً، در سال 1988، وی ژانگ از یک CNN آموزش داده شده در پس انتشار برای تشخیص حروف الفبا استفاده کرد. Yann LeCun و همکاران. LeNet، یک CNN که به طور خاص برای تشخیص کدهای پستی دست نویس در پست پستی طراحی شده بود را در سال 1989 توسعه داد. فرآیند آموزش آن به سه روز نیاز داشت. تا سال 1990، وی ژانگ یک CNN را بر روی سخت افزار محاسبات نوری پیاده سازی کرد. کاربرد CNN در سال 1991 گسترش یافت و شامل تقسیم بندی اشیاء تصویر پزشکی و تشخیص سرطان سینه در ماموگرافی شد. LeNet-5، یک CNN هفت سطحی که توسط Yann LeCun و همکاران توسعه یافته است. در سال 1998 برای طبقه‌بندی ارقام، توسط بانک‌های متعدد برای شناسایی داده‌های عددی دست‌نویس روی چک‌ها که از تصاویر دیجیتالی 32×32 پیکسل پردازش شده بود، استفاده شد.

دهه 1980 شاهد پیشرفت‌های قابل توجهی در شبکه‌های عصبی مکرر (RNN) بود. عود اساساً برای پردازش توالی به کار می رود. هنگامی که یک RNN باز می شود، ساختار ریاضی آن به یک لایه پیشخور عمیق نزدیک می شود. در نتیجه، RNNها ویژگی‌ها و چالش‌های مشابهی را نشان می‌دهند، با پیشرفت‌های مربوطه که متقابلاً بر یکدیگر تأثیر می‌گذارند. از جمله مشارکت‌های مؤثر اولیه در RNN‌ها، شبکه جردن (1986) و شبکه المان (1990) بودند که هر دو از RNN برای بررسی مشکلات روان‌شناسی شناختی استفاده کردند.

در طول دهه 1980، انتشار پس‌انداز با محدودیت‌هایی در سناریوهای یادگیری عمیق مواجه شد که مشخصه آن مسیرهای تخصیص اعتبار طولانی بود. برای کاهش این مشکل، یورگن اشمیدهابر یک ساختار سلسله مراتبی از شبکه‌های عصبی بازگشتی (RNN) را در سال 1991 پیشنهاد کرد. این معماری به‌طور تدریجی از طریق یادگیری خود نظارتی آموزش داده شد، که در آن هر RNN قصد داشت ورودی بعدی خود را پیش‌بینی کند، که نشان‌دهنده ورودی غیرمنتظره از RNN قبلی است. این «کمپرسور تاریخچه عصبی» از کدگذاری پیش‌بینی‌کننده برای توسعه بازنمایی‌های درونی در مقیاس‌های زمانی خودسازمان‌دهی چندگانه استفاده می‌کند و در نتیجه یادگیری عمیق بعدی را به طور قابل‌توجهی تسهیل می‌کند. سلسله مراتب RNN را می توان با تقطیر یک شبکه chunker سطح بالاتر به یک شبکه automatizer سطح پایین تر به یک RNN منفرد جمع کرد. تا سال 1993، یک کمپرسور تاریخ عصبی با موفقیت به یک وظیفه "یادگیری بسیار عمیق" پرداخت که به بیش از 1000 لایه متوالی نیاز داشت زمانی که RNN به موقع باز شد. "P" در ChatGPT نشان‌دهنده این نوع از پیش‌آموزش است.

تز دیپلم سپ هوکرایتر در سال 1991 نه تنها کمپرسور تاریخ عصبی را پیاده‌سازی کرد، بلکه مشکل گرادیان ناپدید شدن را نیز شناسایی و به‌طور کامل تحلیل کرد. برای مقابله با این موضوع، Hochreiter اتصالات باقیمانده مکرر را معرفی کرد. این کار بنیادی با توسعه شبکه‌های حافظه کوتاه مدت (LSTM) که در سال 1995 منتشر شد، به اوج خود رسید. با این حال، این معماری اولیه LSTM با تکرار مدرن آن، که یک "دروازه فراموشی" را در سال 1999 گنجانده بود، متفاوت بود و متعاقباً آن را به عنوان معماری استاندارد RNN معرفی کرد.

همچنین در سال 1991، یورگن اشمیدهابر شبکه های عصبی متخاصم را معرفی کرد که برای رقابت در یک بازی حاصل جمع صفر طراحی شده بودند، جایی که موفقیت یک شبکه مستقیماً با ضرر شبکه دیگر مطابقت دارد. شبکه اولیه به عنوان یک مدل مولد عمل می کند و توزیع احتمال را در الگوهای خروجی ایجاد می کند. شبکه دوم، برعکس، از نزول گرادیان برای پیش‌بینی پاسخ‌های محیطی به این الگوها استفاده می‌کند. این مفهوم «کنجکاوی مصنوعی» نامیده شد و بعداً در سال 2014 مبنایی برای شبکه‌های متخاصم مولد (GANs) شد.

بین سال‌های 1985 و 1995، محققانی از جمله تری سجنوسکی، پیتر دایان و جفری هینتون چندین معماری و روش‌شناسی را با الهام از مکانیک آماری توسعه دادند. این نوآوری‌ها شامل ماشین بولتزمن، ماشین بولتزمن محدود، ماشین هلمهولتز و الگوریتم بیداری-خواب بود. هدف اصلی آنها یادگیری بدون نظارت مدل های مولد عمیق بود. با این وجود، این رویکردها از نظر محاسباتی فشرده‌تر از انتشار پس‌انداز بودند. الگوریتم یادگیری ماشین بولتزمن، که در سال 1985 معرفی شد، قبل از جایگزین شدن با الگوریتم پس انتشار در سال 1986، از محبوبیت مختصری برخوردار بود (ص. 112). قابل‌توجه، شبکه‌ای که در سال 1988 توسعه یافت، به عملکرد پیشرفته‌ای در پیش‌بینی ساختار پروتئین دست یافت که نشان‌دهنده کاربرد اولیه یادگیری عمیق در بیوانفورماتیک است.

برای سال‌ها، هر دو معماری شبکه‌های عصبی مصنوعی کم عمق و عمیق، مانند شبکه‌های تکرارشونده، برای تشخیص گفتار مورد بررسی قرار گرفتند. با این حال، این روش‌های عصبی به‌طور مداوم نتوانستند از عملکرد غیریکنواخت، فناوری مدل گاوسی مخلوط/مدل پنهان مارکوف (GMM-HMM) که به طور متمایز آموزش دیده بودند، پیشی بگیرند. چالش‌های مهم شناسایی‌شده شامل ناپدید شدن گرادیان و ساختار همبستگی زمانی ضعیف در مدل‌های پیش‌بینی‌کننده عصبی بود. موانع دیگر، داده‌های آموزشی ناکافی و منابع محاسباتی محدود بود.

در نتیجه، اکثر محققان تشخیص گفتار تمرکز خود را از شبکه‌های عصبی به مدل‌سازی تولیدی تغییر دادند. یک استثنا قابل توجه در SRI International در اواخر دهه 1990 رخ داد. SRI با کمک مالی NSA و DARPA دولت ایالات متحده تحقیقاتی را در زمینه تشخیص گفتار و گوینده انجام داد. تیم تشخیص بلندگو، تحت رهبری لری هک، با استفاده از شبکه های عصبی عمیق برای پردازش گفتار در معیار تشخیص بلندگوی NIST در سال 1998 به موفقیت قابل توجهی دست یافت. این فناوری متعاقباً در Nuance Verifier ادغام شد و اولین استقرار صنعتی مهم یادگیری عمیق را نشان داد.

مفهوم اولویت‌بندی ویژگی‌های "خام" نسبت به ویژگی‌های بهینه‌سازی دستی در ابتدا و با موفقیت در اواخر دهه 1990 از طریق معماری رمزگذار خودکار عمیق مورد بررسی قرار گرفت. این مدل‌ها بر روی طیف‌نگار خام یا ویژگی‌های فیلتر-بانک خطی کار می‌کردند، که عملکرد برتر را در مقایسه با ویژگی‌های Mel-Cepstral، که شامل تبدیل‌های ثابت از طیف‌نگارها است، نشان می‌دادند. متعاقباً، استفاده مستقیم از ویژگی‌های گفتار خام، به‌ویژه شکل موج‌ها، نتایج عالی در مقیاس‌های بزرگ‌تر به همراه داشت.

2000s

در طول دهه‌های 1990 و 2000، شبکه‌های عصبی دوره‌ای از اهمیت کمتری را تجربه کردند. مدل‌های ساده‌تر، که از ویژگی‌های دست‌ساز مخصوص کار مانند فیلترهای گابور و ماشین‌های بردار پشتیبانی (SVM) استفاده می‌کردند، به دلیل هزینه محاسباتی بالای شبکه‌های عصبی مصنوعی و درک ناقص سیم‌کشی شبکه عصبی بیولوژیکی مورد توجه قرار گرفتند.

در سال 2003، مدل‌های کوتاه‌مدت طولانی‌مدت در مقایسه با سیستم‌های متعارف گفتاری خاص (LSTM) نشان‌دهنده عملکرد رقابتی خاص مدل‌های متداول بود. برنامه های کاربردی در سال 2006، الکس گریوز، سانتیاگو فرناندز، فاوستینو گومز و اشمیدوبر LSTM را با طبقه‌بندی زمانی اتصالگرا (CTC) در معماری‌های LSTM انباشته یکپارچه کردند. متعاقباً، در سال 2009، LSTM با تبدیل شدن به شبکه عصبی مکرر افتتاحیه (RNN) برای تضمین پیروزی در رقابت تشخیص الگو، به ویژه برای تشخیص دست خط متصل، به نقطه عطف مهمی دست یافت.

در سال 2006، جف هینتون، روسلان سالاخوتدینوف، اوسیندرو و ته شبکه‌های باور عمیق (DBN) را برای مدل‌سازی مولد معرفی کردند. فرآیند آموزش برای DBN ها شامل آموزش متوالی یک ماشین بولتزمن محدود (RBM)، سپس اصلاح پارامترهای آن، و متعاقباً آموزش یک RBM دیگر در بالای دستگاه قبلی است. این رویکرد لایه‌ای را می‌توان به‌صورت اختیاری از طریق انتشار پس‌نظارت‌شده اصلاح کرد. در حالی که DBNها قادر به مدل‌سازی توزیع‌های احتمالی با ابعاد بالا بودند، که نمونه آن توزیع‌های تصویری MNIST است، نرخ هم‌گرایی آنها به‌طور قابل‌توجهی آهسته بود.

تأثیر صنعتی یادگیری عمیق در اوایل دهه 2000 آغاز شد، با شبکه‌های عصبی کانولوشنال (CNN) که طبق گزارش‌ها بر اساس گزارش‌ها، 20% از ایالات متحده بین 10% از ایالات متحده پردازش می‌کنند و 20% از ایالات متحده بررسی می‌کنند. LeCun. استفاده از یادگیری عمیق برای تشخیص گفتار در مقیاس بزرگ در زمینه‌های صنعتی تقریباً در سال 2010 آغاز شد.

کارگاه آموزشی NIPS در سال 2009 در مورد یادگیری عمیق برای تشخیص گفتار به دلیل محدودیت‌های ذاتی مدل‌های گفتار مولد عمیق و پتانسیل کاربردی شدن شبکه‌های عصبی عمیق با مجموعه داده‌های پیشرفته و سخت‌افزار انجام شد. در ابتدا، این فرضیه مطرح شد که پیش‌آموزش شبکه‌های عصبی عمیق (DNN) با مدل‌های شبکه باور عمیق مولد (DBN) چالش‌های اولیه مرتبط با شبکه‌های عصبی را کاهش می‌دهد. با این وجود، یافته‌های بعدی نشان داد که جایگزینی پیش‌آموزش با داده‌های آموزشی قابل‌توجه به جای انتشار مستقیم مستقیم، به‌ویژه هنگام استفاده از DNN با لایه‌های خروجی گسترده و وابسته به زمینه، نرخ خطای قابل‌توجهی پایین‌تری را به همراه داشت. این نتایج هم از سیستم‌های مدرن مدل مخلوط گاوسی (GMM)/ مدل پنهان مارکوف (HMM) و هم از رویکردهای پیچیده‌تر مبتنی بر مدل مولد پیشی گرفت. ویژگی‌های متمایز خطاهای تشخیص ایجاد شده توسط این دو نوع سیستم، بینش‌های فنی ارزشمندی را برای ادغام یادگیری عمیق در سیستم‌های رمزگشایی گفتار بسیار کارآمد و در زمان اجرا رایج در برنامه‌های اصلی تشخیص گفتار ارائه می‌کند. تجزیه و تحلیل مقایسه ای انجام شده در حدود سال های 2009 تا 2010، متضاد GMM و سایر مدل های گفتار تولیدی با مدل های DNN، سرمایه گذاری های صنعتی اولیه را در یادگیری عمیق برای تشخیص گفتار تحریک کرد. این تجزیه و تحلیل عملکرد قابل مقایسه ای را با نرخ خطای کمتر از 1.5٪ بین DNN های متمایز و مدل های تولیدی نشان داد. در سال 2010، محققان برنامه‌های یادگیری عمیق را از TIMIT به تشخیص گفتار واژگان بزرگ با ترکیب لایه‌های خروجی DNN گسترده مشتق‌شده از حالت‌های HMM وابسته به زمینه، که با استفاده از درخت‌های تصمیم ساخته شده‌اند، گسترش دادند.

انقلاب یادگیری عمیق

ظهور انقلاب یادگیری عمیق عمدتاً بر برنامه‌های بینایی رایانه‌ای متمرکز بود که از شبکه‌های عصبی کانولوشن (CNN) و واحدهای پردازش گرافیکی (GPU) استفاده می‌کردند.

در حالی که CNN‌های آموزش‌دیده با انتشار پس‌پخش برای دهه‌ها وجود داشتند، و پیاده‌سازی‌های GPU شبکه‌های عصبی، از جمله CNN‌ها، پیشرفت‌های سریعی در دسترس داشتند. پیاده سازی های CNN مبتنی بر GPU. متعاقباً، با پذیرش گسترده‌تر یادگیری عمیق، سخت‌افزار تخصصی و بهینه‌سازی‌های الگوریتمی به‌طور خاص برای افزایش عملکرد آن توسعه یافتند.

یک عامل محوری در انقلاب یادگیری عمیق، پیشرفت در سخت‌افزار، به‌ویژه واحدهای پردازش گرافیکی (GPU) بود. تحقیقات اولیه در این زمینه به سال 2004 برمی گردد. در سال 2009، Raina، Madhavan و Andrew Ng نمونه اولیه ای از یادگیری عمیق با شتاب GPU را به نمایش گذاشتند و آموزش یک شبکه باور عمیق 100 میلیون پارامتری را در 30 انویدیا GeForce GTX 280 بار سریعتر به GPU گزارش کردند. سرعت ها.

در سال 2011، یک شبکه عصبی کانولوشنال (CNN) به نام DanNet که توسط دن سیرسان، اولی مایر، جاناتان ماسی، لوکا ماریا گامباردلا، و یورگن اشمیدهابر توسعه داده شد، در یک مسابقه تشخیص الگوی بصری به عملکرد فوق بشری بی سابقه ای دست یافت. این سیستم با ضریب سه برابر از روش‌های مرسوم پیشی گرفت و متعاقباً در رقابت‌های اضافی پیروز شد. محققان همچنین نشان دادند که استفاده از CNN با حداکثر تجمع در پردازنده‌های گرافیکی به طور قابل‌توجهی عملکرد را بهبود می‌بخشد.

در سال 2012، اندرو انگ و جف دین یک شبکه عصبی پیش‌خور (FNN) توسعه دادند که قادر به تشخیص مفاهیم سطح بالا، مانند گربه‌ها، تنها با پردازش ویدیوهای استخراج‌شده از YouTube است.

در اکتبر 2012، AlexNet که توسط Alex Krizhevsky، Ilya Sutskever و Geoffrey Hinton توسعه داده شد، به پیروزی قابل توجهی در رقابت ImageNet در مقیاس بزرگ دست یافت و از روش‌های یادگیری ماشین کم عمق معمولی پیشی گرفت. پیشرفت‌های بعدی شامل شبکه VGG-16، ایجاد شده توسط Karen Simonyan و Andrew Zisserman، و Inceptionv3 Google بود.

موفقیت مشاهده‌شده در طبقه‌بندی تصاویر متعاقباً به تلاش پیچیده‌تر برای تولید زیرنویس‌های توصیفی برای تصاویر، که اغلب از معماری ترکیبی شبکه‌ای Lolutioners (شبکه‌ای NNort) و ConvolutionCorng (معماری شبکه‌ای ترکیبی) و ConvolutionCorts. شبکه‌های حافظه (LSTM).

تا سال 2014، پیشرفته‌ترین پیشرفته‌ترین شبکه‌های عصبی شامل آموزش «شبکه‌های عصبی بسیار عمیق» از 20 تا 30 لایه بود. با این حال، انباشتن تعداد بیش از حد لایه‌ها منجر به کاهش قابل توجهی در دقت تمرین شد، پدیده‌ای که مشکل «تخریب» نامیده می‌شود. در سال 2015، دو تکنیک متمایز برای تسهیل آموزش چنین شبکه‌های عمیقی معرفی شد: شبکه بزرگراه، که در می 2015 منتشر شد، و شبکه عصبی باقیمانده (ResNet)، که در دسامبر 2015 منتشر شد. ResNet به طور مشابه یک شبکه بزرگراهی با دروازه باز عمل می‌کند.

هم‌زمان، یادگیری عمیق شروع به تأثیرگذاری بر دامنه کرد. نمونه‌های پیشگام شامل Google DeepDream (2015) و انتقال سبک عصبی (2015) بود که هر دو از شبکه‌های عصبی طبقه‌بندی تصویر از قبل آموزش‌دیده‌شده مانند VGG-19 استفاده کردند.

شبکه متخاصم مولد (GAN)، معرفی‌شده توسط ایان گودفلو و همکاران. در سال 2014 و از نظر مفهومی ریشه در اصل کنجکاوی مصنوعی یورگن اشمیدهابر داشت، به عنوان یک روش پیشرو در مدل‌سازی تولیدی بین سال‌های 2014 و 2018 ظاهر شد. در مقیاس کوچک تا بزرگ به شکل هرمی شکل. پذیرش گسترده تولید تصویر مبتنی بر GAN نیز بحث هایی را در مورد دیپ فیک ها برانگیخت. از آن زمان، مدل‌های انتشار (2015) در مدل‌سازی مولد از GAN‌ها پیشی گرفتند، که نمونه آن سیستم‌هایی مانند DALL·E 2 (2022) و Stable Diffusion (2022) است.

در سال 2015، قابلیت‌های تشخیص گفتار Google از طریق مدل TM4-9% بهبود قابل توجهی را نشان داد. متعاقباً در جستجوی صوتی Google برای کاربران گوشی‌های هوشمند ادغام شد.

یادگیری عمیق جزء اصلی سیستم‌های پیشرفته در رشته‌های مختلف، به ویژه بینایی رایانه و تشخیص خودکار گفتار (ASR) را تشکیل می‌دهد. معیارهای عملکرد در مجموعه داده‌های ارزیابی پرکاربرد، از جمله TIMIT (برای ASR) و MNIST (برای طبقه‌بندی تصویر)، در کنار طیف وسیعی از وظایف تشخیص گفتار با واژگان بزرگ، به طور مداوم پیشرفت کرده‌اند. در حالی که شبکه‌های عصبی کانولوشن (CNN) توسط LSTMها برای ASR جایگزین شده‌اند، اما عملکرد برتر را در برنامه‌های بینایی کامپیوتری حفظ می‌کنند.

یوشوا بنجیو، جفری هینتون و یان لکون با جایزه تورینگ ۲۰۱۸ به دلیل «پیش‌رفت‌های مفهومی و مهندسی شبکه‌ای که به یک مؤلفه‌ی عمیق محاسباتی تبدیل شده‌اند» شناخته شدند.

شبکه های عصبی

شبکه های عصبی مصنوعی (ANNs)، همچنین به عنوان سیستم های پیوندگرا شناخته می شوند، پارادایم های محاسباتی هستند که از شبکه های عصبی بیولوژیکی موجود در مغز حیوانات الهام گرفته شده اند. این سیستم‌ها با تجزیه و تحلیل مثال‌ها، معمولاً بدون برنامه‌نویسی صریح و خاص، در وظایف مهارت پیدا می‌کنند. به عنوان مثال، در تشخیص تصویر، یک ANN ممکن است یاد بگیرد که تصاویر حاوی گربه ها را با پردازش تصاویر نمونه به صورت دستی با برچسب "گربه" یا "بدون گربه" شناسایی کند و متعاقباً از این بینش های تحلیلی برای دسته بندی تصاویر دیگر استفاده کند. آنها به ویژه در برنامه‌هایی که بیان آنها با استفاده از الگوریتم‌های رایانه‌ای مبتنی بر قانون سنتی چالش برانگیز است، مؤثر هستند.

یک شبکه عصبی مصنوعی (ANN) شامل مجموعه ای از واحدهای به هم پیوسته به نام نورون های مصنوعی است که مشابه نورون های بیولوژیکی در مغز هستند. هر اتصال یا سیناپس بین نورون ها انتقال سیگنال به نورون دیگر را تسهیل می کند. نورون دریافت کننده یا پس سیناپسی این سیگنال ها را قبل از انتقال به نورون های پایین دست بعدی پردازش می کند. نورون‌ها ممکن است حالتی داشته باشند که معمولاً با اعداد واقعی نشان داده می‌شود و معمولاً از 0 تا 1 متغیر است. هم نورون‌ها و هم سیناپس‌ها می‌توانند وزنی داشته باشند که به صورت دینامیکی در طول فرآیند یادگیری تنظیم می‌شود و در نتیجه شدت سیگنال منتشر شده در پایین دست را تعدیل می‌کند.

معمولاً، نورون‌ها در لایه‌های مجزایی ساختار می‌یابند. لایه های مختلف می توانند انواع مختلفی از تبدیل ها را در ورودی های مربوطه خود اجرا کنند. سیگنال ها به صورت متوالی از لایه اولیه (ورودی) به لایه نهایی (خروجی) انتشار می یابند و به طور بالقوه چندین بار از لایه های میانی عبور می کنند.

هدف اولیه توسعه شبکه عصبی شبیه سازی مکانیسم های حل مسئله مغز انسان بود. متعاقباً، تمرکز به سمت تکرار کارکردهای شناختی خاص، که منجر به انحراف از مدل‌های بیولوژیکی شد، نمونه‌ای از انتشار پس‌انداز شد - فرآیندی که شامل انتقال معکوس اطلاعات برای اصلاح پارامترهای شبکه می‌شود.

شبکه‌های عصبی در طیف متنوعی از برنامه‌های کاربردی، فیلتر اجتماعی، پردازش مجدد گفتار، محتوای کامپیوتری، پردازش مجدد گفتار، محتوای بازنگری، ترجمه ماشینی به کار گرفته شده‌اند. بازی‌های استراتژیک روی تخته و ویدیو، و روش‌های تشخیص پزشکی.

تا سال ۲۰۱۷، شبکه‌های عصبی معمولی شامل هزاران تا میلیون‌ها واحد و میلیون‌ها اتصال متقابل بودند. اگرچه این مقیاس از تعداد نورون‌ها در مغز انسان مرتبه‌ای کوچک‌تر است، اما این شبکه‌ها عملکرد فوق‌العاده انسانی را در کارهای متعددی مانند تشخیص چهره و انجام بازی Go نشان می‌دهند.

شبکه های عصبی عمیق

یک شبکه عصبی عمیق (DNN) به عنوان یک شبکه عصبی مصنوعی تعریف می‌شود که با وجود لایه‌های پنهان متعدد که بین لایه‌های ورودی و خروجی آن قرار دارند مشخص می‌شود. در حالی که معماری شبکه های عصبی مختلف وجود دارد، آنها به طور مداوم اجزای اساسی را شامل می شوند: نورون ها، سیناپس ها، وزن ها، سوگیری ها و توابع فعال سازی. در مجموع، این عناصر به‌گونه‌ای عمل می‌کنند که عملکردهای مغز انسان را شبیه‌سازی می‌کند و متمایل به روش‌های آموزشی مشابه روش‌هایی هستند که در سایر الگوریتم‌های یادگیری ماشینی اعمال می‌شود.

برای مثال، یک DNN آموزش‌دیده برای شناسایی نژاد سگ، تصویر ورودی را پردازش می‌کند تا احتمال تعلق سگ به یک نژاد خاص را محاسبه کند. سپس کاربران می توانند این نتایج را بررسی کرده و نمایش احتمالات را، معمولاً با تنظیم حداقل آستانه، برای به دست آوردن برچسب نژاد پیشنهادی، پیکربندی کنند. هر یک از این تبدیل‌های ریاضی یک لایه را تشکیل می‌دهند، و DNN‌های پیچیده لایه‌های متعددی را در خود جای می‌دهند، در نتیجه نامگذاری شبکه‌های عمیق را توجیه می‌کنند.

DNN‌ها قادر به مدل‌سازی روابط غیرخطی پیچیده هستند. معماری آنها ایجاد مدل های ترکیبی را تسهیل می کند، که در آن اشیاء از طریق آرایش سلسله مراتبی عناصر اساسی نشان داده می شوند. گنجاندن لایه‌های اضافی، ترکیب ویژگی‌های به دست آمده از لایه‌های قبلی را امکان‌پذیر می‌سازد، و به طور بالقوه مدل‌سازی داده‌های پیچیده با تعداد واحدهای کاهش‌یافته را در مقایسه با شبکه‌ای کم‌عمق که عملکرد مشابهی را نشان می‌دهند، ممکن می‌سازد. برای مثال، شواهد تجربی نشان داده‌اند که چندجمله‌ای‌های چند متغیره پراکنده به‌طور تصاعدی در برابر تقریب با استفاده از DNN نسبت به پیکربندی‌های شبکه‌ی کم‌عمق متمایل هستند.

معماری‌های عمیق تغییرات متعددی را در بر می‌گیرند که از مجموعه محدودی از روش‌های بنیادی ناشی می‌شوند. هر معماری متمایز موفقیت قابل توجهی در حوزه های کاربردی خاص به دست آورده است. مقایسه عملکرد مستقیم بین چندین معماری اغلب چالش برانگیز است، مگر اینکه ارزیابی آنها با استفاده از مجموعه داده های یکسان انجام شده باشد.

DNN‌ها عمدتاً شبکه‌های فید فوروارد هستند که با جریان داده یک طرفه از لایه ورودی به لایه خروجی، بدون هیچ گونه حلقه بازخورد مشخص می‌شوند. در ابتدا، یک DNN یک نقشه مفهومی از نورون‌های مجازی می‌سازد و مقادیر عددی دلخواه را که "وزن" نامیده می‌شوند، به اتصالات آنها اختصاص می‌دهد. سپس این وزن‌ها در ورودی‌ها ضرب می‌شوند و یک مقدار خروجی به دست می‌آیند که معمولاً از 0 تا 1 متغیر است. اگر شبکه نتواند یک الگوی خاص را دقیقاً شناسایی کند، یک الگوریتم وزن‌ها را به طور مکرر تغییر می‌دهد. این تنظیم تکراری به الگوریتم اجازه می‌دهد تا تأثیر پارامترهای خاصی را افزایش دهد تا زمانی که تبدیل ریاضی بهینه برای پردازش جامع داده به دست آید.

شبکه‌های عصبی تکراری، که جریان داده‌ها را در جهت‌های مختلف اجازه می‌دهند، در برنامه‌هایی مانند مدل‌سازی زبان استفاده می‌شوند. معماری‌های حافظه کوتاه‌مدت (LSTM) به طور قابل‌توجهی برای این کاربرد خاص مؤثر هستند.

شبکه‌های عصبی کانولوشن (CNN) به طور گسترده در زمینه بینایی رایانه استفاده می‌شوند. علاوه بر این، CNN ها در مدل سازی صوتی برای سیستم های تشخیص خودکار گفتار (ASR) کاربرد دارند.

چالش ها

مشابه شبکه های عصبی مصنوعی (ANN)، آموزش ساده DNN ها می تواند منجر به عوارض مختلفی شود. در میان این مسائل، نیازهای محاسباتی بیش از حد و بیش از حد مناسب است.

شبکه‌های عصبی عمیق (DNN) به دلیل لایه‌های انتزاعی متعدد، مستعد برازش بیش از حد هستند، که آنها را قادر می‌سازد وابستگی‌های نادر در داده‌های آموزشی را مدل کنند. برای کاهش تناسب بیش از حد در طول تمرین، تکنیک‌های منظم‌سازی مانند هرس واحد ایواخننکو، کاهش وزن ( $\ell _{2}$ -regularization)، یا پراکندگی ( $\ell _{1}$ 35 §m> {\displaystyle \ell _{1}} -regularization) می تواند استفاده شود. از طرف دیگر، منظم‌سازی ترک تحصیل شامل حذف تصادفی واحدها از لایه‌های پنهان در طول فرآیند آموزش است، در نتیجه به حذف وابستگی‌های نادر کمک می‌کند. یک پیشرفت اخیر شامل بررسی مدل‌هایی با پیچیدگی بهینه است که با تخمین پیچیدگی ذاتی کار در حال مدل‌سازی به دست می‌آید. این روش با موفقیت برای پیش‌بینی سری‌های زمانی چند متغیره، از جمله پیش‌بینی ترافیک، اعمال شده است. علاوه بر این، تکنیک‌های افزایش داده‌ها، مانند برش و چرخش، می‌توانند مجموعه‌های آموزشی کوچک‌تری را گسترش دهند، در نتیجه احتمال اضافه‌برازش را کاهش می‌دهند.

آموزش DNN‌ها نیاز به در نظر گرفتن پارامترهای متعددی از جمله ابعاد معماری (تعداد لایه‌ها و واحدها در هر لایه)، میزان یادگیری اولیه، و سرعت یادگیری دارد. کاوش جامع این فضای پارامتر برای شناسایی پیکربندی‌های بهینه اغلب به دلیل صرف زمان و منابع محاسباتی قابل توجه غیرعملی است. با این حال، کارایی‌های محاسباتی مختلف، مانند دسته‌بندی (که در آن گرادیان‌ها در چندین نمونه آموزشی به‌جای جداگانه محاسبه می‌شوند) روند را تسریع می‌کنند. قابلیت‌های پردازشی قابل توجه معماری‌های چند هسته‌ای، از جمله واحدهای پردازش گرافیکی (GPU) و Intel Xeon Phi، سرعت قابل‌توجهی را در آموزش به همراه داشته است، در درجه اول به دلیل مناسب بودن ذاتی آنها برای محاسبات ماتریسی و برداری.

به عنوان یک جایگزین، مهندسان ممکن است به دنبال معماری‌های شبکه عصبی باشند که با الگوریتم‌های آموزشی ساده‌تر و همگراتر مشخص می‌شوند. کنترلر بیان مدل مخچه (CMAC) نمونه ای از چنین شبکه عصبی است، زیرا نیازی به نرخ یادگیری یا وزن های اولیه تصادفی ندارد. فرآیند آموزشی آن همگرایی را در یک مرحله با هر دسته جدید داده تضمین می‌کند و پیچیدگی محاسباتی الگوریتم آموزشی آن به صورت خطی با تعداد نورون‌های درگیر مقیاس می‌شود.

سخت افزار

از دهه 2010، پیشرفت‌های همزمان در الگوریتم‌های یادگیری ماشین و سخت‌افزار رایانه، روش‌های کارآمدتری را برای آموزش شبکه‌های عصبی عمیق، که اغلب لایه‌های متعددی از واحدهای پنهان غیرخطی و لایه‌های خروجی گسترده را در خود جای می‌دهند، تسهیل کرده است. تا سال 2019، واحدهای پردازش گرافیکی (GPU) که اغلب با ویژگی‌های مخصوص هوش مصنوعی تقویت می‌شدند، جایگزین واحدهای پردازش مرکزی (CPU) به عنوان سخت‌افزار غالب برای آموزش سیستم‌های هوش مصنوعی ابری تجاری در مقیاس بزرگ شدند. OpenAI تخمین زد که سخت‌افزار محاسباتی مورد استفاده در پروژه‌های اصلی یادگیری عمیق، از AlexNet (2012) تا AlphaZero (2017)، افزایشی 300000 برابری در محاسبات مورد نیاز را تجربه کرده است، و روند دو برابری زمان 3.4 ماه را نشان می‌دهد. الگوریتم ها نمونه‌هایی از این پردازنده‌ها شامل واحدهای پردازش عصبی (NPU) موجود در تلفن‌های همراه هوآوی و سرورهای محاسبات ابری، مانند واحدهای پردازش تنسور (TPU) در پلتفرم Google Cloud است. Cerebras Systems همچنین یک سیستم اختصاصی برای مدیریت مدل‌های یادگیری عمیق بزرگ ایجاد کرده است، CS-2، که مبتنی بر بزرگترین پردازنده صنعت، نسل دوم موتور مقیاس ویفر (WSE-2) است.

نیمه‌هادی‌های نازک اتمی ماده امیدوارکننده‌ای برای سخت‌افزار یادگیری عمیق با انرژی کارآمد در نظر گرفته می‌شوند، جایی که ساختار عملکرد دستگاه منطقی هم داده‌ها و هم داده‌های عملکرد اصلی دستگاه را خدمت می‌کند. در سال 2020، Marega و همکاران. یافته‌های تجربی را بر روی یک ماده کانال فعال با منطقه بزرگ برای توسعه دستگاه‌ها و مدارهای منطقی در حافظه منتشر کرد که بر اساس ترانزیستورهای اثر میدانی دروازه شناور (FGFET) هستند.

در سال 2021، J. Feldmann و همکاران. یک شتاب دهنده سخت افزاری فوتونیک یکپارچه را معرفی کرد که برای پردازش کانولوشنی موازی طراحی شده است. محققان دو مزیت اصلی فوتونیک یکپارچه را در مقایسه با سیستم‌های الکترونیکی برجسته کردند: اول، ظرفیت آن برای انتقال داده‌های موازی گسترده از طریق تقسیم طول موج چندگانه همراه با شانه‌های فرکانس. و دوم، سرعت بسیار بالای مدولاسیون داده آن. این سیستم توانایی انجام تریلیون‌ها عملیات انباشتگی چندگانه در ثانیه را نشان می‌دهد، که بر پتانسیل قابل توجه فوتونیک یکپارچه در برنامه‌های کاربردی هوش مصنوعی فشرده محاسباتی تأکید می‌کند.

برنامه ها

تشخیص خودکار گفتار

تشخیص گفتار خودکار در مقیاس بزرگ، اولین و قانع‌کننده‌ترین داستان موفقیت اجرای یادگیری عمیق را نشان می‌دهد. شبکه‌های عصبی تکراری حافظه کوتاه‌مدت (LSTM) قادر به تسلط بر وظایف «یادگیری بسیار عمیق» هستند، که شامل فواصل چند ثانیه‌ای حاوی رویدادهای گفتاری است که با هزاران مرحله زمانی گسسته مشخص شده‌اند و هر مرحله تقریباً 10 میلی‌ثانیه است. علاوه بر این، معماری‌های LSTM که دروازه‌های فراموشی را در خود جای داده‌اند، عملکرد رقابتی را در برابر سیستم‌های تشخیص گفتار معمولی در کاربردهای خاص نشان می‌دهند.

دستاوردهای اولیه در تشخیص گفتار عمدتاً از وظایف تشخیص در مقیاس کوچک با استفاده از مجموعه داده TIMIT مشتق شده‌اند. این مجموعه داده شامل 630 گوینده است که نشان دهنده هشت گویش اصلی انگلیسی آمریکایی هستند و هر گوینده ده جمله را بیان می کند. مقیاس فشرده آن ارزیابی پیکربندی مدل های متعدد را تسهیل می کند. مهم‌تر از همه، کار TIMIT بر تشخیص توالی تلفن متمرکز است، که بر خلاف تشخیص توالی کلمه، استفاده از مدل‌های زبان بیگرام تلفنی کمتر قوی‌تر را مجاز می‌سازد. این مشخصه تجزیه و تحلیل ساده تری از کارایی مدل سازی آکوستیک در سیستم های تشخیص گفتار را امکان پذیر می کند. نرخ‌های خطای گزارش‌شده، شامل این یافته‌های اولیه و به‌عنوان درصد درصد خطای تلفن (PER)، از سال 1991 به‌طور سیستماتیک جمع‌آوری شده‌اند.

معرفی شبکه‌های عصبی عمیق (DNN) برای تشخیص بلندگو در اواخر دهه 1990، به دنبال آن کاربرد آن‌ها در تشخیص گفتار بین سال‌های 2009 تا 2011، و ظهور معماری‌های LSTM در حدود سال‌های 2003 تا 2007، پیشرفت‌های کلیدی را در سراسر جهان به‌وجود آورد:

مقیاس‌پذیری پیشرفته و فرآیندهای آموزش و رمزگشایی سریع برای DNNها.
روش های آموزشی تبعیض آمیز را ترتیب دهید.
پردازش ویژگی با استفاده از مدل‌های عمیق، مبتنی بر درک قوی از مکانیسم‌های ذاتی آنها.
تکنیک‌های انطباق برای DNN و مدل‌های یادگیری عمیق مشابه.
پارادایم‌های یادگیری چند وظیفه‌ای و انتقالی که از طریق DNN و معماری‌های عمیق مرتبط پیاده‌سازی شده‌اند.
شبکه‌های عصبی کانولوشنال (CNN) و طراحی بهینه آنها برای استفاده از دانش خاص دامنه در پردازش گفتار.
شبکه های عصبی بازگشتی (RNN) و انواع مختلف LSTM آنها.
دسته‌های اضافی مدل‌های عمیق، مانند مدل‌های مبتنی بر تانسور و معماری‌های مولد/تبعیض عمیق یکپارچه.

مدل‌های تشخیص گفتار معاصر اغلب از ترانسفورماتورها یا شبکه‌های پیچیدگی زمانی استفاده می‌کنند که به موفقیت قابل توجهی و پذیرش گسترده دست می‌یابند. تقریباً همه پلتفرم‌های برجسته تشخیص گفتار تجاری، از جمله مایکروسافت کورتانا، ایکس‌باکس، مترجم اسکایپ، آمازون الکسا، گوگل ناو، جستجوی صوتی اپل سیری، بایدو و iFlyTek و محصولات مختلف گفتار Nuance، اساساً بر اساس روش‌های یادگیری عمیق ساخته شده‌اند.

تشخیص تصویر

پایگاه داده MNIST به عنوان یک معیار به طور گسترده برای کارهای طبقه بندی تصاویر استفاده می شود. MNIST شامل ارقام دست‌نویس، شامل 60000 نمونه آموزشی و 10000 نمونه تست است. مشابه TIMIT، مقیاس متوسط آن ارزیابی پیکربندی‌های مدل متعدد را تسهیل می‌کند.

تشخیص تصویر مبتنی بر یادگیری عمیق به قابلیت‌های «فوق بشری» دست یافته است که به طور مداوم نتایج دقیق‌تری را نسبت به شرکت‌کنندگان انسانی ارائه می‌دهد. این نقطه عطف در ابتدا در سال 2011 برای تشخیص علائم راهنمایی و رانندگی و متعاقباً در سال 2014 برای تشخیص چهره انسان به دست آمد.

وسایل نقلیه مجهز به سیستم های یادگیری عمیق اکنون قادر به تفسیر زاویه دید دوربین 360 درجه هستند. یکی دیگر از کاربردهای گویا، آنالیز رمان بدشکلی صورت (FDNA) است که برای تجزیه و تحلیل موارد ناهنجاری انسانی از طریق مرتبط کردن آنها با پایگاه داده گسترده ای از سندرم های ژنتیکی استفاده می شود.

پردازش هنرهای بصری

بر اساس پیشرفت‌های موجود در تشخیص تصویر، تکنیک‌های یادگیری عمیق به طور فزاینده‌ای برای کارهای هنری مختلف بصری به کار می‌روند. به عنوان مثال، شبکه های عصبی عمیق (DNN) در موارد زیر مهارت نشان داده اند:

شناسایی دوره سبکی یک نقاشی خاص.
اجرای انتقال سبک عصبی، که شامل استخراج سبک زیبایی‌شناختی از یک اثر هنری خاص و اعمال زیبایی‌شناختی آن به یک عکس یا ویدیو دلخواه است.
ایجاد تصاویر متقاعد کننده برگرفته از فیلدهای ورودی بصری تصادفی.

پردازش زبان طبیعی

شبکه های عصبی از اوایل دهه 2000 در پیاده سازی مدل های زبانی استفاده شده اند. معماری‌های حافظه کوتاه‌مدت بلند مدت (LSTM) به‌ویژه به پیشرفت‌های قابل توجهی در ترجمه ماشینی و مدل‌سازی زبان کمک کرده‌اند.

تکنیک های اساسی اضافی در این حوزه شامل نمونه گیری منفی و جاسازی کلمه است. جاسازی کلمه، که نمونه آن word2vec است، به عنوان یک لایه بازنمایی در معماری یادگیری عمیق عمل می کند و کلمات گسسته را بر اساس روابط آنها در مجموعه داده به یک نمایش متنی تبدیل می کند. این اطلاعات موقعیتی به عنوان مختصات فضای برداری کدگذاری می شود. استفاده از جاسازی کلمه به عنوان یک لایه ورودی برای شبکه‌های عصبی مکرر (RNN) شبکه را قادر می‌سازد تا به طور موثر جملات و عبارات را از طریق گرامر برداری ترکیبی تجزیه کند. گرامر برداری ترکیبی مشابه گرامر احتمالی بدون زمینه (PCFG) است که توسط یک RNN تحقق یافته است. رمزگذارهای خودکار بازگشتی که از جاسازی‌های کلمه استفاده می‌کنند، می‌توانند شباهت جمله را ارزیابی کرده و جملات را شناسایی کنند. معماری‌های عصبی عمیق عملکرد برتر در تجزیه حوزه، تجزیه و تحلیل احساسات، بازیابی اطلاعات، درک زبان گفتاری، ترجمه ماشینی، پیوند موجودیت متنی، تشخیص سبک نوشتاری، تشخیص نهاد نام‌گذاری شده (طبقه‌بندی نشانه)، طبقه‌بندی متن، از جمله کاربردهای دیگر را نشان می‌دهند.

پیشرفت‌های معاصر مفهوم جملات واژه‌ی کامبز را گسترش داده است. بازنمایی ها.

Google Translate (GT) از یک شبکه قابل توجه حافظه کوتاه مدت (LSTM) سرتاسری استفاده می کند. ترجمه ماشین عصبی گوگل (GNMT) از روش ترجمه ماشینی مبتنی بر مثال استفاده می کند، که در آن سیستم دانش را از مجموعه داده های گسترده ای که میلیون ها مثال را شامل می شود، به دست می آورد. این رویکرد ترجمه جملات کامل را به جای بخش های تکه تکه شده تسهیل می کند. Google Translate از بیش از صد زبان پشتیبانی می کند. شبکه زیربنایی معنای معنایی جملات را رمزگذاری می کند و فراتر از به خاطر سپردن صرف مطابقت های عبارت به عبارت است. انگلیسی به عنوان یک زبان واسطه برای اکثر جفت های ترجمه در این سیستم عمل می کند.

کشف و سم شناسی داروسازی

بخش قابل‌توجهی از ترکیبات دارویی تحقیقاتی تأییدیه نظارتی را دریافت نمی‌کنند. چنین شکست‌هایی معمولاً از اثربخشی ناکافی (اثرات روی هدف)، تعاملات نامطلوب (اثرات خارج از هدف)، یا پیامدهای سم‌شناسی پیش‌بینی نشده ناشی می‌شوند. روش‌های یادگیری عمیق به دلیل پتانسیل آن‌ها برای پیش‌بینی اهداف بیومولکولی، برهم‌کنش‌های خارج از هدف، و پروفایل‌های سم‌شناسی مواد شیمیایی محیطی موجود در مواد مغذی، محصولات خانگی و عوامل دارویی مورد بررسی قرار گرفته‌اند.

AtomNet یک سیستم یادگیری عمیق را نشان می‌دهد که به طور خاص برای طراحی دارویی منطقی مبتنی بر ساختار طراحی شده است. برای شناسایی مولکول‌های زیستی نامزد جدید که بیماری‌هایی مانند ویروس ابولا و مولتیپل اسکلروزیس را هدف قرار می‌دهند، استفاده شده است.

در سال 2017، شبکه‌های عصبی نموداری در ابتدا برای پیش‌بینی ویژگی‌های مولکولی متنوع در مجموعه داده‌های سم‌شناسی گسترده استفاده شدند. تا سال 2019، شبکه‌های عصبی مولد ایجاد مولکول‌هایی را تسهیل کردند که متعاقباً از طریق مطالعات تجربی، از جمله ارزیابی‌های in vivo در موش، تأیید شدند.

سیستم های توصیه کننده

یادگیری عمیق در سیستم‌های توصیه‌گر برای استخراج ویژگی‌های برجسته برای مدل‌های عامل پنهان، به‌ویژه برای موسیقی مبتنی بر محتوا و توصیه‌های مجلات، استفاده شده است. علاوه بر این، یادگیری عمیق چند نمایه برای تعیین اولویت های کاربر در دامنه های مختلف به کار گرفته شده است. این مدل یک روش ترکیبی مشارکتی و مبتنی بر محتوا را ادغام می‌کند و در نتیجه کارایی توصیه‌ها را در کارهای مختلف بهبود می‌بخشد.

بیوانفورماتیک

در بیوانفورماتیک، یک شبکه عصبی مصنوعی رمزگذار خودکار (ANN) برای پیش‌بینی حاشیه‌نویسی هستی‌شناسی ژن و روشن کردن روابط ژن-عملکرد استفاده شده است.

در زمینه انفورماتیک پزشکی، یادگیری عمیق برای پیش‌بینی کیفیت خواب با استفاده از داده‌های به‌دست‌آمده از داده‌های بر اساس داده‌های مربوط به سلامت پوشیدنی استفاده شده است. شبکه‌های عصبی عملکرد استثنایی در پیش‌بینی ساختارهای پروتئینی بر اساس توالی‌های اسید آمینه تشکیل‌دهنده‌شان نشان داده‌اند. قابل ذکر است، در سال 2020، AlphaFold، یک سیستم مبتنی بر یادگیری عمیق، به سطحی از دقت دست یافت که بطور قابل ملاحظه ای از همه روش های محاسباتی قبلی پیشی گرفت.

تخمینات شبکه عصبی عمیق

شبکه های عصبی عمیق را می توان برای تخمین آنتروپی یک فرآیند تصادفی از طریق روشی به نام برآوردگر آنتروپی مشترک عصبی (NJEE) استفاده کرد. چنین تخمینی بینش هایی را در مورد تأثیر متغیرهای تصادفی ورودی بر روی یک متغیر تصادفی مستقل ارائه می دهد. در عمل، DNN به‌عنوان یک طبقه‌بندی‌کننده عمل می‌کند و یک بردار ورودی یا ماتریس X را به یک توزیع احتمال خروجی برای کلاس‌های بالقوه متغیر تصادفی Y، مشروط به ورودی X، نگاشت می‌کند. برای مثال، در وظایف طبقه‌بندی تصویر، NJEE بردارهای مقدار رنگ پیکسل را به احتمالات مربوط به دسته‌های تصویر مختلف ترجمه می‌کند. توزیع احتمال Y معمولاً از یک لایه Softmax مشتق می‌شود، جایی که تعداد گره‌ها با اندازه الفبای Y مطابقت دارد. نشان داده شده است که این روش یک برآوردگر کاملاً سازگار به دست می‌دهد که از عملکرد رویکردهای جایگزین پیشی می‌گیرد، به‌ویژه هنگامی که با اندازه‌های الفبای گسترده سروکار داریم.

تجزیه و تحلیل تصویر پزشکی

یادگیری عمیق عملکرد رقابتی را در کاربردهای پزشکی نشان داده است، از جمله طبقه‌بندی سلول‌های سرطانی، تشخیص ضایعه، تقسیم‌بندی اندام، و بهبود تصویر. روش‌های یادگیری عمیق معاصر دقت بالایی در تشخیص بیماری نشان می‌دهند و در نتیجه به متخصصان در افزایش کارایی تشخیصی کمک می‌کنند.

تبلیغات تلفن همراه

تعیین مخاطبان تلفن همراه بهینه برای تبلیغات چالشی دائمی است که نیاز به تجزیه و تحلیل جامع نقاط داده متعدد قبل از ایجاد و استقرار بخش هدف توسط یک سرور تبلیغاتی دارد. تکنیک های یادگیری عمیق برای تفسیر مجموعه داده های تبلیغاتی گسترده و با ابعاد بالا به کار گرفته شده است. داده های قابل توجهی در طول چرخه تبلیغات اینترنتی، شامل رویدادهای درخواست، سرویس و کلیک انباشته می شود. چنین اطلاعاتی متعاقباً می‌تواند به عنوان پایه‌ای برای مدل‌های یادگیری ماشینی با هدف بهینه‌سازی انتخاب آگهی باشد.

بازیابی تصویر

یادگیری عمیق به طور موثر در رسیدگی به مشکلات معکوس، از جمله حذف نویز، وضوح فوق العاده، رنگ آمیزی درونی و رنگ آمیزی فیلم استفاده شده است. نمونه‌های قابل‌توجهی از این برنامه‌ها شامل روش‌های یادگیری مانند "فیلدهای انقباض برای بازیابی موثر تصویر" است که بر روی یک مجموعه داده تصویری جامع آموزش داده شده است، و Deep Image Prior که مستقیماً روی تصویری که نیاز به بازیابی دارد آموزش داده شده است.

تشخیص کلاهبرداری مالی

یادگیری عمیق در تشخیص تقلب های مالی، فرار مالیاتی و تلاش های مبارزه با پولشویی کاربرد پیدا می کند.

علوم مواد

در نوامبر 2023، محققان در Google DeepMind و آزمایشگاه ملی لارنس برکلی از یک سیستم هوش مصنوعی به نام GNoME رونمایی کردند. این سیستم با کشف بیش از 2 میلیون ماده جدید در یک دوره نسبتاً کوتاه، علم مواد را به طور قابل توجهی پیشرفت کرده است. GNoME از روش‌های یادگیری عمیق برای بررسی کارآمد ساختارهای مواد آینده استفاده می‌کند که منجر به پیشرفت قابل توجهی در شناسایی ساختارهای بلوری معدنی پایدار می‌شود. پیش‌بینی‌های این سیستم با آزمایش رباتیک مستقل تأیید شد و میزان موفقیت قابل توجهی از 71٪ را نشان داد. داده های مربوط به این مواد تازه شناسایی شده از طریق پایگاه داده پروژه مواد به صورت عمومی در دسترس است، و محققان را قادر می سازد تا موادی را که دارای ویژگی های خاص برای کاربردهای متنوع هستند، مشخص کنند. این پیشرفت پیامدهای عمیقی برای مسیر اکتشافات علمی و ادغام هوش مصنوعی در تحقیقات علم مواد دارد که به طور بالقوه نوآوری مواد را تسریع می‌کند و هزینه‌های توسعه محصول را کاهش می‌دهد. استقرار هوش مصنوعی و یادگیری عمیق، پتانسیل را برای به حداقل رساندن یا حذف آزمایش‌های آزمایشگاهی دستی نشان می‌دهد، در نتیجه دانشمندان را قادر می‌سازد تا به طور گسترده‌تری روی طراحی و تجزیه و تحلیل ترکیبات متمایز تمرکز کنند.

نظامی

وزارت دفاع ایالات متحده از یادگیری عمیق برای آموزش روبات‌ها برای انجام وظایف جدید از طریق یادگیری مشاهده‌ای استفاده کرد.

معادلات دیفرانسیل جزئی

شبکه های عصبی مبتنی بر فیزیک برای پرداختن به معادلات دیفرانسیل جزئی در مسائل رو به جلو و معکوس از طریق یک رویکرد داده محور استفاده شده اند. یک کاربرد قابل توجه شامل بازسازی جریان سیال است که توسط معادلات ناویر-استوکس اداره می شود. استفاده از شبکه‌های عصبی با اطلاعات فیزیک، نیاز به تولید مش اغلب پرهزینه را که در روش‌های دینامیک سیالات محاسباتی مرسوم (CFD) ذاتی است، برطرف می‌کند. بدیهی است که ادغام محدودیت‌های هندسی و فیزیکی تأثیر هم افزایی بر جایگزین‌های PDE عصبی اعمال می‌کند و در نتیجه کارآیی پیش‌بینی آن‌ها را برای شبیه‌سازی‌های پایدار و گسترده افزایش می‌دهد.

روش معادله دیفرانسیل تصادفی به عقب عمیق

روش معادله دیفرانسیل تصادفی عقب مانده عمیق (BSDE) یک رویکرد عددی را نشان می دهد که یادگیری عمیق را با BSDE ها ادغام می کند. این روش به ویژه برای پرداختن به چالش‌های بعدی رایج در ریاضیات مالی مؤثر است. با استفاده از ظرفیت‌های تقریب تابع قوی شبکه‌های عصبی عمیق، BSDE عمیق به طور موثر مشکلات محاسباتی با تکنیک‌های عددی مرسوم در زمینه‌های چند بعدی را کاهش می‌دهد. به طور خاص، روش‌های تثبیت‌شده مانند رویکردهای تفاضل محدود یا شبیه‌سازی‌های مونت کارلو اغلب با نفرین ابعاد، که با افزایش نمایی در هزینه‌های محاسباتی نسبت به تعداد ابعاد مشخص می‌شود، درگیر هستند. در مقابل، روش‌های BSDE عمیق از شبکه‌های عصبی عمیق برای تقریب راه‌حل‌های معادلات دیفرانسیل جزئی با ابعاد بالا (PDEs) استفاده می‌کنند و در نتیجه بار محاسباتی را به‌طور قابل‌توجهی کاهش می‌دهند.

علاوه بر این، ادغام شبکه‌های عصبی مبتنی بر علم فیزیک (PINN) با چارچوب‌های فیزیکی عمیقی که به‌طور مستقیم توسط قانون BSDE آن را به طور قابل‌توجهی تقویت می‌کند، می‌شود. به معماری شبکه عصبی این ادغام تضمین می کند که راه حل های مشتق شده نه تنها با داده های تجربی همسو می شوند، بلکه به شدت با معادلات دیفرانسیل تصادفی حاکم مطابقت دارند. پین‌ها از نقاط قوت یادگیری عمیق استفاده می‌کنند و در عین حال به محدودیت‌های ذاتی تحمیل‌شده توسط مدل‌های فیزیکی احترام می‌گذارند، در نتیجه راه‌حل‌های دقیق‌تر و قابل اعتمادتری برای مسائل ریاضیات مالی ارائه می‌دهند.

بازسازی تصویر

بازسازی تصویر شامل استخراج تصاویر اصلی از اندازه‌گیری‌های مرتبط است. مطالعات متعدد کارایی برتر روش‌های یادگیری عمیق را نسبت به تکنیک‌های تحلیلی در کاربردهای مختلف، از جمله تصویربرداری طیفی و تصویربرداری اولتراسوند، نشان داده‌اند.

پیش بینی آب و هوا

سیستم‌های پیش‌بینی آب و هوای معمولی به سیستم‌های بسیار پیچیده معادلات دیفرانسیل جزئی می‌پردازند. GraphCast، یک مدل مبتنی بر یادگیری عمیق، بر روی داده های آب و هوای تاریخی گسترده برای پیش بینی تکامل الگوهای آب و هوا آموزش داده شده است. این مدل قادر است تا 10 روز شرایط آب و هوایی جهانی را با جزئیات قابل توجه و در کمتر از یک دقیقه پیش بینی کند و به سطحی از دقت قابل مقایسه با سیستم های پیشرفته دست یابد.

ساعت اپی ژنتیک

یک ساعت اپی ژنتیک یک سنجش بیوشیمیایی است که برای تعیین سن استفاده می شود. گالکین و همکاران از شبکه‌های عصبی عمیق برای ایجاد یک ساعت پیری اپی ژنتیک با دقت بی‌سابقه، با استفاده از بیش از 6000 نمونه خون استفاده کرد. این ساعت داده‌های 1000 سایت CpG را ادغام می‌کند و در مقایسه با افراد سالم، سن بیولوژیکی پیشرفته را در افراد مبتلا به شرایط خاص، از جمله بیماری التهابی روده (IBD)، زوال عقل فرونتومپورال، سرطان تخمدان و چاقی پیش‌بینی می‌کند. انتشار عمومی این ساعت قدیمی برای سال 2021 توسط Deep Longevity، یک شرکت اسپین آف از Insilico Medicine پیش بینی شده بود.

ارتباط با رشد شناختی و مغز انسان

یادگیری عمیق یک قرابت مفهومی قوی با دسته‌ای از نظریه‌های رشد مغز، به‌ویژه آن‌هایی که مربوط به رشد نئوکورتیکال هستند، نشان می‌دهد، که در ابتدا توسط دانشمندان علوم اعصاب شناختی در اوایل دهه 1990 مطرح شد. این نظریه‌های توسعه متعاقباً به عنوان مدل‌های محاسباتی تحقق یافتند و در نتیجه به عنوان پیش‌آهنگی برای سیستم‌های یادگیری عمیق معاصر عمل کردند. یک ویژگی مشترک در میان این مدل‌های رشدی این تصور است که پویایی‌های یادگیری فرضی مختلف در مغز، مانند تأثیر عوامل رشد عصبی، شکلی از خود سازمان‌دهی را تسهیل می‌کند که تا حدودی مشابه شبکه‌های عصبی به کار رفته در معماری‌های یادگیری عمیق است. مشابه نئوکورتکس، شبکه‌های عصبی از آرایش سلسله مراتبی فیلترهای لایه‌ای استفاده می‌کنند، که در آن هر لایه متوالی اطلاعات یک لایه قبلی (یا محیط عملیاتی) را قبل از انتقال خروجی خود و احتمالاً ورودی اصلی را به لایه‌های بعدی پردازش می‌کند. این فرآیند تکراری در یک آبشار خودسازماندهی مبدل‌ها به اوج خود می‌رسد که به طور بهینه با محیط‌های عملیاتی مربوطه سازگار شده‌اند. شرحی از سال 1995 این را بیان می‌کند: «به نظر می‌رسد که مغز نوزاد تحت تأثیر امواج به اصطلاح عوامل تغذیه‌ای خود سازمان می‌یابد... مناطق مجزای مغز به‌طور متوالی ارتباط برقرار می‌کنند، با یک لایه بافتی قبل از دیگری بالغ می‌شود و تا زمانی که کل مغز به بلوغ می‌رسد ادامه می‌یابد».

روش‌های متنوعی برای ارزیابی معقول بودن عصب‌بیولوژیکی مدل‌های یادگیری عمیق مورد استفاده قرار گرفته‌اند. یک رویکرد شامل پیشنهاد اصلاحات مختلف در الگوریتم پس انتشار برای افزایش واقع گرایی پردازش آن است. برعکس، سایر محققان معتقدند که پارادایم‌های یادگیری عمیق بدون نظارت، مانند الگوهای مبتنی بر مدل‌های مولد سلسله مراتبی و شبکه‌های باور عمیق، ممکن است واقعیت بیولوژیکی را با دقت بیشتری منعکس کنند. در این زمینه، مدل‌های شبکه عصبی مولد با یافته‌های عصبی زیست‌شناختی مربوط به پردازش مبتنی بر نمونه‌گیری در قشر مغز همراه شده‌اند.

در حالی که یک مقایسه جامع بین ساختار سازمانی مغز انسان و مکانیسم‌های رمزگذاری عصبی در شبکه‌های عمیق هنوز به طور کامل ایجاد نشده است، مشابه‌های متعددی شناسایی شده‌اند. به عنوان مثال، عملیات محاسباتی اجرا شده توسط واحدهای یادگیری عمیق ممکن است موازی با نورون های بیولوژیکی و جمعیت های عصبی باشد. به همین ترتیب، بازنمایی‌های فرمول‌بندی‌شده توسط مدل‌های یادگیری عمیق شباهت‌هایی با آنچه در سیستم بینایی نخستی‌ها مشاهده می‌شود، هم در سطح تک واحدی و هم در سطح جمعیت نشان می‌دهند.

فعالیت تجاری

آزمایشگاه تحقیقاتی هوش مصنوعی فیس‌بوک وظایفی مانند برچسب‌گذاری خودکار تصاویر آپلود شده با افراد شناسایی شده را بر عهده می‌گیرد.

تکنولوژی‌های DeepMind Google سیستمی را توسعه داده‌اند که در یادگیری بازی‌های ویدیویی Atari تنها از طریق ورودی داده‌های پیکسلی مهارت دارد. در سال 2015، آنها سیستم AlphaGo خود را به نمایش گذاشتند که به سطحی از مهارت در بازی Go دست یافت که برای شکست دادن یک بازیکن حرفه ای کافی بود. علاوه بر این، Google Translate از معماری شبکه عصبی برای تسهیل ترجمه در بیش از 100 زبان استفاده می‌کند.

در سال 2017، Covariant.ai با تخصص در ادغام فن‌آوری‌های یادگیری عمیق در محیط‌های تولید، شروع به فعالیت کرد.

در سال 2008، محققان در دانشگاه تگزاس (Texasvisind machine learning) به عنوان یک چارچوب آموزشی در دانشگاه تگزاس اقدام به یادگیری کردند. Agent Manually Via Evaluative Reinforcement (TAMER)، که روش‌های جدیدی را برای روبات‌ها یا برنامه‌های رایانه‌ای معرفی کرد تا مهارت کار را از طریق تعامل با یک مربی انسانی کسب کنند. با تکیه بر TAMER، الگوریتم بعدی، Deep TAMER، در سال 2018 از طریق تلاش مشترک بین آزمایشگاه تحقیقاتی ارتش ایالات متحده (ARL) و محققان UT معرفی شد. Deep TAMER از یادگیری عمیق استفاده می کند تا ربات ها را قادر می سازد کارهای جدید را از طریق مشاهده یاد بگیرند. با استفاده از Deep TAMER، یک ربات با مشاهده یک مربی انسان، یا از طریق پخش ویدئو یا نمایش های حضوری، وظیفه ای را به دست آورد. ربات متعاقباً عملکرد خود را با مربیگری از مربی، که بازخورد ارزیابی‌ای مانند "کار خوب" و "کار بد" ارائه می‌دهد، اصلاح کرد.

انتقاد و نظر

یادگیری عمیق هم ارزیابی انتقادی و هم تفسیر را به همراه داشته است، که گهگاه از رشته‌هایی فراتر از علوم کامپیوتر سرچشمه می‌گیرد.

مبانی نظری

یک انتقاد اولیه به زیربنای نظری ناکافی برخی از روش‌های یادگیری عمیق مربوط می‌شود. در حالی که یادگیری در معماری‌های عمیق رایج معمولاً با استفاده از تکنیک‌های تثبیت شده گرادیان نزولی اجرا می‌شود، چارچوب نظری برای الگوریتم‌های دیگر، مانند واگرایی متضاد، کمتر روشن می‌شود. سؤالات کلیدی در مورد ویژگی های همگرایی، میزان همگرایی و ماهیت تقریب آنها وجود دارد. در نتیجه، روش‌های یادگیری عمیق اغلب به‌عنوان «جعبه‌های سیاه» تلقی می‌شوند، با اعتبارسنجی که عمدتاً بر مشاهدات تجربی تکیه می‌کند تا استنتاج نظری دقیق.

از این ایده حمایت می‌کند که حساسیت هنری ممکن است در لایه‌های پایین‌تری از سلسله‌مراتب شناختی وجود داشته باشد، مجموعه‌ای از سلسله‌مراتب داخلی منتشر شده از وضعیت‌های عمیق را نشان می‌دهد. شبکه های عصبی (20-30 لایه)، از آنجایی که تلاش می کنند تصاویر آموزش دیده را در داده های عمدتا تصادفی شناسایی کنند، جذابیت بصری قابل توجهی از خود نشان دادند. اعلامیه تحقیقات اولیه بیش از 1000 نظر جمع آوری کرد و برای مدتی به پربازدیدترین مقاله در وب سایت The Guardian تبدیل شد.

یک مطالعه، مبتنی بر نظریه انتشار نوآوری (IDT)، انتشار یادگیری عمیق را در کشورهای BRICS و OECD با استفاده از داده های Google Trend بررسی کرد.

خطاها

معماری‌های یادگیری عمیق رفتارهایی را نشان می‌دهند، از جمله طبقه‌بندی مطمئن تصاویر غیرقابل تشخیص به دسته‌های آشنا (مشاهده‌شده در سال 2014) و طبقه‌بندی نادرست تصاویر تغییریافته، اما قبلاً به درستی شناسایی شده‌اند (در سال 2013 ذکر شد). گورتزل اظهار داشت که این مسائل ناشی از محدودیت‌های ذاتی در ساختارهای بازنمایی داخلی آن‌ها است که می‌تواند مانع از ادغام یکپارچه آنها در چارچوب‌های متنوع و چند جزئی هوش عمومی مصنوعی (AGI) شود. یک راه حل بالقوه برای این چالش ها شامل توسعه معماری های یادگیری عمیق است که قادر به ایجاد حالت های داخلی مشابه تجزیه تصویر-گرامر پدیده های مشاهده شده است. به دست آوردن یک دستور زبان، خواه بصری یا زبانی، از داده های آموزشی، به طور موثر سیستم را به استفاده از استدلال عقل سلیم محدود می کند، که بر روی مفاهیم تعریف شده توسط قواعد تولید دستوری عمل می کند - یک هدف اساسی هم در اکتساب زبان انسانی و هم در هوش مصنوعی (AI).

آسیب پذیری های امنیت سایبری

با انتقال یادگیری عمیق از محیط‌های تحقیقاتی به برنامه‌های کاربردی دنیای واقعی، شواهد تجربی و تحقیقات علمی حساسیت شبکه‌های عصبی مصنوعی (ANN) را به بهره‌برداری مخرب و تاکتیک‌های فریبنده نشان می‌دهد. مهاجمان می‌توانند از درک الگوهای عملیاتی در این سیستم‌ها برای دستکاری ورودی‌های شبکه‌های عصبی مصنوعی استفاده کنند، در نتیجه شبکه را وادار می‌کنند تا مطابقت‌هایی را که برای ناظران انسانی غیرقابل تشخیص است شناسایی کند. به عنوان مثال، یک دشمن ممکن است تغییرات نامحسوسی را در یک تصویر ایجاد کند و باعث شود ANN آن را به عنوان یک هدف طبقه بندی کند، علیرغم تفاوت بصری آن با ادراک انسانی. این شکل از دستکاری به طور رسمی به عنوان "حمله خصمانه" نامگذاری شده است.

در سال 2016، محققان از یک شبکه عصبی مصنوعی برای دستکاری تکراری تصاویر استفاده کردند و نقاط کانونی شبکه دیگری را برای تولید داده های بصری فریبنده مشخص کردند. این تصاویر تغییر یافته برای ناظران انسانی از تصاویر اصلی خود قابل تشخیص نبودند. همزمان، یک تیم تحقیقاتی جداگانه نشان داد که پرینت‌های فیزیکی تصاویر دستکاری شده، که متعاقباً عکس‌برداری شده‌اند، می‌توانند با موفقیت سیستم طبقه‌بندی تصویر را گمراه کنند. یک استراتژی دفاعی شامل به کارگیری جستجوی عکس معکوس است، جایی که یک تصویر بالقوه ساخته شده در پلتفرم هایی مانند TinEye آپلود می شود تا سایر رخدادهای تصویر را تعیین کند. یک رویکرد پیچیده‌تر مستلزم جستجوی بخش‌های خاصی از یک تصویر برای تعیین منشأ بالقوه یا مؤلفه‌های منبع آن است.

علاوه بر این، مطالعه دیگری نشان داد که انواع خاصی از عینک‌های روانگردان می‌توانند سیستم‌های تشخیص چهره را فریب دهند تا افراد عادی را به‌عنوان افراد مشهور به اشتباه شناسایی کنند و در نتیجه جعل هویت بالقوه را تسهیل کنند. در سال 2017، محققان نشان دادند که استفاده از برچسب ها برای علائم توقف می تواند یک ANN را وادار کند که این علائم ترافیکی را به اشتباه طبقه بندی کند.

برعکس، شبکه‌های عصبی مصنوعی می‌توانند برای شناسایی مانورهای فریبنده، تحت آموزش‌های اضافی قرار گیرند، که به طور بالقوه باعث آغاز یک "مسابقه تسلیحاتی" متخاصم بین مهاجمان و مدافعان می‌شود، شبیه به پویایی مشاهده شده در بخش دفاع بدافزار. برای مثال، شبکه‌های عصبی مصنوعی برای دور زدن نرم‌افزار ضد بدافزار مبتنی بر ANN از طریق حملات مکرر شامل بدافزارهایی که به‌طور مداوم توسط الگوریتم ژنتیک اصلاح می‌شوند، آموزش دیده‌اند و در نهایت سیستم دفاعی را فریب می‌دهند و در عین حال عملکرد بار مخرب آن را حفظ می‌کنند.

در سال 2016، یک تیم تحقیقاتی خاص Google در سال 2016 می‌توانست فرمان صوتی مشخصی را بررسی کند. سیستم برای دسترسی به یک آدرس وب تعیین شده آنها این تئوری را مطرح کردند که این آسیب‌پذیری می‌تواند به‌عنوان پیش‌مایه‌ای برای حملات پیچیده‌تر عمل کند، مانند هدایت کاربران به صفحات وب میزبان بدافزارهای درایو.

مفهوم «مسمومیت داده‌ها» شامل معرفی مخفیانه مستمر داده‌های اشتباه به سیستم یادگیری ماشینی است که در نتیجه توانایی یادگیری دقیق و تسلط بر ظرفیت داده‌های آموزشی آن را محدود می‌کند.

ملاحظات اخلاقی در جمع آوری داده ها

سیستم‌های یادگیری عمیق، به‌ویژه آن‌هایی که از الگوهای یادگیری تحت نظارت استفاده می‌کنند، اغلب به مجموعه‌های داده‌ای وابسته هستند که یا توسط انسان تولید می‌شوند، توسط انسان حاشیه‌نویسی شده‌اند، یا هر دو. ادعا شده است که این فرآیند به طور گسترده نه تنها از کلیک‌کاری با دستمزد کم، که نمونه آن پلتفرم‌هایی مانند آمازون مکانیکال ترک است، بلکه از اشکال ظریف ریزکار انسانی نیز استفاده می‌کند که اغلب به این شکل ناشناخته باقی می‌مانند. فیلسوف Rainer Mühlhoff پنج مقوله متمایز از "گرفتن ماشینی" از ریزکارهای انسانی را که برای تولید داده های آموزشی استفاده می شود، ترسیم می کند: (1) گیمیفیکیشن، که شامل یکپارچه سازی حاشیه نویسی یا وظایف محاسباتی در پیشرفت یک بازی است. (2) "به دام انداختن و ردیابی"، شامل روش هایی مانند CAPTCHA برای تشخیص تصویر یا نظارت بر کلیک ها بر روی صفحات نتایج موتور جستجو. (3) بهره‌برداری از انگیزه‌های اجتماعی، به عنوان مثال، تشویق کاربران به برچسب زدن چهره‌ها در پلتفرم‌های رسانه‌های اجتماعی مانند فیس‌بوک برای به دست آوردن داده‌های تصویری برچسب‌گذاری شده از چهره. (4) اطلاعات کاوی، که از طریق استفاده از دستگاه‌های کمیت‌شده مانند ردیاب‌های فعالیت به دست می‌آید. و (5) کلیک سنتی.

کاربردهای هوش مصنوعی
حسگر فشرده
شبکه حالت اکو
مجموعه ای از ابتکارات هوش مصنوعی
ماشین حالت مایع
کاتالوگ جامع مجموعه داده ها برای تحقیقات یادگیری ماشین
محاسبات مخزن
مقیاس فضا و یادگیری عمیق
کدگذاری پراکنده
طوطی تصادفی
یادگیری عمیق توپولوژیکی

یادگیری عمیق (Deep learning)