در یادگیری ماشین، یادگیری عمیق (DL) از شبکههای عصبی چندلایه برای اجرای وظایفی مانند طبقهبندی، رگرسیون و یادگیری بازنمایی استفاده میکند. این حوزه با الهام گرفتن از علوم اعصاب زیستی، شامل مرتب کردن نورون های مصنوعی در لایه های سلسله مراتبی و متعاقباً آموزش آنها برای پردازش مجموعه داده های متنوع است. توصیفگر "عمیق" به معنای ادغام چندین لایه در این شبکه ها است که معمولاً از سه تا هزاران بالقوه متغیر است. روششناسی عملیاتی میتواند شامل پارادایمهای یادگیری نظارتشده، نیمهنظارتشده یا بدون نظارت باشد.
معماریهای یادگیری عمیق برجسته شبکههای کاملاً متصل، شبکههای باور عمیق، شبکههای عصبی تکرارشونده، شبکههای عصبی کانولوشن، شبکههای متخاصم مولد، ترانسفورماتورها، و میدانهای تشعشع عصبی را در بر میگیرند. این چارچوبهای معماری کاربرد گستردهای در حوزههای مختلف پیدا کردهاند، از جمله بینایی رایانه، تشخیص گفتار، پردازش زبان طبیعی، ترجمه ماشینی، بیوانفورماتیک، طراحی دارو، تجزیه و تحلیل تصویر پزشکی، علم آب و هوا، بازرسی مواد، و برنامههای بازی روی تخته. در این کاربردها، آنها به طور مداوم نتایج عملکردی را ارائه می دهند که یا قابل مقایسه یا در موارد خاص، برتر از نتایج بدست آمده توسط متخصصان انسانی است.
تکرارهای اولیه شبکه های عصبی از پردازش اطلاعات و مکانیسم های ارتباطی توزیع شده مشاهده شده در سیستم های بیولوژیکی، به ویژه مغز انسان، الهام گرفتند. با این وجود، شبکه های عصبی معاصر برای تقلید دقیق عملکردهای مغز موجودات طراحی نشده اند و به طور کلی مدل های ناکافی برای چنین هدف خاصی در نظر گرفته می شوند.
نمای کلی
اکثر مدلهای یادگیری عمیق معاصر اساساً بر اساس شبکههای عصبی چند لایه ساخته شدهاند که نمونههایی از آنها توسط شبکههای عصبی کانولوشن و ترانسفورماتورها است. با این حال، دامنه آنها میتواند به ترکیب فرمولهای گزارهای یا متغیرهای پنهان نیز گسترش یابد که به صورت لایهای در مدلهای مولد عمیق سازماندهی شدهاند، مانند گرههای موجود در شبکههای باور عمیق و ماشینهای بولتزمن عمیق.
در هستهی خود، یادگیری عمیق دستهای از الگوریتمهای یادگیری ماشین را تعیین میکند که به صورت اهرمی ساختار دادهها را بهصورت افزایشی ساختاری از لایههای پیشرفته تبدیل میکند. نمایش های انتزاعی و ترکیبی به عنوان مثال، در یک چارچوب تشخیص تصویر، ورودی خام اولیه ممکن است یک تصویر باشد که معمولاً به صورت تانسور پیکسل ها نشان داده می شود. یک لایه نمایشی بعدی میتواند تلاش کند تا اصول اولیه هندسی مانند خطوط و دایرهها را تشخیص دهد. لایه دوم ممکن است ترتیب لبه ها را ترکیب و رمزگذاری کند، در حالی که لایه سوم می تواند ویژگی های پیچیده تری مانند بینی و چشم را رمزگذاری کند. در نهایت، لایه چهارم مسئول تشخیص حضور یک چهره در تصویر خواهد بود.
به طور اساسی، یک فرآیند یادگیری عمیق دارای قابلیت ذاتی برای تعیین مستقل قرارگیری بهینه ویژگی ها در سطوح سلسله مراتبی خود به تنهایی است. از لحاظ تاریخی، قبل از ظهور یادگیری عمیق، روشهای متداول یادگیری ماشینی اغلب نیاز به مهندسی ویژگیهای دستی برای تبدیل دادههای خام به قالبی مناسبتر برای الگوریتمهای طبقهبندی داشتند. در مقابل، الگوی یادگیری عمیق نیاز به ویژگی های دست ساز را برطرف می کند، زیرا مدل به طور خودکار بازنمایی ویژگی های مربوطه را مستقیماً از داده ها شناسایی و استخراج می کند. با این حال، این اتوماسیون به طور کامل نیاز به بهینه سازی دستی را نفی نمی کند. برای مثال، تنظیم تعداد و ابعاد لایهها میتواند سطوح متفاوتی از انتزاع به دست آورد.
در زمینه "یادگیری عمیق"، اصطلاح "عمیق" به طور خاص به مقدار لایه هایی اشاره می کند که داده ها از طریق آنها تغییر شکل می دهند. به طور دقیق تر، سیستم های یادگیری عمیق با عمق مسیر تخصیص اعتبار (CAP) قابل توجه مشخص می شوند. CAP نشاندهنده زنجیره متوالی تبدیلها است که ورودی را به خروجی مرتبط میکند و در نتیجه روابط علی بالقوه بین آنها را مشخص میکند. در یک شبکه عصبی پیشخور، عمق CAP مطابق با عمق شبکه است که به عنوان تعداد لایه های پنهان به اضافه یک محاسبه می شود (با توجه به اینکه لایه خروجی نیز پارامتری است). برعکس، برای شبکههای عصبی مکرر، که در آن سیگنال میتواند چندین بار از یک لایه عبور کند، عمق CAP از نظر تئوری میتواند نامحدود باشد. در حالی که هیچ آستانه عمق پذیرفته شده جهانی به طور قطعی یادگیری کم عمق را از عمیق متمایز نمی کند، اجماع بین محققان نشان می دهد که یادگیری عمیق معمولاً شامل عمق CAP بیش از دو است. یک CAP عمق دو نشان داده شده است که به عنوان یک تقریب جهانی عمل می کند که قادر به شبیه سازی هر تابع دلخواه است. فراتر از این نکته، لایههای اضافی ذاتاً قابلیت تقریب تابع بنیادی شبکه را افزایش نمیدهند. با این وجود، مدلهای عمیق (مدلهای دارای CAP > دو) قابلیتهای استخراج ویژگی برتر را در مقایسه با مدلهای کم عمق نشان میدهند، که نشان میدهد لایههای اضافی در یادگیری مؤثر ویژگیهای پیچیده مؤثر هستند.
معماریهای یادگیری عمیق را میتوان با استفاده از یک روش ساخت لایه به لایه حریصانه مونتاژ کرد. این رویکرد، از هم گسیختگی انتزاعات پیچیده را تسهیل میکند و شناسایی ویژگیهایی را ممکن میسازد که عملکرد را بهطور بهینه افزایش میدهند.
الگوریتمهای یادگیری عمیق برای کارهای یادگیری بدون نظارت قابل استفاده هستند، که با توجه به فراوانی بیشتر دادههای بدون برچسب در مقایسه با دادههای برچسبدار، مزیت قابل توجهی است. شبکههای باور عمیق نمونهای از معماریهای عمیق هستند که قابل آموزش بدون نظارت هستند.
عبارت یادگیری عمیق توسط رینا دچتر در سال 1986 به حوزه یادگیری ماشینی معرفی شد. متعاقباً، ایگور آیزنبرگ و همکارانش آن را در سال 2000، بهویژه در چارچوب Bouleshole. با این حال، به نظر می رسد تکامل تاریخی این اصطلاح پیچیده تر است.
تفسیرها
شبکههای عصبی عمیق معمولاً از طریق عدسی قضیه تقریب جهانی یا استنتاج احتمالی درک میشوند.
قضیه تقریب جهانی پایه به قابلیت شبکههای عصبی پیشخور، دارای یک لایه پنهان واحد از ابعاد محدود، برای تقریبی توابع پیوسته میپردازد. جورج سایبنکو اثبات اولیه را در سال 1989 ارائه کرد، بهویژه برای توابع فعالسازی سیگموئید، که بعداً کورت هورنیک در سال 1991 آن را تعمیم داد تا معماریهای چند لایه پیشخور را در بر بگیرد. تحقیقات اخیر بیشتر نشان داده است که تقریب جهانی به توابع فعالسازی غیرمحدود، از جمله واحد خطی اصلاحشده کونیهیکو فوکوشیما، گسترش مییابد.
برای شبکههای عصبی عمیق، قضیه تقریب جهانی به ظرفیت شبکههایی با عرض محدود اما عمق قابل گسترش مربوط میشود. لو و همکاران نشان داد که یک شبکه عصبی عمیق که از فعالسازی ReLU استفاده میکند، میتواند هر تابع ادغامپذیر Lebesgue را در صورتی که عرض آن به شدت از بعد ورودی بیشتر باشد، تقریبی کند. برعکس، اگر عرض کمتر یا مساوی با بعد ورودی باشد، شبکه عصبی عمیق بهعنوان یک تقریبکننده جهانی عمل نمیکند.
برگرفته از حوزه یادگیری ماشین، تفسیر احتمالی استنتاج را در کنار اصول بهینهسازی آموزش و آزمایش، که به ترتیب با برازش و تعمیم مطابقت دارند، ترکیب میکند. به طور خاص، این تفسیر غیرخطی فعال سازی را به عنوان یک تابع توزیع تجمعی مفهوم می کند. این دیدگاه در توسعه ترک تحصیل به عنوان یک تکنیک منظم سازی در شبکه های عصبی بسیار مفید بود. محققان برجسته از جمله هاپفیلد، ویدرو و نارندرا این تفسیر احتمالی را معرفی کردند که متعاقباً از طریق بررسیهای جامع، مانند بررسیهای بیشاپ، رایج شد.
تاریخچه
قبل از 1980
شبکههای عصبی مصنوعی (ANN) به دو نوع اصلی تقسیم میشوند: شبکههای عصبی پیشخور (FNN) که به عنوان پرسپترونهای چندلایه (MLPs) نیز شناخته میشوند، و شبکههای عصبی بازگشتی (RNN). یک تمایز کلیدی این است که RNN ها چرخه هایی را در ساختار اتصال خود گنجانده اند، در حالی که FNN ها اینطور نیستند. در طول دهه 1920، ویلهلم لنز و ارنست ایزینگ مدل Ising را توسعه دادند که اساساً یک معماری RNN غیر یادگیری متشکل از عناصر آستانه نورون مانند را نشان می دهد. Shun'ichi آماری متعاقباً این معماری را در سال 1972 تطبیق داد، و RNN یادگیری او بعداً توسط جان هاپفیلد در سال 1982 مجدداً منتشر شد. دیگر شبکههای عصبی تکراری پیشگام توسط Kaoru Nakano در سال 1971 معرفی شدند. مربوط به تکامل مصنوعی و یادگیری RNNs.
در سال 1958، فرانک روزنبلات پرسپترون را معرفی کرد، یک پرسپترون چند لایه سه لایه (MLP) که شامل یک لایه ورودی، یک لایه پنهان با وزن های تصادفی، غیر یادگیری و یک لایه خروجی است. انتشارات او در سال 1962 جزئیات بیشتری از انواع و آزمایشهای محاسباتی، از جمله یک مدل پرسپترون چهار لایه با "شبکههای پیش پایانی تطبیقی" که در آن دو لایه نهایی دارای وزنهای آموخته شده بودند، بیشتر شد. او برای این کار، H. D. Block و B. W. Knight را به حساب آورد. کتاب روزنبلات همچنین به شبکه قبلی توسط R. D. Joseph (1960) ارجاع داده شده است، که به عنوان "از نظر عملکردی معادل یک نوع سیستم چهار لایه" توصیف شده است، و جوزف بیش از 30 بار ذکر شده است. این سؤال را مطرح میکند که آیا جوزف را باید بهعنوان مولد پرسپترونهای چندلایه واقعاً تطبیقی مجهز به واحدهای پنهان یادگیری شناخت. متأسفانه، الگوریتم یادگیری مرتبط غیر کاربردی ثابت شد و متعاقباً در ابهام محو شد.
الگوریتم یادگیری عمیق عملیاتی افتتاحیه، روش گروهی مدیریت داده بود که توسط الکسی ایواخننکو و لاپا در سال 1965 معرفی شد و برای آموزش شبکه های عصبی با عمق دلخواه طراحی شد. این رویکرد به عنوان گونهای از رگرسیون چند جملهای مفهومسازی شد که به طور موثر پرسپترون روزنبلات را برای مدیریت روابط دادههای پیچیده، غیرخطی و سلسله مراتبی گسترش داد. نشریه بعدی در سال 1971 یک شبکه عمیق هشت لایه ای را که با استفاده از این روش آموزش داده شده بود، که از تحلیل رگرسیون لایه به لایه استفاده می کرد، شرح داد. واحدهای پنهان اضافی از طریق هرس، با استفاده از یک مجموعه داده اعتبار سنجی مجزا حذف شدند. با توجه به اینکه توابع فعالسازی گرهای شامل چندجملهای کولموگروف-گابور هستند، این شبکهها همچنین اولین نمونههای معماری عمیق را نشان میدهند که واحدهای ضربی یا «دروازهها» را در خود جای داده است. Saito، شاگرد آماری، نشان داد که یک MLP پنج لایه، دارای دو لایه سازگار، میتواند نمایشهای داخلی را که قادر به طبقهبندی مقولههای الگوی غیرخطی قابل تفکیک هستند، به دست آورد. پیشرفتها در سختافزار و اصلاحات در تنظیم فراپارامتر، از آن زمان نزول گرادیان تصادفی سرتاسری را بهعنوان روش آموزشی رایج ایجاد کرده است.
کونیهیکو فوکوشیما در سال 1969 در تابع فعالسازی واحد خطی اصلاحشده (ReLU) پیشگام شد. معماریها.
پیدایش معماریهای یادگیری عمیق برای شبکههای عصبی کانولوشن (CNN)، که لایههای کانولوشنال و نمونهبرداری پایینی را در بر میگیرد، را میتوان در نئوگنیترون که توسط کونیهیکو فوکوشیما در سال 1979 پرده برداری کرد، البته بدون استفاده از انتشار پسانداز برای آموزش، ردیابی کرد.
انتشار پسزمینه اجرای کارآمد قانون زنجیره را نشان میدهد که در ابتدا توسط گوتفرید ویلهلم لایبنیتس در سال 1673 فرمولبندی شد و برای شبکههای متشکل از گرههای قابل تمایز اعمال شد. در حالی که روزنبلات در سال 1962 اصطلاح "خطاهای پس از انتشار" را ابداع کرد، او فاقد یک روش اجرایی عملی بود. با این حال، هنری جی. کلی پیش از این در سال 1960 یک پیشینه پیوسته برای انتشار پسانداز در حوزه تئوری کنترل ایجاد کرده بود. تکرار معاصر پس انتشار اولین بار در پایان نامه کارشناسی ارشد Seppo Linnainmaa در سال 1970 ظاهر شد. G.M. استروسکی و همکاران متعاقباً این اثر را مجدداً در سال 1971 منتشر کرد. Paul Werbos بعداً در سال 1982 از انتشار پسباز به شبکههای عصبی استفاده کرد. به ویژه، پایان نامه دکترای او در سال 1974، اگرچه در کتابی در سال 1994 تجدید چاپ شد، اما در آن زمان جزئیات الگوریتم را ارائه نکرد. دیوید ای. روملهارت و همکاران. در سال 1986 به طور قابل توجهی انتشار پس از آن رواج یافت، اما کار آنها به مشارکت های اصلی اشاره نمی کرد.
توسعه ها از دهه 1980 تا 2000
Alex Waibel شبکه عصبی تاخیر زمانی (TDNN) را در سال 1987 معرفی کرد که برای اعمال شبکههای عصبی کانولوشنال (CNN) در وظایف تشخیص واج طراحی شده بود. این معماری شامل کانولوشن ها، اشتراک وزن و انتشار پس زمینه بود. متعاقباً، در سال 1988، وی ژانگ از یک CNN آموزش داده شده در پس انتشار برای تشخیص حروف الفبا استفاده کرد. Yann LeCun و همکاران. LeNet، یک CNN که به طور خاص برای تشخیص کدهای پستی دست نویس در پست پستی طراحی شده بود را در سال 1989 توسعه داد. فرآیند آموزش آن به سه روز نیاز داشت. تا سال 1990، وی ژانگ یک CNN را بر روی سخت افزار محاسبات نوری پیاده سازی کرد. کاربرد CNN در سال 1991 گسترش یافت و شامل تقسیم بندی اشیاء تصویر پزشکی و تشخیص سرطان سینه در ماموگرافی شد. LeNet-5، یک CNN هفت سطحی که توسط Yann LeCun و همکاران توسعه یافته است. در سال 1998 برای طبقهبندی ارقام، توسط بانکهای متعدد برای شناسایی دادههای عددی دستنویس روی چکها که از تصاویر دیجیتالی 32×32 پیکسل پردازش شده بود، استفاده شد.
دهه 1980 شاهد پیشرفتهای قابل توجهی در شبکههای عصبی مکرر (RNN) بود. عود اساساً برای پردازش توالی به کار می رود. هنگامی که یک RNN باز می شود، ساختار ریاضی آن به یک لایه پیشخور عمیق نزدیک می شود. در نتیجه، RNNها ویژگیها و چالشهای مشابهی را نشان میدهند، با پیشرفتهای مربوطه که متقابلاً بر یکدیگر تأثیر میگذارند. از جمله مشارکتهای مؤثر اولیه در RNNها، شبکه جردن (1986) و شبکه المان (1990) بودند که هر دو از RNN برای بررسی مشکلات روانشناسی شناختی استفاده کردند.
در طول دهه 1980، انتشار پسانداز با محدودیتهایی در سناریوهای یادگیری عمیق مواجه شد که مشخصه آن مسیرهای تخصیص اعتبار طولانی بود. برای کاهش این مشکل، یورگن اشمیدهابر یک ساختار سلسله مراتبی از شبکههای عصبی بازگشتی (RNN) را در سال 1991 پیشنهاد کرد. این معماری بهطور تدریجی از طریق یادگیری خود نظارتی آموزش داده شد، که در آن هر RNN قصد داشت ورودی بعدی خود را پیشبینی کند، که نشاندهنده ورودی غیرمنتظره از RNN قبلی است. این «کمپرسور تاریخچه عصبی» از کدگذاری پیشبینیکننده برای توسعه بازنماییهای درونی در مقیاسهای زمانی خودسازماندهی چندگانه استفاده میکند و در نتیجه یادگیری عمیق بعدی را به طور قابلتوجهی تسهیل میکند. سلسله مراتب RNN را می توان با تقطیر یک شبکه chunker سطح بالاتر به یک شبکه automatizer سطح پایین تر به یک RNN منفرد جمع کرد. تا سال 1993، یک کمپرسور تاریخ عصبی با موفقیت به یک وظیفه "یادگیری بسیار عمیق" پرداخت که به بیش از 1000 لایه متوالی نیاز داشت زمانی که RNN به موقع باز شد. "P" در ChatGPT نشاندهنده این نوع از پیشآموزش است.
تز دیپلم سپ هوکرایتر در سال 1991 نه تنها کمپرسور تاریخ عصبی را پیادهسازی کرد، بلکه مشکل گرادیان ناپدید شدن را نیز شناسایی و بهطور کامل تحلیل کرد. برای مقابله با این موضوع، Hochreiter اتصالات باقیمانده مکرر را معرفی کرد. این کار بنیادی با توسعه شبکههای حافظه کوتاه مدت (LSTM) که در سال 1995 منتشر شد، به اوج خود رسید. با این حال، این معماری اولیه LSTM با تکرار مدرن آن، که یک "دروازه فراموشی" را در سال 1999 گنجانده بود، متفاوت بود و متعاقباً آن را به عنوان معماری استاندارد RNN معرفی کرد.
همچنین در سال 1991، یورگن اشمیدهابر شبکه های عصبی متخاصم را معرفی کرد که برای رقابت در یک بازی حاصل جمع صفر طراحی شده بودند، جایی که موفقیت یک شبکه مستقیماً با ضرر شبکه دیگر مطابقت دارد. شبکه اولیه به عنوان یک مدل مولد عمل می کند و توزیع احتمال را در الگوهای خروجی ایجاد می کند. شبکه دوم، برعکس، از نزول گرادیان برای پیشبینی پاسخهای محیطی به این الگوها استفاده میکند. این مفهوم «کنجکاوی مصنوعی» نامیده شد و بعداً در سال 2014 مبنایی برای شبکههای متخاصم مولد (GANs) شد.
بین سالهای 1985 و 1995، محققانی از جمله تری سجنوسکی، پیتر دایان و جفری هینتون چندین معماری و روششناسی را با الهام از مکانیک آماری توسعه دادند. این نوآوریها شامل ماشین بولتزمن، ماشین بولتزمن محدود، ماشین هلمهولتز و الگوریتم بیداری-خواب بود. هدف اصلی آنها یادگیری بدون نظارت مدل های مولد عمیق بود. با این وجود، این رویکردها از نظر محاسباتی فشردهتر از انتشار پسانداز بودند. الگوریتم یادگیری ماشین بولتزمن، که در سال 1985 معرفی شد، قبل از جایگزین شدن با الگوریتم پس انتشار در سال 1986، از محبوبیت مختصری برخوردار بود (ص. 112). قابلتوجه، شبکهای که در سال 1988 توسعه یافت، به عملکرد پیشرفتهای در پیشبینی ساختار پروتئین دست یافت که نشاندهنده کاربرد اولیه یادگیری عمیق در بیوانفورماتیک است.
برای سالها، هر دو معماری شبکههای عصبی مصنوعی کم عمق و عمیق، مانند شبکههای تکرارشونده، برای تشخیص گفتار مورد بررسی قرار گرفتند. با این حال، این روشهای عصبی بهطور مداوم نتوانستند از عملکرد غیریکنواخت، فناوری مدل گاوسی مخلوط/مدل پنهان مارکوف (GMM-HMM) که به طور متمایز آموزش دیده بودند، پیشی بگیرند. چالشهای مهم شناساییشده شامل ناپدید شدن گرادیان و ساختار همبستگی زمانی ضعیف در مدلهای پیشبینیکننده عصبی بود. موانع دیگر، دادههای آموزشی ناکافی و منابع محاسباتی محدود بود.
در نتیجه، اکثر محققان تشخیص گفتار تمرکز خود را از شبکههای عصبی به مدلسازی تولیدی تغییر دادند. یک استثنا قابل توجه در SRI International در اواخر دهه 1990 رخ داد. SRI با کمک مالی NSA و DARPA دولت ایالات متحده تحقیقاتی را در زمینه تشخیص گفتار و گوینده انجام داد. تیم تشخیص بلندگو، تحت رهبری لری هک، با استفاده از شبکه های عصبی عمیق برای پردازش گفتار در معیار تشخیص بلندگوی NIST در سال 1998 به موفقیت قابل توجهی دست یافت. این فناوری متعاقباً در Nuance Verifier ادغام شد و اولین استقرار صنعتی مهم یادگیری عمیق را نشان داد.
مفهوم اولویتبندی ویژگیهای "خام" نسبت به ویژگیهای بهینهسازی دستی در ابتدا و با موفقیت در اواخر دهه 1990 از طریق معماری رمزگذار خودکار عمیق مورد بررسی قرار گرفت. این مدلها بر روی طیفنگار خام یا ویژگیهای فیلتر-بانک خطی کار میکردند، که عملکرد برتر را در مقایسه با ویژگیهای Mel-Cepstral، که شامل تبدیلهای ثابت از طیفنگارها است، نشان میدادند. متعاقباً، استفاده مستقیم از ویژگیهای گفتار خام، بهویژه شکل موجها، نتایج عالی در مقیاسهای بزرگتر به همراه داشت.
2000s
در طول دهههای 1990 و 2000، شبکههای عصبی دورهای از اهمیت کمتری را تجربه کردند. مدلهای سادهتر، که از ویژگیهای دستساز مخصوص کار مانند فیلترهای گابور و ماشینهای بردار پشتیبانی (SVM) استفاده میکردند، به دلیل هزینه محاسباتی بالای شبکههای عصبی مصنوعی و درک ناقص سیمکشی شبکه عصبی بیولوژیکی مورد توجه قرار گرفتند.
در سال 2003، مدلهای کوتاهمدت طولانیمدت در مقایسه با سیستمهای متعارف گفتاری خاص (LSTM) نشاندهنده عملکرد رقابتی خاص مدلهای متداول بود. برنامه های کاربردی در سال 2006، الکس گریوز، سانتیاگو فرناندز، فاوستینو گومز و اشمیدوبر LSTM را با طبقهبندی زمانی اتصالگرا (CTC) در معماریهای LSTM انباشته یکپارچه کردند. متعاقباً، در سال 2009، LSTM با تبدیل شدن به شبکه عصبی مکرر افتتاحیه (RNN) برای تضمین پیروزی در رقابت تشخیص الگو، به ویژه برای تشخیص دست خط متصل، به نقطه عطف مهمی دست یافت.
در سال 2006، جف هینتون، روسلان سالاخوتدینوف، اوسیندرو و ته شبکههای باور عمیق (DBN) را برای مدلسازی مولد معرفی کردند. فرآیند آموزش برای DBN ها شامل آموزش متوالی یک ماشین بولتزمن محدود (RBM)، سپس اصلاح پارامترهای آن، و متعاقباً آموزش یک RBM دیگر در بالای دستگاه قبلی است. این رویکرد لایهای را میتوان بهصورت اختیاری از طریق انتشار پسنظارتشده اصلاح کرد. در حالی که DBNها قادر به مدلسازی توزیعهای احتمالی با ابعاد بالا بودند، که نمونه آن توزیعهای تصویری MNIST است، نرخ همگرایی آنها بهطور قابلتوجهی آهسته بود.
تأثیر صنعتی یادگیری عمیق در اوایل دهه 2000 آغاز شد، با شبکههای عصبی کانولوشنال (CNN) که طبق گزارشها بر اساس گزارشها، 20% از ایالات متحده بین 10% از ایالات متحده پردازش میکنند و 20% از ایالات متحده بررسی میکنند. LeCun. استفاده از یادگیری عمیق برای تشخیص گفتار در مقیاس بزرگ در زمینههای صنعتی تقریباً در سال 2010 آغاز شد.
کارگاه آموزشی NIPS در سال 2009 در مورد یادگیری عمیق برای تشخیص گفتار به دلیل محدودیتهای ذاتی مدلهای گفتار مولد عمیق و پتانسیل کاربردی شدن شبکههای عصبی عمیق با مجموعه دادههای پیشرفته و سختافزار انجام شد. در ابتدا، این فرضیه مطرح شد که پیشآموزش شبکههای عصبی عمیق (DNN) با مدلهای شبکه باور عمیق مولد (DBN) چالشهای اولیه مرتبط با شبکههای عصبی را کاهش میدهد. با این وجود، یافتههای بعدی نشان داد که جایگزینی پیشآموزش با دادههای آموزشی قابلتوجه به جای انتشار مستقیم مستقیم، بهویژه هنگام استفاده از DNN با لایههای خروجی گسترده و وابسته به زمینه، نرخ خطای قابلتوجهی پایینتری را به همراه داشت. این نتایج هم از سیستمهای مدرن مدل مخلوط گاوسی (GMM)/ مدل پنهان مارکوف (HMM) و هم از رویکردهای پیچیدهتر مبتنی بر مدل مولد پیشی گرفت. ویژگیهای متمایز خطاهای تشخیص ایجاد شده توسط این دو نوع سیستم، بینشهای فنی ارزشمندی را برای ادغام یادگیری عمیق در سیستمهای رمزگشایی گفتار بسیار کارآمد و در زمان اجرا رایج در برنامههای اصلی تشخیص گفتار ارائه میکند. تجزیه و تحلیل مقایسه ای انجام شده در حدود سال های 2009 تا 2010، متضاد GMM و سایر مدل های گفتار تولیدی با مدل های DNN، سرمایه گذاری های صنعتی اولیه را در یادگیری عمیق برای تشخیص گفتار تحریک کرد. این تجزیه و تحلیل عملکرد قابل مقایسه ای را با نرخ خطای کمتر از 1.5٪ بین DNN های متمایز و مدل های تولیدی نشان داد. در سال 2010، محققان برنامههای یادگیری عمیق را از TIMIT به تشخیص گفتار واژگان بزرگ با ترکیب لایههای خروجی DNN گسترده مشتقشده از حالتهای HMM وابسته به زمینه، که با استفاده از درختهای تصمیم ساخته شدهاند، گسترش دادند.
انقلاب یادگیری عمیق
ظهور انقلاب یادگیری عمیق عمدتاً بر برنامههای بینایی رایانهای متمرکز بود که از شبکههای عصبی کانولوشن (CNN) و واحدهای پردازش گرافیکی (GPU) استفاده میکردند.
در حالی که CNNهای آموزشدیده با انتشار پسپخش برای دههها وجود داشتند، و پیادهسازیهای GPU شبکههای عصبی، از جمله CNNها، پیشرفتهای سریعی در دسترس داشتند. پیاده سازی های CNN مبتنی بر GPU. متعاقباً، با پذیرش گستردهتر یادگیری عمیق، سختافزار تخصصی و بهینهسازیهای الگوریتمی بهطور خاص برای افزایش عملکرد آن توسعه یافتند.
یک عامل محوری در انقلاب یادگیری عمیق، پیشرفت در سختافزار، بهویژه واحدهای پردازش گرافیکی (GPU) بود. تحقیقات اولیه در این زمینه به سال 2004 برمی گردد. در سال 2009، Raina، Madhavan و Andrew Ng نمونه اولیه ای از یادگیری عمیق با شتاب GPU را به نمایش گذاشتند و آموزش یک شبکه باور عمیق 100 میلیون پارامتری را در 30 انویدیا GeForce GTX 280 بار سریعتر به GPU گزارش کردند. سرعت ها.
در سال 2011، یک شبکه عصبی کانولوشنال (CNN) به نام DanNet که توسط دن سیرسان، اولی مایر، جاناتان ماسی، لوکا ماریا گامباردلا، و یورگن اشمیدهابر توسعه داده شد، در یک مسابقه تشخیص الگوی بصری به عملکرد فوق بشری بی سابقه ای دست یافت. این سیستم با ضریب سه برابر از روشهای مرسوم پیشی گرفت و متعاقباً در رقابتهای اضافی پیروز شد. محققان همچنین نشان دادند که استفاده از CNN با حداکثر تجمع در پردازندههای گرافیکی به طور قابلتوجهی عملکرد را بهبود میبخشد.
در سال 2012، اندرو انگ و جف دین یک شبکه عصبی پیشخور (FNN) توسعه دادند که قادر به تشخیص مفاهیم سطح بالا، مانند گربهها، تنها با پردازش ویدیوهای استخراجشده از YouTube است.
در اکتبر 2012، AlexNet که توسط Alex Krizhevsky، Ilya Sutskever و Geoffrey Hinton توسعه داده شد، به پیروزی قابل توجهی در رقابت ImageNet در مقیاس بزرگ دست یافت و از روشهای یادگیری ماشین کم عمق معمولی پیشی گرفت. پیشرفتهای بعدی شامل شبکه VGG-16، ایجاد شده توسط Karen Simonyan و Andrew Zisserman، و Inceptionv3 Google بود.
موفقیت مشاهدهشده در طبقهبندی تصاویر متعاقباً به تلاش پیچیدهتر برای تولید زیرنویسهای توصیفی برای تصاویر، که اغلب از معماری ترکیبی شبکهای Lolutioners (شبکهای NNort) و ConvolutionCorng (معماری شبکهای ترکیبی) و ConvolutionCorts. شبکههای حافظه (LSTM).
تا سال 2014، پیشرفتهترین پیشرفتهترین شبکههای عصبی شامل آموزش «شبکههای عصبی بسیار عمیق» از 20 تا 30 لایه بود. با این حال، انباشتن تعداد بیش از حد لایهها منجر به کاهش قابل توجهی در دقت تمرین شد، پدیدهای که مشکل «تخریب» نامیده میشود. در سال 2015، دو تکنیک متمایز برای تسهیل آموزش چنین شبکههای عمیقی معرفی شد: شبکه بزرگراه، که در می 2015 منتشر شد، و شبکه عصبی باقیمانده (ResNet)، که در دسامبر 2015 منتشر شد. ResNet به طور مشابه یک شبکه بزرگراهی با دروازه باز عمل میکند.
همزمان، یادگیری عمیق شروع به تأثیرگذاری بر دامنه کرد. نمونههای پیشگام شامل Google DeepDream (2015) و انتقال سبک عصبی (2015) بود که هر دو از شبکههای عصبی طبقهبندی تصویر از قبل آموزشدیدهشده مانند VGG-19 استفاده کردند.
شبکه متخاصم مولد (GAN)، معرفیشده توسط ایان گودفلو و همکاران. در سال 2014 و از نظر مفهومی ریشه در اصل کنجکاوی مصنوعی یورگن اشمیدهابر داشت، به عنوان یک روش پیشرو در مدلسازی تولیدی بین سالهای 2014 و 2018 ظاهر شد. در مقیاس کوچک تا بزرگ به شکل هرمی شکل. پذیرش گسترده تولید تصویر مبتنی بر GAN نیز بحث هایی را در مورد دیپ فیک ها برانگیخت. از آن زمان، مدلهای انتشار (2015) در مدلسازی مولد از GANها پیشی گرفتند، که نمونه آن سیستمهایی مانند DALL·E 2 (2022) و Stable Diffusion (2022) است.
در سال 2015، قابلیتهای تشخیص گفتار Google از طریق مدل TM4-9% بهبود قابل توجهی را نشان داد. متعاقباً در جستجوی صوتی Google برای کاربران گوشیهای هوشمند ادغام شد.
یادگیری عمیق جزء اصلی سیستمهای پیشرفته در رشتههای مختلف، به ویژه بینایی رایانه و تشخیص خودکار گفتار (ASR) را تشکیل میدهد. معیارهای عملکرد در مجموعه دادههای ارزیابی پرکاربرد، از جمله TIMIT (برای ASR) و MNIST (برای طبقهبندی تصویر)، در کنار طیف وسیعی از وظایف تشخیص گفتار با واژگان بزرگ، به طور مداوم پیشرفت کردهاند. در حالی که شبکههای عصبی کانولوشن (CNN) توسط LSTMها برای ASR جایگزین شدهاند، اما عملکرد برتر را در برنامههای بینایی کامپیوتری حفظ میکنند.
یوشوا بنجیو، جفری هینتون و یان لکون با جایزه تورینگ ۲۰۱۸ به دلیل «پیشرفتهای مفهومی و مهندسی شبکهای که به یک مؤلفهی عمیق محاسباتی تبدیل شدهاند» شناخته شدند.
شبکه های عصبی
شبکه های عصبی مصنوعی (ANNs)، همچنین به عنوان سیستم های پیوندگرا شناخته می شوند، پارادایم های محاسباتی هستند که از شبکه های عصبی بیولوژیکی موجود در مغز حیوانات الهام گرفته شده اند. این سیستمها با تجزیه و تحلیل مثالها، معمولاً بدون برنامهنویسی صریح و خاص، در وظایف مهارت پیدا میکنند. به عنوان مثال، در تشخیص تصویر، یک ANN ممکن است یاد بگیرد که تصاویر حاوی گربه ها را با پردازش تصاویر نمونه به صورت دستی با برچسب "گربه" یا "بدون گربه" شناسایی کند و متعاقباً از این بینش های تحلیلی برای دسته بندی تصاویر دیگر استفاده کند. آنها به ویژه در برنامههایی که بیان آنها با استفاده از الگوریتمهای رایانهای مبتنی بر قانون سنتی چالش برانگیز است، مؤثر هستند.
یک شبکه عصبی مصنوعی (ANN) شامل مجموعه ای از واحدهای به هم پیوسته به نام نورون های مصنوعی است که مشابه نورون های بیولوژیکی در مغز هستند. هر اتصال یا سیناپس بین نورون ها انتقال سیگنال به نورون دیگر را تسهیل می کند. نورون دریافت کننده یا پس سیناپسی این سیگنال ها را قبل از انتقال به نورون های پایین دست بعدی پردازش می کند. نورونها ممکن است حالتی داشته باشند که معمولاً با اعداد واقعی نشان داده میشود و معمولاً از 0 تا 1 متغیر است. هم نورونها و هم سیناپسها میتوانند وزنی داشته باشند که به صورت دینامیکی در طول فرآیند یادگیری تنظیم میشود و در نتیجه شدت سیگنال منتشر شده در پایین دست را تعدیل میکند.
معمولاً، نورونها در لایههای مجزایی ساختار مییابند. لایه های مختلف می توانند انواع مختلفی از تبدیل ها را در ورودی های مربوطه خود اجرا کنند. سیگنال ها به صورت متوالی از لایه اولیه (ورودی) به لایه نهایی (خروجی) انتشار می یابند و به طور بالقوه چندین بار از لایه های میانی عبور می کنند.
هدف اولیه توسعه شبکه عصبی شبیه سازی مکانیسم های حل مسئله مغز انسان بود. متعاقباً، تمرکز به سمت تکرار کارکردهای شناختی خاص، که منجر به انحراف از مدلهای بیولوژیکی شد، نمونهای از انتشار پسانداز شد - فرآیندی که شامل انتقال معکوس اطلاعات برای اصلاح پارامترهای شبکه میشود.
شبکههای عصبی در طیف متنوعی از برنامههای کاربردی، فیلتر اجتماعی، پردازش مجدد گفتار، محتوای کامپیوتری، پردازش مجدد گفتار، محتوای بازنگری، ترجمه ماشینی به کار گرفته شدهاند. بازیهای استراتژیک روی تخته و ویدیو، و روشهای تشخیص پزشکی.
تا سال ۲۰۱۷، شبکههای عصبی معمولی شامل هزاران تا میلیونها واحد و میلیونها اتصال متقابل بودند. اگرچه این مقیاس از تعداد نورونها در مغز انسان مرتبهای کوچکتر است، اما این شبکهها عملکرد فوقالعاده انسانی را در کارهای متعددی مانند تشخیص چهره و انجام بازی Go نشان میدهند.
شبکه های عصبی عمیق
یک شبکه عصبی عمیق (DNN) به عنوان یک شبکه عصبی مصنوعی تعریف میشود که با وجود لایههای پنهان متعدد که بین لایههای ورودی و خروجی آن قرار دارند مشخص میشود. در حالی که معماری شبکه های عصبی مختلف وجود دارد، آنها به طور مداوم اجزای اساسی را شامل می شوند: نورون ها، سیناپس ها، وزن ها، سوگیری ها و توابع فعال سازی. در مجموع، این عناصر بهگونهای عمل میکنند که عملکردهای مغز انسان را شبیهسازی میکند و متمایل به روشهای آموزشی مشابه روشهایی هستند که در سایر الگوریتمهای یادگیری ماشینی اعمال میشود.
برای مثال، یک DNN آموزشدیده برای شناسایی نژاد سگ، تصویر ورودی را پردازش میکند تا احتمال تعلق سگ به یک نژاد خاص را محاسبه کند. سپس کاربران می توانند این نتایج را بررسی کرده و نمایش احتمالات را، معمولاً با تنظیم حداقل آستانه، برای به دست آوردن برچسب نژاد پیشنهادی، پیکربندی کنند. هر یک از این تبدیلهای ریاضی یک لایه را تشکیل میدهند، و DNNهای پیچیده لایههای متعددی را در خود جای میدهند، در نتیجه نامگذاری شبکههای عمیق را توجیه میکنند.
DNNها قادر به مدلسازی روابط غیرخطی پیچیده هستند. معماری آنها ایجاد مدل های ترکیبی را تسهیل می کند، که در آن اشیاء از طریق آرایش سلسله مراتبی عناصر اساسی نشان داده می شوند. گنجاندن لایههای اضافی، ترکیب ویژگیهای به دست آمده از لایههای قبلی را امکانپذیر میسازد، و به طور بالقوه مدلسازی دادههای پیچیده با تعداد واحدهای کاهشیافته را در مقایسه با شبکهای کمعمق که عملکرد مشابهی را نشان میدهند، ممکن میسازد. برای مثال، شواهد تجربی نشان دادهاند که چندجملهایهای چند متغیره پراکنده بهطور تصاعدی در برابر تقریب با استفاده از DNN نسبت به پیکربندیهای شبکهی کمعمق متمایل هستند.
معماریهای عمیق تغییرات متعددی را در بر میگیرند که از مجموعه محدودی از روشهای بنیادی ناشی میشوند. هر معماری متمایز موفقیت قابل توجهی در حوزه های کاربردی خاص به دست آورده است. مقایسه عملکرد مستقیم بین چندین معماری اغلب چالش برانگیز است، مگر اینکه ارزیابی آنها با استفاده از مجموعه داده های یکسان انجام شده باشد.
DNNها عمدتاً شبکههای فید فوروارد هستند که با جریان داده یک طرفه از لایه ورودی به لایه خروجی، بدون هیچ گونه حلقه بازخورد مشخص میشوند. در ابتدا، یک DNN یک نقشه مفهومی از نورونهای مجازی میسازد و مقادیر عددی دلخواه را که "وزن" نامیده میشوند، به اتصالات آنها اختصاص میدهد. سپس این وزنها در ورودیها ضرب میشوند و یک مقدار خروجی به دست میآیند که معمولاً از 0 تا 1 متغیر است. اگر شبکه نتواند یک الگوی خاص را دقیقاً شناسایی کند، یک الگوریتم وزنها را به طور مکرر تغییر میدهد. این تنظیم تکراری به الگوریتم اجازه میدهد تا تأثیر پارامترهای خاصی را افزایش دهد تا زمانی که تبدیل ریاضی بهینه برای پردازش جامع داده به دست آید.
شبکههای عصبی تکراری، که جریان دادهها را در جهتهای مختلف اجازه میدهند، در برنامههایی مانند مدلسازی زبان استفاده میشوند. معماریهای حافظه کوتاهمدت (LSTM) به طور قابلتوجهی برای این کاربرد خاص مؤثر هستند.
شبکههای عصبی کانولوشن (CNN) به طور گسترده در زمینه بینایی رایانه استفاده میشوند. علاوه بر این، CNN ها در مدل سازی صوتی برای سیستم های تشخیص خودکار گفتار (ASR) کاربرد دارند.
چالش ها
مشابه شبکه های عصبی مصنوعی (ANN)، آموزش ساده DNN ها می تواند منجر به عوارض مختلفی شود. در میان این مسائل، نیازهای محاسباتی بیش از حد و بیش از حد مناسب است.
شبکههای عصبی عمیق (DNN) به دلیل لایههای انتزاعی متعدد، مستعد برازش بیش از حد هستند، که آنها را قادر میسازد وابستگیهای نادر در دادههای آموزشی را مدل کنند. برای کاهش تناسب بیش از حد در طول تمرین، تکنیکهای منظمسازی مانند هرس واحد ایواخننکو، کاهش وزن (-regularization)، یا پراکندگی (
آموزش DNNها نیاز به در نظر گرفتن پارامترهای متعددی از جمله ابعاد معماری (تعداد لایهها و واحدها در هر لایه)، میزان یادگیری اولیه، و سرعت یادگیری دارد. کاوش جامع این فضای پارامتر برای شناسایی پیکربندیهای بهینه اغلب به دلیل صرف زمان و منابع محاسباتی قابل توجه غیرعملی است. با این حال، کاراییهای محاسباتی مختلف، مانند دستهبندی (که در آن گرادیانها در چندین نمونه آموزشی بهجای جداگانه محاسبه میشوند) روند را تسریع میکنند. قابلیتهای پردازشی قابل توجه معماریهای چند هستهای، از جمله واحدهای پردازش گرافیکی (GPU) و Intel Xeon Phi، سرعت قابلتوجهی را در آموزش به همراه داشته است، در درجه اول به دلیل مناسب بودن ذاتی آنها برای محاسبات ماتریسی و برداری.
به عنوان یک جایگزین، مهندسان ممکن است به دنبال معماریهای شبکه عصبی باشند که با الگوریتمهای آموزشی سادهتر و همگراتر مشخص میشوند. کنترلر بیان مدل مخچه (CMAC) نمونه ای از چنین شبکه عصبی است، زیرا نیازی به نرخ یادگیری یا وزن های اولیه تصادفی ندارد. فرآیند آموزشی آن همگرایی را در یک مرحله با هر دسته جدید داده تضمین میکند و پیچیدگی محاسباتی الگوریتم آموزشی آن به صورت خطی با تعداد نورونهای درگیر مقیاس میشود.
سخت افزار
از دهه 2010، پیشرفتهای همزمان در الگوریتمهای یادگیری ماشین و سختافزار رایانه، روشهای کارآمدتری را برای آموزش شبکههای عصبی عمیق، که اغلب لایههای متعددی از واحدهای پنهان غیرخطی و لایههای خروجی گسترده را در خود جای میدهند، تسهیل کرده است. تا سال 2019، واحدهای پردازش گرافیکی (GPU) که اغلب با ویژگیهای مخصوص هوش مصنوعی تقویت میشدند، جایگزین واحدهای پردازش مرکزی (CPU) به عنوان سختافزار غالب برای آموزش سیستمهای هوش مصنوعی ابری تجاری در مقیاس بزرگ شدند. OpenAI تخمین زد که سختافزار محاسباتی مورد استفاده در پروژههای اصلی یادگیری عمیق، از AlexNet (2012) تا AlphaZero (2017)، افزایشی 300000 برابری در محاسبات مورد نیاز را تجربه کرده است، و روند دو برابری زمان 3.4 ماه را نشان میدهد. الگوریتم ها نمونههایی از این پردازندهها شامل واحدهای پردازش عصبی (NPU) موجود در تلفنهای همراه هوآوی و سرورهای محاسبات ابری، مانند واحدهای پردازش تنسور (TPU) در پلتفرم Google Cloud است. Cerebras Systems همچنین یک سیستم اختصاصی برای مدیریت مدلهای یادگیری عمیق بزرگ ایجاد کرده است، CS-2، که مبتنی بر بزرگترین پردازنده صنعت، نسل دوم موتور مقیاس ویفر (WSE-2) است.
نیمههادیهای نازک اتمی ماده امیدوارکنندهای برای سختافزار یادگیری عمیق با انرژی کارآمد در نظر گرفته میشوند، جایی که ساختار عملکرد دستگاه منطقی هم دادهها و هم دادههای عملکرد اصلی دستگاه را خدمت میکند. در سال 2020، Marega و همکاران. یافتههای تجربی را بر روی یک ماده کانال فعال با منطقه بزرگ برای توسعه دستگاهها و مدارهای منطقی در حافظه منتشر کرد که بر اساس ترانزیستورهای اثر میدانی دروازه شناور (FGFET) هستند.
در سال 2021، J. Feldmann و همکاران. یک شتاب دهنده سخت افزاری فوتونیک یکپارچه را معرفی کرد که برای پردازش کانولوشنی موازی طراحی شده است. محققان دو مزیت اصلی فوتونیک یکپارچه را در مقایسه با سیستمهای الکترونیکی برجسته کردند: اول، ظرفیت آن برای انتقال دادههای موازی گسترده از طریق تقسیم طول موج چندگانه همراه با شانههای فرکانس. و دوم، سرعت بسیار بالای مدولاسیون داده آن. این سیستم توانایی انجام تریلیونها عملیات انباشتگی چندگانه در ثانیه را نشان میدهد، که بر پتانسیل قابل توجه فوتونیک یکپارچه در برنامههای کاربردی هوش مصنوعی فشرده محاسباتی تأکید میکند.
برنامه ها
تشخیص خودکار گفتار
تشخیص گفتار خودکار در مقیاس بزرگ، اولین و قانعکنندهترین داستان موفقیت اجرای یادگیری عمیق را نشان میدهد. شبکههای عصبی تکراری حافظه کوتاهمدت (LSTM) قادر به تسلط بر وظایف «یادگیری بسیار عمیق» هستند، که شامل فواصل چند ثانیهای حاوی رویدادهای گفتاری است که با هزاران مرحله زمانی گسسته مشخص شدهاند و هر مرحله تقریباً 10 میلیثانیه است. علاوه بر این، معماریهای LSTM که دروازههای فراموشی را در خود جای دادهاند، عملکرد رقابتی را در برابر سیستمهای تشخیص گفتار معمولی در کاربردهای خاص نشان میدهند.
دستاوردهای اولیه در تشخیص گفتار عمدتاً از وظایف تشخیص در مقیاس کوچک با استفاده از مجموعه داده TIMIT مشتق شدهاند. این مجموعه داده شامل 630 گوینده است که نشان دهنده هشت گویش اصلی انگلیسی آمریکایی هستند و هر گوینده ده جمله را بیان می کند. مقیاس فشرده آن ارزیابی پیکربندی مدل های متعدد را تسهیل می کند. مهمتر از همه، کار TIMIT بر تشخیص توالی تلفن متمرکز است، که بر خلاف تشخیص توالی کلمه، استفاده از مدلهای زبان بیگرام تلفنی کمتر قویتر را مجاز میسازد. این مشخصه تجزیه و تحلیل ساده تری از کارایی مدل سازی آکوستیک در سیستم های تشخیص گفتار را امکان پذیر می کند. نرخهای خطای گزارششده، شامل این یافتههای اولیه و بهعنوان درصد درصد خطای تلفن (PER)، از سال 1991 بهطور سیستماتیک جمعآوری شدهاند.
معرفی شبکههای عصبی عمیق (DNN) برای تشخیص بلندگو در اواخر دهه 1990، به دنبال آن کاربرد آنها در تشخیص گفتار بین سالهای 2009 تا 2011، و ظهور معماریهای LSTM در حدود سالهای 2003 تا 2007، پیشرفتهای کلیدی را در سراسر جهان بهوجود آورد:
- مقیاسپذیری پیشرفته و فرآیندهای آموزش و رمزگشایی سریع برای DNNها.
- روش های آموزشی تبعیض آمیز را ترتیب دهید.
- پردازش ویژگی با استفاده از مدلهای عمیق، مبتنی بر درک قوی از مکانیسمهای ذاتی آنها.
- تکنیکهای انطباق برای DNN و مدلهای یادگیری عمیق مشابه.
- پارادایمهای یادگیری چند وظیفهای و انتقالی که از طریق DNN و معماریهای عمیق مرتبط پیادهسازی شدهاند.
- شبکههای عصبی کانولوشنال (CNN) و طراحی بهینه آنها برای استفاده از دانش خاص دامنه در پردازش گفتار.
- شبکه های عصبی بازگشتی (RNN) و انواع مختلف LSTM آنها.
- دستههای اضافی مدلهای عمیق، مانند مدلهای مبتنی بر تانسور و معماریهای مولد/تبعیض عمیق یکپارچه.
مدلهای تشخیص گفتار معاصر اغلب از ترانسفورماتورها یا شبکههای پیچیدگی زمانی استفاده میکنند که به موفقیت قابل توجهی و پذیرش گسترده دست مییابند. تقریباً همه پلتفرمهای برجسته تشخیص گفتار تجاری، از جمله مایکروسافت کورتانا، ایکسباکس، مترجم اسکایپ، آمازون الکسا، گوگل ناو، جستجوی صوتی اپل سیری، بایدو و iFlyTek و محصولات مختلف گفتار Nuance، اساساً بر اساس روشهای یادگیری عمیق ساخته شدهاند.
تشخیص تصویر
پایگاه داده MNIST به عنوان یک معیار به طور گسترده برای کارهای طبقه بندی تصاویر استفاده می شود. MNIST شامل ارقام دستنویس، شامل 60000 نمونه آموزشی و 10000 نمونه تست است. مشابه TIMIT، مقیاس متوسط آن ارزیابی پیکربندیهای مدل متعدد را تسهیل میکند.
تشخیص تصویر مبتنی بر یادگیری عمیق به قابلیتهای «فوق بشری» دست یافته است که به طور مداوم نتایج دقیقتری را نسبت به شرکتکنندگان انسانی ارائه میدهد. این نقطه عطف در ابتدا در سال 2011 برای تشخیص علائم راهنمایی و رانندگی و متعاقباً در سال 2014 برای تشخیص چهره انسان به دست آمد.
وسایل نقلیه مجهز به سیستم های یادگیری عمیق اکنون قادر به تفسیر زاویه دید دوربین 360 درجه هستند. یکی دیگر از کاربردهای گویا، آنالیز رمان بدشکلی صورت (FDNA) است که برای تجزیه و تحلیل موارد ناهنجاری انسانی از طریق مرتبط کردن آنها با پایگاه داده گسترده ای از سندرم های ژنتیکی استفاده می شود.
پردازش هنرهای بصری
بر اساس پیشرفتهای موجود در تشخیص تصویر، تکنیکهای یادگیری عمیق به طور فزایندهای برای کارهای هنری مختلف بصری به کار میروند. به عنوان مثال، شبکه های عصبی عمیق (DNN) در موارد زیر مهارت نشان داده اند:
- شناسایی دوره سبکی یک نقاشی خاص.
- اجرای انتقال سبک عصبی، که شامل استخراج سبک زیباییشناختی از یک اثر هنری خاص و اعمال زیباییشناختی آن به یک عکس یا ویدیو دلخواه است.
- ایجاد تصاویر متقاعد کننده برگرفته از فیلدهای ورودی بصری تصادفی.
پردازش زبان طبیعی
شبکه های عصبی از اوایل دهه 2000 در پیاده سازی مدل های زبانی استفاده شده اند. معماریهای حافظه کوتاهمدت بلند مدت (LSTM) بهویژه به پیشرفتهای قابل توجهی در ترجمه ماشینی و مدلسازی زبان کمک کردهاند.
تکنیک های اساسی اضافی در این حوزه شامل نمونه گیری منفی و جاسازی کلمه است. جاسازی کلمه، که نمونه آن word2vec است، به عنوان یک لایه بازنمایی در معماری یادگیری عمیق عمل می کند و کلمات گسسته را بر اساس روابط آنها در مجموعه داده به یک نمایش متنی تبدیل می کند. این اطلاعات موقعیتی به عنوان مختصات فضای برداری کدگذاری می شود. استفاده از جاسازی کلمه به عنوان یک لایه ورودی برای شبکههای عصبی مکرر (RNN) شبکه را قادر میسازد تا به طور موثر جملات و عبارات را از طریق گرامر برداری ترکیبی تجزیه کند. گرامر برداری ترکیبی مشابه گرامر احتمالی بدون زمینه (PCFG) است که توسط یک RNN تحقق یافته است. رمزگذارهای خودکار بازگشتی که از جاسازیهای کلمه استفاده میکنند، میتوانند شباهت جمله را ارزیابی کرده و جملات را شناسایی کنند. معماریهای عصبی عمیق عملکرد برتر در تجزیه حوزه، تجزیه و تحلیل احساسات، بازیابی اطلاعات، درک زبان گفتاری، ترجمه ماشینی، پیوند موجودیت متنی، تشخیص سبک نوشتاری، تشخیص نهاد نامگذاری شده (طبقهبندی نشانه)، طبقهبندی متن، از جمله کاربردهای دیگر را نشان میدهند.
پیشرفتهای معاصر مفهوم جملات واژهی کامبز را گسترش داده است. بازنمایی ها.
Google Translate (GT) از یک شبکه قابل توجه حافظه کوتاه مدت (LSTM) سرتاسری استفاده می کند. ترجمه ماشین عصبی گوگل (GNMT) از روش ترجمه ماشینی مبتنی بر مثال استفاده می کند، که در آن سیستم دانش را از مجموعه داده های گسترده ای که میلیون ها مثال را شامل می شود، به دست می آورد. این رویکرد ترجمه جملات کامل را به جای بخش های تکه تکه شده تسهیل می کند. Google Translate از بیش از صد زبان پشتیبانی می کند. شبکه زیربنایی معنای معنایی جملات را رمزگذاری می کند و فراتر از به خاطر سپردن صرف مطابقت های عبارت به عبارت است. انگلیسی به عنوان یک زبان واسطه برای اکثر جفت های ترجمه در این سیستم عمل می کند.
کشف و سم شناسی داروسازی
بخش قابلتوجهی از ترکیبات دارویی تحقیقاتی تأییدیه نظارتی را دریافت نمیکنند. چنین شکستهایی معمولاً از اثربخشی ناکافی (اثرات روی هدف)، تعاملات نامطلوب (اثرات خارج از هدف)، یا پیامدهای سمشناسی پیشبینی نشده ناشی میشوند. روشهای یادگیری عمیق به دلیل پتانسیل آنها برای پیشبینی اهداف بیومولکولی، برهمکنشهای خارج از هدف، و پروفایلهای سمشناسی مواد شیمیایی محیطی موجود در مواد مغذی، محصولات خانگی و عوامل دارویی مورد بررسی قرار گرفتهاند.
AtomNet یک سیستم یادگیری عمیق را نشان میدهد که به طور خاص برای طراحی دارویی منطقی مبتنی بر ساختار طراحی شده است. برای شناسایی مولکولهای زیستی نامزد جدید که بیماریهایی مانند ویروس ابولا و مولتیپل اسکلروزیس را هدف قرار میدهند، استفاده شده است.
در سال 2017، شبکههای عصبی نموداری در ابتدا برای پیشبینی ویژگیهای مولکولی متنوع در مجموعه دادههای سمشناسی گسترده استفاده شدند. تا سال 2019، شبکههای عصبی مولد ایجاد مولکولهایی را تسهیل کردند که متعاقباً از طریق مطالعات تجربی، از جمله ارزیابیهای in vivo در موش، تأیید شدند.
سیستم های توصیه کننده
یادگیری عمیق در سیستمهای توصیهگر برای استخراج ویژگیهای برجسته برای مدلهای عامل پنهان، بهویژه برای موسیقی مبتنی بر محتوا و توصیههای مجلات، استفاده شده است. علاوه بر این، یادگیری عمیق چند نمایه برای تعیین اولویت های کاربر در دامنه های مختلف به کار گرفته شده است. این مدل یک روش ترکیبی مشارکتی و مبتنی بر محتوا را ادغام میکند و در نتیجه کارایی توصیهها را در کارهای مختلف بهبود میبخشد.
بیوانفورماتیک
در بیوانفورماتیک، یک شبکه عصبی مصنوعی رمزگذار خودکار (ANN) برای پیشبینی حاشیهنویسی هستیشناسی ژن و روشن کردن روابط ژن-عملکرد استفاده شده است.
در زمینه انفورماتیک پزشکی، یادگیری عمیق برای پیشبینی کیفیت خواب با استفاده از دادههای بهدستآمده از دادههای
تخمینات شبکه عصبی عمیق
شبکه های عصبی عمیق را می توان برای تخمین آنتروپی یک فرآیند تصادفی از طریق روشی به نام برآوردگر آنتروپی مشترک عصبی (NJEE) استفاده کرد. چنین تخمینی بینش هایی را در مورد تأثیر متغیرهای تصادفی ورودی بر روی یک متغیر تصادفی مستقل ارائه می دهد. در عمل، DNN بهعنوان یک طبقهبندیکننده عمل میکند و یک بردار ورودی یا ماتریس X را به یک توزیع احتمال خروجی برای کلاسهای بالقوه متغیر تصادفی Y، مشروط به ورودی X، نگاشت میکند. برای مثال، در وظایف طبقهبندی تصویر، NJEE بردارهای مقدار رنگ پیکسل را به احتمالات مربوط به دستههای تصویر مختلف ترجمه میکند. توزیع احتمال Y معمولاً از یک لایه Softmax مشتق میشود، جایی که تعداد گرهها با اندازه الفبای Y مطابقت دارد. نشان داده شده است که این روش یک برآوردگر کاملاً سازگار به دست میدهد که از عملکرد رویکردهای جایگزین پیشی میگیرد، بهویژه هنگامی که با اندازههای الفبای گسترده سروکار داریم.
تجزیه و تحلیل تصویر پزشکی
یادگیری عمیق عملکرد رقابتی را در کاربردهای پزشکی نشان داده است، از جمله طبقهبندی سلولهای سرطانی، تشخیص ضایعه، تقسیمبندی اندام، و بهبود تصویر. روشهای یادگیری عمیق معاصر دقت بالایی در تشخیص بیماری نشان میدهند و در نتیجه به متخصصان در افزایش کارایی تشخیصی کمک میکنند.
تبلیغات تلفن همراه
تعیین مخاطبان تلفن همراه بهینه برای تبلیغات چالشی دائمی است که نیاز به تجزیه و تحلیل جامع نقاط داده متعدد قبل از ایجاد و استقرار بخش هدف توسط یک سرور تبلیغاتی دارد. تکنیک های یادگیری عمیق برای تفسیر مجموعه داده های تبلیغاتی گسترده و با ابعاد بالا به کار گرفته شده است. داده های قابل توجهی در طول چرخه تبلیغات اینترنتی، شامل رویدادهای درخواست، سرویس و کلیک انباشته می شود. چنین اطلاعاتی متعاقباً میتواند به عنوان پایهای برای مدلهای یادگیری ماشینی با هدف بهینهسازی انتخاب آگهی باشد.
بازیابی تصویر
یادگیری عمیق به طور موثر در رسیدگی به مشکلات معکوس، از جمله حذف نویز، وضوح فوق العاده، رنگ آمیزی درونی و رنگ آمیزی فیلم استفاده شده است. نمونههای قابلتوجهی از این برنامهها شامل روشهای یادگیری مانند "فیلدهای انقباض برای بازیابی موثر تصویر" است که بر روی یک مجموعه داده تصویری جامع آموزش داده شده است، و Deep Image Prior که مستقیماً روی تصویری که نیاز به بازیابی دارد آموزش داده شده است.
تشخیص کلاهبرداری مالی
یادگیری عمیق در تشخیص تقلب های مالی، فرار مالیاتی و تلاش های مبارزه با پولشویی کاربرد پیدا می کند.
علوم مواد
در نوامبر 2023، محققان در Google DeepMind و آزمایشگاه ملی لارنس برکلی از یک سیستم هوش مصنوعی به نام GNoME رونمایی کردند. این سیستم با کشف بیش از 2 میلیون ماده جدید در یک دوره نسبتاً کوتاه، علم مواد را به طور قابل توجهی پیشرفت کرده است. GNoME از روشهای یادگیری عمیق برای بررسی کارآمد ساختارهای مواد آینده استفاده میکند که منجر به پیشرفت قابل توجهی در شناسایی ساختارهای بلوری معدنی پایدار میشود. پیشبینیهای این سیستم با آزمایش رباتیک مستقل تأیید شد و میزان موفقیت قابل توجهی از 71٪ را نشان داد. داده های مربوط به این مواد تازه شناسایی شده از طریق پایگاه داده پروژه مواد به صورت عمومی در دسترس است، و محققان را قادر می سازد تا موادی را که دارای ویژگی های خاص برای کاربردهای متنوع هستند، مشخص کنند. این پیشرفت پیامدهای عمیقی برای مسیر اکتشافات علمی و ادغام هوش مصنوعی در تحقیقات علم مواد دارد که به طور بالقوه نوآوری مواد را تسریع میکند و هزینههای توسعه محصول را کاهش میدهد. استقرار هوش مصنوعی و یادگیری عمیق، پتانسیل را برای به حداقل رساندن یا حذف آزمایشهای آزمایشگاهی دستی نشان میدهد، در نتیجه دانشمندان را قادر میسازد تا به طور گستردهتری روی طراحی و تجزیه و تحلیل ترکیبات متمایز تمرکز کنند.
نظامی
وزارت دفاع ایالات متحده از یادگیری عمیق برای آموزش روباتها برای انجام وظایف جدید از طریق یادگیری مشاهدهای استفاده کرد.
معادلات دیفرانسیل جزئی
شبکه های عصبی مبتنی بر فیزیک برای پرداختن به معادلات دیفرانسیل جزئی در مسائل رو به جلو و معکوس از طریق یک رویکرد داده محور استفاده شده اند. یک کاربرد قابل توجه شامل بازسازی جریان سیال است که توسط معادلات ناویر-استوکس اداره می شود. استفاده از شبکههای عصبی با اطلاعات فیزیک، نیاز به تولید مش اغلب پرهزینه را که در روشهای دینامیک سیالات محاسباتی مرسوم (CFD) ذاتی است، برطرف میکند. بدیهی است که ادغام محدودیتهای هندسی و فیزیکی تأثیر هم افزایی بر جایگزینهای PDE عصبی اعمال میکند و در نتیجه کارآیی پیشبینی آنها را برای شبیهسازیهای پایدار و گسترده افزایش میدهد.
روش معادله دیفرانسیل تصادفی به عقب عمیق
روش معادله دیفرانسیل تصادفی عقب مانده عمیق (BSDE) یک رویکرد عددی را نشان می دهد که یادگیری عمیق را با BSDE ها ادغام می کند. این روش به ویژه برای پرداختن به چالشهای بعدی رایج در ریاضیات مالی مؤثر است. با استفاده از ظرفیتهای تقریب تابع قوی شبکههای عصبی عمیق، BSDE عمیق به طور موثر مشکلات محاسباتی با تکنیکهای عددی مرسوم در زمینههای چند بعدی را کاهش میدهد. به طور خاص، روشهای تثبیتشده مانند رویکردهای تفاضل محدود یا شبیهسازیهای مونت کارلو اغلب با نفرین ابعاد، که با افزایش نمایی در هزینههای محاسباتی نسبت به تعداد ابعاد مشخص میشود، درگیر هستند. در مقابل، روشهای BSDE عمیق از شبکههای عصبی عمیق برای تقریب راهحلهای معادلات دیفرانسیل جزئی با ابعاد بالا (PDEs) استفاده میکنند و در نتیجه بار محاسباتی را بهطور قابلتوجهی کاهش میدهند.
علاوه بر این، ادغام شبکههای عصبی مبتنی بر علم فیزیک (PINN) با چارچوبهای فیزیکی عمیقی که بهطور مستقیم توسط قانون BSDE آن را به طور قابلتوجهی تقویت میکند، میشود. به معماری شبکه عصبی این ادغام تضمین می کند که راه حل های مشتق شده نه تنها با داده های تجربی همسو می شوند، بلکه به شدت با معادلات دیفرانسیل تصادفی حاکم مطابقت دارند. پینها از نقاط قوت یادگیری عمیق استفاده میکنند و در عین حال به محدودیتهای ذاتی تحمیلشده توسط مدلهای فیزیکی احترام میگذارند، در نتیجه راهحلهای دقیقتر و قابل اعتمادتری برای مسائل ریاضیات مالی ارائه میدهند.
بازسازی تصویر
بازسازی تصویر شامل استخراج تصاویر اصلی از اندازهگیریهای مرتبط است. مطالعات متعدد کارایی برتر روشهای یادگیری عمیق را نسبت به تکنیکهای تحلیلی در کاربردهای مختلف، از جمله تصویربرداری طیفی و تصویربرداری اولتراسوند، نشان دادهاند.
پیش بینی آب و هوا
سیستمهای پیشبینی آب و هوای معمولی به سیستمهای بسیار پیچیده معادلات دیفرانسیل جزئی میپردازند. GraphCast، یک مدل مبتنی بر یادگیری عمیق، بر روی داده های آب و هوای تاریخی گسترده برای پیش بینی تکامل الگوهای آب و هوا آموزش داده شده است. این مدل قادر است تا 10 روز شرایط آب و هوایی جهانی را با جزئیات قابل توجه و در کمتر از یک دقیقه پیش بینی کند و به سطحی از دقت قابل مقایسه با سیستم های پیشرفته دست یابد.
ساعت اپی ژنتیک
یک ساعت اپی ژنتیک یک سنجش بیوشیمیایی است که برای تعیین سن استفاده می شود. گالکین و همکاران از شبکههای عصبی عمیق برای ایجاد یک ساعت پیری اپی ژنتیک با دقت بیسابقه، با استفاده از بیش از 6000 نمونه خون استفاده کرد. این ساعت دادههای 1000 سایت CpG را ادغام میکند و در مقایسه با افراد سالم، سن بیولوژیکی پیشرفته را در افراد مبتلا به شرایط خاص، از جمله بیماری التهابی روده (IBD)، زوال عقل فرونتومپورال، سرطان تخمدان و چاقی پیشبینی میکند. انتشار عمومی این ساعت قدیمی برای سال 2021 توسط Deep Longevity، یک شرکت اسپین آف از Insilico Medicine پیش بینی شده بود.
ارتباط با رشد شناختی و مغز انسان
یادگیری عمیق یک قرابت مفهومی قوی با دستهای از نظریههای رشد مغز، بهویژه آنهایی که مربوط به رشد نئوکورتیکال هستند، نشان میدهد، که در ابتدا توسط دانشمندان علوم اعصاب شناختی در اوایل دهه 1990 مطرح شد. این نظریههای توسعه متعاقباً به عنوان مدلهای محاسباتی تحقق یافتند و در نتیجه به عنوان پیشآهنگی برای سیستمهای یادگیری عمیق معاصر عمل کردند. یک ویژگی مشترک در میان این مدلهای رشدی این تصور است که پویاییهای یادگیری فرضی مختلف در مغز، مانند تأثیر عوامل رشد عصبی، شکلی از خود سازماندهی را تسهیل میکند که تا حدودی مشابه شبکههای عصبی به کار رفته در معماریهای یادگیری عمیق است. مشابه نئوکورتکس، شبکههای عصبی از آرایش سلسله مراتبی فیلترهای لایهای استفاده میکنند، که در آن هر لایه متوالی اطلاعات یک لایه قبلی (یا محیط عملیاتی) را قبل از انتقال خروجی خود و احتمالاً ورودی اصلی را به لایههای بعدی پردازش میکند. این فرآیند تکراری در یک آبشار خودسازماندهی مبدلها به اوج خود میرسد که به طور بهینه با محیطهای عملیاتی مربوطه سازگار شدهاند. شرحی از سال 1995 این را بیان میکند: «به نظر میرسد که مغز نوزاد تحت تأثیر امواج به اصطلاح عوامل تغذیهای خود سازمان مییابد... مناطق مجزای مغز بهطور متوالی ارتباط برقرار میکنند، با یک لایه بافتی قبل از دیگری بالغ میشود و تا زمانی که کل مغز به بلوغ میرسد ادامه مییابد».
روشهای متنوعی برای ارزیابی معقول بودن عصببیولوژیکی مدلهای یادگیری عمیق مورد استفاده قرار گرفتهاند. یک رویکرد شامل پیشنهاد اصلاحات مختلف در الگوریتم پس انتشار برای افزایش واقع گرایی پردازش آن است. برعکس، سایر محققان معتقدند که پارادایمهای یادگیری عمیق بدون نظارت، مانند الگوهای مبتنی بر مدلهای مولد سلسله مراتبی و شبکههای باور عمیق، ممکن است واقعیت بیولوژیکی را با دقت بیشتری منعکس کنند. در این زمینه، مدلهای شبکه عصبی مولد با یافتههای عصبی زیستشناختی مربوط به پردازش مبتنی بر نمونهگیری در قشر مغز همراه شدهاند.
در حالی که یک مقایسه جامع بین ساختار سازمانی مغز انسان و مکانیسمهای رمزگذاری عصبی در شبکههای عمیق هنوز به طور کامل ایجاد نشده است، مشابههای متعددی شناسایی شدهاند. به عنوان مثال، عملیات محاسباتی اجرا شده توسط واحدهای یادگیری عمیق ممکن است موازی با نورون های بیولوژیکی و جمعیت های عصبی باشد. به همین ترتیب، بازنماییهای فرمولبندیشده توسط مدلهای یادگیری عمیق شباهتهایی با آنچه در سیستم بینایی نخستیها مشاهده میشود، هم در سطح تک واحدی و هم در سطح جمعیت نشان میدهند.
فعالیت تجاری
آزمایشگاه تحقیقاتی هوش مصنوعی فیسبوک وظایفی مانند برچسبگذاری خودکار تصاویر آپلود شده با افراد شناسایی شده را بر عهده میگیرد.
تکنولوژیهای DeepMind Google سیستمی را توسعه دادهاند که در یادگیری بازیهای ویدیویی Atari تنها از طریق ورودی دادههای پیکسلی مهارت دارد. در سال 2015، آنها سیستم AlphaGo خود را به نمایش گذاشتند که به سطحی از مهارت در بازی Go دست یافت که برای شکست دادن یک بازیکن حرفه ای کافی بود. علاوه بر این، Google Translate از معماری شبکه عصبی برای تسهیل ترجمه در بیش از 100 زبان استفاده میکند.
در سال 2017، Covariant.ai با تخصص در ادغام فنآوریهای یادگیری عمیق در محیطهای تولید، شروع به فعالیت کرد.
در سال 2008، محققان در دانشگاه تگزاس (Texasvisind machine learning) به عنوان یک چارچوب آموزشی در دانشگاه تگزاس اقدام به یادگیری کردند. Agent Manually Via Evaluative Reinforcement (TAMER)، که روشهای جدیدی را برای روباتها یا برنامههای رایانهای معرفی کرد تا مهارت کار را از طریق تعامل با یک مربی انسانی کسب کنند. با تکیه بر TAMER، الگوریتم بعدی، Deep TAMER، در سال 2018 از طریق تلاش مشترک بین آزمایشگاه تحقیقاتی ارتش ایالات متحده (ARL) و محققان UT معرفی شد. Deep TAMER از یادگیری عمیق استفاده می کند تا ربات ها را قادر می سازد کارهای جدید را از طریق مشاهده یاد بگیرند. با استفاده از Deep TAMER، یک ربات با مشاهده یک مربی انسان، یا از طریق پخش ویدئو یا نمایش های حضوری، وظیفه ای را به دست آورد. ربات متعاقباً عملکرد خود را با مربیگری از مربی، که بازخورد ارزیابیای مانند "کار خوب" و "کار بد" ارائه میدهد، اصلاح کرد.
انتقاد و نظر
یادگیری عمیق هم ارزیابی انتقادی و هم تفسیر را به همراه داشته است، که گهگاه از رشتههایی فراتر از علوم کامپیوتر سرچشمه میگیرد.
مبانی نظری
یک انتقاد اولیه به زیربنای نظری ناکافی برخی از روشهای یادگیری عمیق مربوط میشود. در حالی که یادگیری در معماریهای عمیق رایج معمولاً با استفاده از تکنیکهای تثبیت شده گرادیان نزولی اجرا میشود، چارچوب نظری برای الگوریتمهای دیگر، مانند واگرایی متضاد، کمتر روشن میشود. سؤالات کلیدی در مورد ویژگی های همگرایی، میزان همگرایی و ماهیت تقریب آنها وجود دارد. در نتیجه، روشهای یادگیری عمیق اغلب بهعنوان «جعبههای سیاه» تلقی میشوند، با اعتبارسنجی که عمدتاً بر مشاهدات تجربی تکیه میکند تا استنتاج نظری دقیق.
از این ایده حمایت میکند که حساسیت هنری ممکن است در لایههای پایینتری از سلسلهمراتب شناختی وجود داشته باشد، مجموعهای از سلسلهمراتب داخلی منتشر شده از وضعیتهای عمیق را نشان میدهد. شبکه های عصبی (20-30 لایه)، از آنجایی که تلاش می کنند تصاویر آموزش دیده را در داده های عمدتا تصادفی شناسایی کنند، جذابیت بصری قابل توجهی از خود نشان دادند. اعلامیه تحقیقات اولیه بیش از 1000 نظر جمع آوری کرد و برای مدتی به پربازدیدترین مقاله در وب سایت The Guardian تبدیل شد.
یک مطالعه، مبتنی بر نظریه انتشار نوآوری (IDT)، انتشار یادگیری عمیق را در کشورهای BRICS و OECD با استفاده از داده های Google Trend بررسی کرد.
خطاها
معماریهای یادگیری عمیق رفتارهایی را نشان میدهند، از جمله طبقهبندی مطمئن تصاویر غیرقابل تشخیص به دستههای آشنا (مشاهدهشده در سال 2014) و طبقهبندی نادرست تصاویر تغییریافته، اما قبلاً به درستی شناسایی شدهاند (در سال 2013 ذکر شد). گورتزل اظهار داشت که این مسائل ناشی از محدودیتهای ذاتی در ساختارهای بازنمایی داخلی آنها است که میتواند مانع از ادغام یکپارچه آنها در چارچوبهای متنوع و چند جزئی هوش عمومی مصنوعی (AGI) شود. یک راه حل بالقوه برای این چالش ها شامل توسعه معماری های یادگیری عمیق است که قادر به ایجاد حالت های داخلی مشابه تجزیه تصویر-گرامر پدیده های مشاهده شده است. به دست آوردن یک دستور زبان، خواه بصری یا زبانی، از داده های آموزشی، به طور موثر سیستم را به استفاده از استدلال عقل سلیم محدود می کند، که بر روی مفاهیم تعریف شده توسط قواعد تولید دستوری عمل می کند - یک هدف اساسی هم در اکتساب زبان انسانی و هم در هوش مصنوعی (AI).
آسیب پذیری های امنیت سایبری
با انتقال یادگیری عمیق از محیطهای تحقیقاتی به برنامههای کاربردی دنیای واقعی، شواهد تجربی و تحقیقات علمی حساسیت شبکههای عصبی مصنوعی (ANN) را به بهرهبرداری مخرب و تاکتیکهای فریبنده نشان میدهد. مهاجمان میتوانند از درک الگوهای عملیاتی در این سیستمها برای دستکاری ورودیهای شبکههای عصبی مصنوعی استفاده کنند، در نتیجه شبکه را وادار میکنند تا مطابقتهایی را که برای ناظران انسانی غیرقابل تشخیص است شناسایی کند. به عنوان مثال، یک دشمن ممکن است تغییرات نامحسوسی را در یک تصویر ایجاد کند و باعث شود ANN آن را به عنوان یک هدف طبقه بندی کند، علیرغم تفاوت بصری آن با ادراک انسانی. این شکل از دستکاری به طور رسمی به عنوان "حمله خصمانه" نامگذاری شده است.
در سال 2016، محققان از یک شبکه عصبی مصنوعی برای دستکاری تکراری تصاویر استفاده کردند و نقاط کانونی شبکه دیگری را برای تولید داده های بصری فریبنده مشخص کردند. این تصاویر تغییر یافته برای ناظران انسانی از تصاویر اصلی خود قابل تشخیص نبودند. همزمان، یک تیم تحقیقاتی جداگانه نشان داد که پرینتهای فیزیکی تصاویر دستکاری شده، که متعاقباً عکسبرداری شدهاند، میتوانند با موفقیت سیستم طبقهبندی تصویر را گمراه کنند. یک استراتژی دفاعی شامل به کارگیری جستجوی عکس معکوس است، جایی که یک تصویر بالقوه ساخته شده در پلتفرم هایی مانند TinEye آپلود می شود تا سایر رخدادهای تصویر را تعیین کند. یک رویکرد پیچیدهتر مستلزم جستجوی بخشهای خاصی از یک تصویر برای تعیین منشأ بالقوه یا مؤلفههای منبع آن است.
علاوه بر این، مطالعه دیگری نشان داد که انواع خاصی از عینکهای روانگردان میتوانند سیستمهای تشخیص چهره را فریب دهند تا افراد عادی را بهعنوان افراد مشهور به اشتباه شناسایی کنند و در نتیجه جعل هویت بالقوه را تسهیل کنند. در سال 2017، محققان نشان دادند که استفاده از برچسب ها برای علائم توقف می تواند یک ANN را وادار کند که این علائم ترافیکی را به اشتباه طبقه بندی کند.
برعکس، شبکههای عصبی مصنوعی میتوانند برای شناسایی مانورهای فریبنده، تحت آموزشهای اضافی قرار گیرند، که به طور بالقوه باعث آغاز یک "مسابقه تسلیحاتی" متخاصم بین مهاجمان و مدافعان میشود، شبیه به پویایی مشاهده شده در بخش دفاع بدافزار. برای مثال، شبکههای عصبی مصنوعی برای دور زدن نرمافزار ضد بدافزار مبتنی بر ANN از طریق حملات مکرر شامل بدافزارهایی که بهطور مداوم توسط الگوریتم ژنتیک اصلاح میشوند، آموزش دیدهاند و در نهایت سیستم دفاعی را فریب میدهند و در عین حال عملکرد بار مخرب آن را حفظ میکنند.
در سال 2016، یک تیم تحقیقاتی خاص Google در سال 2016 میتوانست فرمان صوتی مشخصی را بررسی کند. سیستم برای دسترسی به یک آدرس وب تعیین شده آنها این تئوری را مطرح کردند که این آسیبپذیری میتواند بهعنوان پیشمایهای برای حملات پیچیدهتر عمل کند، مانند هدایت کاربران به صفحات وب میزبان بدافزارهای درایو.
مفهوم «مسمومیت دادهها» شامل معرفی مخفیانه مستمر دادههای اشتباه به سیستم یادگیری ماشینی است که در نتیجه توانایی یادگیری دقیق و تسلط بر ظرفیت دادههای آموزشی آن را محدود میکند.
ملاحظات اخلاقی در جمع آوری داده ها
سیستمهای یادگیری عمیق، بهویژه آنهایی که از الگوهای یادگیری تحت نظارت استفاده میکنند، اغلب به مجموعههای دادهای وابسته هستند که یا توسط انسان تولید میشوند، توسط انسان حاشیهنویسی شدهاند، یا هر دو. ادعا شده است که این فرآیند به طور گسترده نه تنها از کلیککاری با دستمزد کم، که نمونه آن پلتفرمهایی مانند آمازون مکانیکال ترک است، بلکه از اشکال ظریف ریزکار انسانی نیز استفاده میکند که اغلب به این شکل ناشناخته باقی میمانند. فیلسوف Rainer Mühlhoff پنج مقوله متمایز از "گرفتن ماشینی" از ریزکارهای انسانی را که برای تولید داده های آموزشی استفاده می شود، ترسیم می کند: (1) گیمیفیکیشن، که شامل یکپارچه سازی حاشیه نویسی یا وظایف محاسباتی در پیشرفت یک بازی است. (2) "به دام انداختن و ردیابی"، شامل روش هایی مانند CAPTCHA برای تشخیص تصویر یا نظارت بر کلیک ها بر روی صفحات نتایج موتور جستجو. (3) بهرهبرداری از انگیزههای اجتماعی، به عنوان مثال، تشویق کاربران به برچسب زدن چهرهها در پلتفرمهای رسانههای اجتماعی مانند فیسبوک برای به دست آوردن دادههای تصویری برچسبگذاری شده از چهره. (4) اطلاعات کاوی، که از طریق استفاده از دستگاههای کمیتشده مانند ردیابهای فعالیت به دست میآید. و (5) کلیک سنتی.
- کاربردهای هوش مصنوعی
- حسگر فشرده
- شبکه حالت اکو
- مجموعه ای از ابتکارات هوش مصنوعی
- ماشین حالت مایع
- کاتالوگ جامع مجموعه داده ها برای تحقیقات یادگیری ماشین
- محاسبات مخزن
- مقیاس فضا و یادگیری عمیق
- کدگذاری پراکنده
- طوطی تصادفی
- یادگیری عمیق توپولوژیکی