هوش مصنوعی به کمک خود می‌آید! آموزش شبکه‌های عصبی با تصاویر ساختگی!

هوش مصنوعی به کمک خود می‌آید! آموزش شبکه‌های عصبی با تصاویر ساختگی!

اینبار در بلاگ بنو الکترونیک: دانشمندان دانشگاه MIT با آموزش هوش مصنوعی توسط تصاویر ساختگی Synthetic Images دست به نوآوری زده‌اند!

تیمی از محققان این دانشگاه در حال مطالعه بر روی یادگیری ویژگی‌های دیداری visual representations از تصاویری هستند که واقعی نبوده و توسط مدل‌های "متن-به-تصویر" text-to-image تولید شده‌اند. این تیم برای اولین بار نشان داده‌است که مدل‌های هوش مصنوعی‌ای که تنها با تصاویر ساختگی آموزش دیده‌اند نسبت به مدل‌های مشابهی که آموزش آن‌ها با تصاویر واقعی بوده عملکرد بهتری داشته‌اند. بنابراین روش تصویرسازی مصنوعی Synthetic Imagery آموزش بهینه‌تر و بدون جهت گیری هوش مصنوعی را میسر می‌کند.

عصر کنونی عصر داده است

قدرت دنیای امروزی در داده‌ها و توانایی پردازش و بهره‌برداری از آن‌هاست. در عصری که:

تمامی شرکت‌ها در تلاش برای جمع‌آوری داده‌های مفید هستند تا با پردازش و تحلیل آن‌ها بتوانند بهبودی در روند خود ایجاد کنند و در یک مرحله بالاتر شرکت‌های بزرگ و فعال در زمینه هوش مصنوعی در تلاشند تا داده‌هایی با حجم بالا جمع‌آوری کرده و ساختارهای شبکه عصبی خود را به بهترین نحو آموزش دهند،

محققان دانشگاه MIT به سطح جدیدی دست یافته‌اند. گروهی از دانشمندان این دانشگاه با آموزش مدل‌های یادگیری ماشین Machine Learning بر روی تصاویر ساختگی توانسته‌اند مدل‌های آموزش دیده شده بر روی تصاویر واقعی را شکست دهند. به نظر می‌رسد دنیا به سطح جدیدی در زمینه داده رسیده‌است. در صورت پیشرفت مناسب این مسیر و رفع چالش‌های آن دیگر جمع‌آوری داده یک مسئله چالش برانگیز نخواهد بود.

ساخت دنیایی جدید با مدل‌های هوش مصنوعی متن-به-تصویر

ساخت دنیاهای جدید آن هم فقط با کلمات!

هسته مرکزی روش آموزش مدل‌های یادگیری ماشین با استفاده از تصاویر ساختگی سیستمی با نام StableRep است. این سیستم توسط مدل‌های بسیار معروف متن-به-تصویر مانند Stable Diffusion تصاویر مصنوعی و ساختگی تولید می‌کند. به این معنی که یک مدل متن-به-تصویر به عنوان ورودی یک متن text prompt دریافت کرده و تولید تصویرهایی متناسب با متن ورودی می‌کند. این کار به خلق دنیایی جدید آن هم فقط با کمک کلمات می‌ماند!

It's like creating worlds with words!

راز سیستم StableRep: استراتژی multi-positive contrasive learning

Lijie Fan دانشجوی دکتری دانشگاه MIT و محقق اصلی این پروژه می‌گوید: ما صرفا داده‌ها را به عنوان ورودی به مدل نمی‌دهیم بلکه به مدل یاد می‌دهیم تا از طریق مرتبط دانستن متن و تصاویر متفاوتی که از آن متن ساخته می‌شود مفاهیم و ویژگی‌های سطح بالاتری high-level concepts را آموزش ببیند. وقتی چندین تصویر ساختگی از یک متن یکسان تولید می‌شود و مدل هوش مصنوعی نیز این را می‌داند می‌تواند به مفاهیم عمیق‌تری از تصاویر دست یابد.

این روش تصاویر متفاوتی را که از یک متن تولید شده‌اند به عنوان جفت‌های مثبت positive-pairs در نظر می‌گیرد. این رویکرد نه تنها تنوع داده‌های ورودی را بیشتر می‌کند بلکه به مدل می‌گوید کدام تصاویر شبیه به یکدیگر بوده و کدامیک متفاوت هستند و در نتیجه در طول آموزش اطلاعات بیشتری در اختیار مدل قرار می‌دهد. سیستم StableRep که بر پایه داده‌های ساختگی است مدل‌های توانمندی چون SimCLR و CLIP را که بر روی داده‌های واقعی آموزش دیده‌اند در مجموعه داده‌های بسیاری شکست داده‌است.

تحولی در فرآیند جمع‌آوری داده

Fan می‌گوید: StableRep در عین حال که به کاهش چالش‌های جمع‌آوری داده در زمینه یادگیری ماشین کمک می‌کند گامی نیز به سوی عصر جدیدی در آموزش هوش مصنوعی برداشته‌است. توانایی تولید تصاویر ساختگی متنوع و با کیفیت بالا می‌تواند در حذف منابع و هزینه‌های اضافه در فرآیند جمع‌آوری داده کمک کننده باشد.

فرآیند جمع‌آوری داده هیچوقت ساده نبوده‌است. در دهه 1990 محققان مجبور بودند تا خودشان به صورت دستی عکس برداری کرده و برای اشیا مختلف و چهره‌ها مجموعه داده جمع‌آوری کنند. دهه 2000 افراد در اینترنت به دنبال جمع‌آوری داده هستند. با این حال این داده‌های خام و بدون منبع مشخص و نظارت دقیق در مقایسه با سناریوها و واقعیت‌های دنیای واقعی دارای مغایرت‌هایی بوده و در نتیجه می‌توانند سوگیری‌هایی اجتماعی و نگاهی تحریف شده از واقعیت را ارائه بدهند. کار پاک سازی مجموعه داده اولیه و استخراج مجموعه داده مناسب از داخل آن توسط انسان نه تنها هزینه‌بر بلکه بسیار چالش برانگیز نیز هست. 

حال فرض کنید کار بسیار سخت و چالش برانگیز جمع‌آوری مجموعه داده تبدیل به کاری به سادگی صدور دستور با زبان طبیعی گردد! مسیری که StableRep آغازگر آن است.

آموزش شبکه‌های عصبی با روش تصویرسازی مصنوعی

یکی از جنبه‌های اصلی و اساسی موفقیت StableRep توانایی تنظیم پارامتری با نام "میزان هدایت" guidance scale در مدل تولید کننده تصاویر ساختگی است. این پارامتر وجود یک تعادل مناسب و ظریف را میان تنوع و تناسب تصاویر مصنوعی تولید شده تضمین می‌کند. به این معنی که تصاویری که از یک متن ورودی یکسان ساخته می‌شوند در عین حال که متنوع هستند رابطه معنایی خود با متن ورودی و دیگر تصاویر حاصل را حفظ کنند. وقتی مقدار این پارامتر به درستی انتخاب و تنظیم می‌شود تصاویر ساختگی حاصل که در آموزش شبکه عصبی مورد استفاده قرار می‌گیرند اگر بیشتر از تصاویر واقعی تاثیرگذار نباشند با آن‌ها برابری خواهند کرد.

چالش‌های پیش‌رو

با وجود تمامی مزیت‌های ارائه شده برای سیستم StableRep و نیز پیشرفت‌های صورت گرفته مسیر پیش‌رو چندان صاف و بدون چالش نیست. محققان این پروژه به وضوح به چندین محدودیت موجود اشاره کرده‌اند که به شرح زیر است:

  • سرعت پایین تولید تصاویر مصنوعی
  • عدم تطابق معنایی بین متن ورودی و تصاویر ساختگی حاصل (به این معنی که رابطه معنادار مناسبی بین متن ورودی و تصویر خروجی نباشد)
  • تقویت احتمالی جهت گیری‌ها biases 
  • پیچیدگی‌های اعتبار سنجی تصاویر ساختگی تولید شده

قطعا پرداختن به همه این محدودیت‌ها برای پیشرفت‌های آینده ضروری است. 

کوچ از دنیای واقعی به دنیای ساختگی به این راحتی‌ها امکان پذیر نیست!

مشکل دیگری که وجود دارد این است که لازم است در ابتدا مدل تولید کننده تصاویر ساختگی با حجم بالایی از تصاویر واقعی آموزش ببیند تا بتواند به تولید تصاویر مصنوعی بپردازد. بنابراین نیاز به تصاویر واقعی به طور کلی حذف نشده‌است و تیم تایید می‌کند که شروع با تصاویر واقعی یک نیاز اجتناب ناپذیر است و داده‌های واقعی به طور کامل از روند آموزش شبکه عصبی حذف نشده‌اند. با این حال با گذشتن از مرحله آموزش با داده‌های واقعی و دست یافتن به یک مدل مناسب و بهینه می‌توان از این مدل در کاربردهای بسیاری بهره برد.

Fan می‌گوید: در عین حال که StableRep از یک سمت با کاهش وابستگی به حجم بالایی از داده‌های واقعی راه حل مناسبی ارائه می‌دهد از سمت دیگر نیز نگرانی‌هایی را از بابت جهت‌‌گیری‌های پنهان hidden biases به واسطه ورودی‌های بدون نظارت به مدل‌های متن-به-تصویر تقویت می‌کند. انتخاب متن ورودی به این مدل‌ها، که هسته اصلی تولید تصویر ساختگی مرتبط با آن است، به طور کامل عاری از جهت‌گیری نبوده و ضرورت انتخاب دقیق متن ورودی و یا نظارت احتمالی توسط انسان را نشان می‌دهد.

در این پروژه با کمک آخرین مدل‌های تبدیل متن به تصویر کنترل بی‌سابقه‌ای بر روی تولید تصاویر ساختگی به دست آورده‌ایم که نتیجه آن ایجاد تصاویر متنوع و مرتبط از یک متن ورودی یکسان است. این امر باعث می‌شود تا روش پیشنهادی کارایی بهتری نسبت به روش‌های جمع‌آوری داده‌های واقعی داشته باشد.

این کار گامی برجسته در یادگیری دیداری visual lerning است که به سمت ارائه روش‌های جایگزین و به صرفه در آموزش هوش مصنوعی حرکت می‌کند و قطعا نیاز مداوم به بهبود کیفیت و تنوع داده‌ها دارد.

آموزش هوش مصنوعی با تصاویر ساختگی

David Fleet محقق Google DeepMind و استاد دانشگاه علوم رایانه دانشگاه تورنتو می‌گوید: یکی از رویاها و اهداف بلند مدت مدل‌های مولد Generative Models تولید داده مناسب برای آموزش مدل‌های متمایزگر Discriminative Models بوده‌است. Fan ادامه می‌دهد: در حالی که تیم ما نشانه‌هایی از این رویا و هدف را در این پروژه دیده‌است اما در حوزه تصاویر با وضوح بالا و در مقیاس بزرگ هنوز با این هدف فاصله داریم. بنابراین این پروژه برای اولین بار شواهد محکم و قانع‌کننده ای برای رسیدن به این رویا دارد و نشان می‌دهد که یادگیری از حجم بالایی از داده‌های تصویر ساختگی باعث یادگیری ویژگی‌هایی می‌شود که از ویژگی‌های استخراج شده از تصاویر واقعی عملکرد بهتری دارند.

منبع: https://news.mit.edu/

پی‌نوشت:

مدل‌های مولد Generative Models مدل‌هایی هستند که در تلاشند تا با پردازش داده‌های ورودی نحوه تولید آن‌ها را یاد بگیرند. در مقابل مدل‌های مولد مدل‌های متمایزگر Discriminative Models قرار دارند که در راستای تخمین برچسب label داده ورودی تلاش می‌کنند.

درباره هوش مصنوعی بیشتر بخوانید:

جلوگیری از هدر رفت مواد غذایی در فروشگاه‌ها با کمک هوش مصنوعی

نظرات بازدیدکنندگان