هوش مصنوعی به کمک خود میآید! آموزش شبکههای عصبی با تصاویر ساختگی!

اینبار در بلاگ بنو الکترونیک: دانشمندان دانشگاه MIT با آموزش هوش مصنوعی توسط تصاویر ساختگی Synthetic Images دست به نوآوری زدهاند!
تیمی از محققان این دانشگاه در حال مطالعه بر روی یادگیری ویژگیهای دیداری visual representations از تصاویری هستند که واقعی نبوده و توسط مدلهای "متن-به-تصویر" text-to-image تولید شدهاند. این تیم برای اولین بار نشان دادهاست که مدلهای هوش مصنوعیای که تنها با تصاویر ساختگی آموزش دیدهاند نسبت به مدلهای مشابهی که آموزش آنها با تصاویر واقعی بوده عملکرد بهتری داشتهاند. بنابراین روش تصویرسازی مصنوعی Synthetic Imagery آموزش بهینهتر و بدون جهت گیری هوش مصنوعی را میسر میکند.
عصر کنونی عصر داده است
قدرت دنیای امروزی در دادهها و توانایی پردازش و بهرهبرداری از آنهاست. در عصری که:
تمامی شرکتها در تلاش برای جمعآوری دادههای مفید هستند تا با پردازش و تحلیل آنها بتوانند بهبودی در روند خود ایجاد کنند و در یک مرحله بالاتر شرکتهای بزرگ و فعال در زمینه هوش مصنوعی در تلاشند تا دادههایی با حجم بالا جمعآوری کرده و ساختارهای شبکه عصبی خود را به بهترین نحو آموزش دهند،
محققان دانشگاه MIT به سطح جدیدی دست یافتهاند. گروهی از دانشمندان این دانشگاه با آموزش مدلهای یادگیری ماشین Machine Learning بر روی تصاویر ساختگی توانستهاند مدلهای آموزش دیده شده بر روی تصاویر واقعی را شکست دهند. به نظر میرسد دنیا به سطح جدیدی در زمینه داده رسیدهاست. در صورت پیشرفت مناسب این مسیر و رفع چالشهای آن دیگر جمعآوری داده یک مسئله چالش برانگیز نخواهد بود.
ساخت دنیاهای جدید آن هم فقط با کلمات!
هسته مرکزی روش آموزش مدلهای یادگیری ماشین با استفاده از تصاویر ساختگی سیستمی با نام StableRep است. این سیستم توسط مدلهای بسیار معروف متن-به-تصویر مانند Stable Diffusion تصاویر مصنوعی و ساختگی تولید میکند. به این معنی که یک مدل متن-به-تصویر به عنوان ورودی یک متن text prompt دریافت کرده و تولید تصویرهایی متناسب با متن ورودی میکند. این کار به خلق دنیایی جدید آن هم فقط با کمک کلمات میماند!
It's like creating worlds with words!
راز سیستم StableRep: استراتژی multi-positive contrasive learning
Lijie Fan دانشجوی دکتری دانشگاه MIT و محقق اصلی این پروژه میگوید: ما صرفا دادهها را به عنوان ورودی به مدل نمیدهیم بلکه به مدل یاد میدهیم تا از طریق مرتبط دانستن متن و تصاویر متفاوتی که از آن متن ساخته میشود مفاهیم و ویژگیهای سطح بالاتری high-level concepts را آموزش ببیند. وقتی چندین تصویر ساختگی از یک متن یکسان تولید میشود و مدل هوش مصنوعی نیز این را میداند میتواند به مفاهیم عمیقتری از تصاویر دست یابد.
این روش تصاویر متفاوتی را که از یک متن تولید شدهاند به عنوان جفتهای مثبت positive-pairs در نظر میگیرد. این رویکرد نه تنها تنوع دادههای ورودی را بیشتر میکند بلکه به مدل میگوید کدام تصاویر شبیه به یکدیگر بوده و کدامیک متفاوت هستند و در نتیجه در طول آموزش اطلاعات بیشتری در اختیار مدل قرار میدهد. سیستم StableRep که بر پایه دادههای ساختگی است مدلهای توانمندی چون SimCLR و CLIP را که بر روی دادههای واقعی آموزش دیدهاند در مجموعه دادههای بسیاری شکست دادهاست.
تحولی در فرآیند جمعآوری داده
Fan میگوید: StableRep در عین حال که به کاهش چالشهای جمعآوری داده در زمینه یادگیری ماشین کمک میکند گامی نیز به سوی عصر جدیدی در آموزش هوش مصنوعی برداشتهاست. توانایی تولید تصاویر ساختگی متنوع و با کیفیت بالا میتواند در حذف منابع و هزینههای اضافه در فرآیند جمعآوری داده کمک کننده باشد.
فرآیند جمعآوری داده هیچوقت ساده نبودهاست. در دهه 1990 محققان مجبور بودند تا خودشان به صورت دستی عکس برداری کرده و برای اشیا مختلف و چهرهها مجموعه داده جمعآوری کنند. دهه 2000 افراد در اینترنت به دنبال جمعآوری داده هستند. با این حال این دادههای خام و بدون منبع مشخص و نظارت دقیق در مقایسه با سناریوها و واقعیتهای دنیای واقعی دارای مغایرتهایی بوده و در نتیجه میتوانند سوگیریهایی اجتماعی و نگاهی تحریف شده از واقعیت را ارائه بدهند. کار پاک سازی مجموعه داده اولیه و استخراج مجموعه داده مناسب از داخل آن توسط انسان نه تنها هزینهبر بلکه بسیار چالش برانگیز نیز هست.
حال فرض کنید کار بسیار سخت و چالش برانگیز جمعآوری مجموعه داده تبدیل به کاری به سادگی صدور دستور با زبان طبیعی گردد! مسیری که StableRep آغازگر آن است.
یکی از جنبههای اصلی و اساسی موفقیت StableRep توانایی تنظیم پارامتری با نام "میزان هدایت" guidance scale در مدل تولید کننده تصاویر ساختگی است. این پارامتر وجود یک تعادل مناسب و ظریف را میان تنوع و تناسب تصاویر مصنوعی تولید شده تضمین میکند. به این معنی که تصاویری که از یک متن ورودی یکسان ساخته میشوند در عین حال که متنوع هستند رابطه معنایی خود با متن ورودی و دیگر تصاویر حاصل را حفظ کنند. وقتی مقدار این پارامتر به درستی انتخاب و تنظیم میشود تصاویر ساختگی حاصل که در آموزش شبکه عصبی مورد استفاده قرار میگیرند اگر بیشتر از تصاویر واقعی تاثیرگذار نباشند با آنها برابری خواهند کرد.
چالشهای پیشرو
با وجود تمامی مزیتهای ارائه شده برای سیستم StableRep و نیز پیشرفتهای صورت گرفته مسیر پیشرو چندان صاف و بدون چالش نیست. محققان این پروژه به وضوح به چندین محدودیت موجود اشاره کردهاند که به شرح زیر است:
- سرعت پایین تولید تصاویر مصنوعی
- عدم تطابق معنایی بین متن ورودی و تصاویر ساختگی حاصل (به این معنی که رابطه معنادار مناسبی بین متن ورودی و تصویر خروجی نباشد)
- تقویت احتمالی جهت گیریها biases
- پیچیدگیهای اعتبار سنجی تصاویر ساختگی تولید شده
قطعا پرداختن به همه این محدودیتها برای پیشرفتهای آینده ضروری است.
کوچ از دنیای واقعی به دنیای ساختگی به این راحتیها امکان پذیر نیست!
مشکل دیگری که وجود دارد این است که لازم است در ابتدا مدل تولید کننده تصاویر ساختگی با حجم بالایی از تصاویر واقعی آموزش ببیند تا بتواند به تولید تصاویر مصنوعی بپردازد. بنابراین نیاز به تصاویر واقعی به طور کلی حذف نشدهاست و تیم تایید میکند که شروع با تصاویر واقعی یک نیاز اجتناب ناپذیر است و دادههای واقعی به طور کامل از روند آموزش شبکه عصبی حذف نشدهاند. با این حال با گذشتن از مرحله آموزش با دادههای واقعی و دست یافتن به یک مدل مناسب و بهینه میتوان از این مدل در کاربردهای بسیاری بهره برد.
Fan میگوید: در عین حال که StableRep از یک سمت با کاهش وابستگی به حجم بالایی از دادههای واقعی راه حل مناسبی ارائه میدهد از سمت دیگر نیز نگرانیهایی را از بابت جهتگیریهای پنهان hidden biases به واسطه ورودیهای بدون نظارت به مدلهای متن-به-تصویر تقویت میکند. انتخاب متن ورودی به این مدلها، که هسته اصلی تولید تصویر ساختگی مرتبط با آن است، به طور کامل عاری از جهتگیری نبوده و ضرورت انتخاب دقیق متن ورودی و یا نظارت احتمالی توسط انسان را نشان میدهد.
در این پروژه با کمک آخرین مدلهای تبدیل متن به تصویر کنترل بیسابقهای بر روی تولید تصاویر ساختگی به دست آوردهایم که نتیجه آن ایجاد تصاویر متنوع و مرتبط از یک متن ورودی یکسان است. این امر باعث میشود تا روش پیشنهادی کارایی بهتری نسبت به روشهای جمعآوری دادههای واقعی داشته باشد.
این کار گامی برجسته در یادگیری دیداری visual lerning است که به سمت ارائه روشهای جایگزین و به صرفه در آموزش هوش مصنوعی حرکت میکند و قطعا نیاز مداوم به بهبود کیفیت و تنوع دادهها دارد.
David Fleet محقق Google DeepMind و استاد دانشگاه علوم رایانه دانشگاه تورنتو میگوید: یکی از رویاها و اهداف بلند مدت مدلهای مولد Generative Models تولید داده مناسب برای آموزش مدلهای متمایزگر Discriminative Models بودهاست. Fan ادامه میدهد: در حالی که تیم ما نشانههایی از این رویا و هدف را در این پروژه دیدهاست اما در حوزه تصاویر با وضوح بالا و در مقیاس بزرگ هنوز با این هدف فاصله داریم. بنابراین این پروژه برای اولین بار شواهد محکم و قانعکننده ای برای رسیدن به این رویا دارد و نشان میدهد که یادگیری از حجم بالایی از دادههای تصویر ساختگی باعث یادگیری ویژگیهایی میشود که از ویژگیهای استخراج شده از تصاویر واقعی عملکرد بهتری دارند.
منبع: https://news.mit.edu/
پینوشت:
مدلهای مولد Generative Models مدلهایی هستند که در تلاشند تا با پردازش دادههای ورودی نحوه تولید آنها را یاد بگیرند. در مقابل مدلهای مولد مدلهای متمایزگر Discriminative Models قرار دارند که در راستای تخمین برچسب label داده ورودی تلاش میکنند.
درباره هوش مصنوعی بیشتر بخوانید:
جلوگیری از هدر رفت مواد غذایی در فروشگاهها با کمک هوش مصنوعی
نظرات بازدیدکنندگان