تصور کنید برای چند دقیقه به یک خیابان شلوغ نگاه می کنید، سپس سعی می کنید صحنه ای را که از حافظه دیده اید ترسیم کنید. اکثر مردم میتوانند موقعیتهای ناهموار اشیاء اساسی مانند ماشینها، افراد و پیادهروها را ترسیم کنند، اما تقریباً هیچکس نمیتواند تمام جزئیات را با دقت کامل پیکسلی ترسیم کند. همین امر در مورد اکثر الگوریتمهای بینایی کامپیوتری مدرن صدق میکند: آنها در ثبت سطح بالایی از جزئیات در یک صحنه فوقالعاده هستند، اما جزئیات دقیق را هنگام پردازش اطلاعات از دست میدهند.
اکنون محققان MIT سیستمی به نام “FeatUp” ایجاد کردهاند که به الگوریتمها اجازه میدهد تا تمام جزئیات سطح بالا و پایین یک صحنه را به طور همزمان ثبت کنند – تقریباً مانند جراحی لیزیک چشم برای بینایی کامپیوتری.
هنگامی که کامپیوترها با مشاهده تصاویر و ویدئوها “دیدن” را یاد می گیرند، از طریق چیزی به نام “ویژگی ها” در مورد آنچه در یک صحنه وجود دارد “ایده هایی” می سازند. برای ایجاد این ویژگیها، شبکههای عمیق و مدلهای مبنای بصری، تصاویر را به شبکهای از مربعهای کوچک تقسیم میکنند و آن مربعها را بهعنوان یک گروه پردازش میکنند تا مشخص کنند در تصویر چه اتفاقی میافتد. هر مربع کوچک معمولاً از 16 تا 32 پیکسل تشکیل شده است، بنابراین وضوح این الگوریتم ها به شدت کوچکتر از تصاویری است که با آنها کار می کنند. در تلاش برای خلاصهسازی و درک عکسها، الگوریتمها وضوح پیکسل زیادی را از دست میدهند.
الگوریتم FeatUp می تواند این از دست دادن اطلاعات را متوقف کند و وضوح هر شبکه عمیق را بدون کاهش سرعت یا کیفیت افزایش دهد. این به محققان اجازه می دهد تا به سرعت و به راحتی وضوح هر الگوریتم جدید یا موجود را بهبود بخشند. به عنوان مثال، تصور کنید سعی می کنید پیش بینی های یک الگوریتم تشخیص سرطان ریه را به منظور بومی سازی تومور تفسیر کنید. اعمال FeatUp قبل از تفسیر الگوریتم با استفاده از روشی مانند Class Activation Maps (CAM) می تواند نمای بسیار دقیق تری (16-32x) از جایی که تومور ممکن است بر اساس مدل باشد ارائه دهد.
FeatUp نه تنها به پزشکان در درک مدلهایشان کمک میکند، بلکه میتواند طیف وسیعی از وظایف مختلف مانند تشخیص اشیا، تقسیمبندی معنایی (برچسبگذاری پیکسلها در یک تصویر با برچسبهای شی) و تخمین عمق را نیز بهبود بخشد. این امر با ارائه ویژگیهای دقیقتر و با وضوح بالا که برای ساخت برنامههای بینایی از رانندگی مستقل تا تصویربرداری پزشکی حیاتی هستند، به دست میآید.
جوهر تمام بینایی کامپیوتر در این عملکردهای عمیق و هوشمند نهفته است که از اعماق معماری های یادگیری عمیق بیرون می آیند. مارک همیلتون، دانشجوی دکترای برق و علوم کامپیوتر در MIT Computer Science و میگوید: «چالش بزرگ الگوریتمهای مدرن این است که تصاویر بزرگ را به شبکههای بسیار کوچکی از ویژگیهای «هوشمند» تقلیل میدهند، به بینشهای هوشمندی دست مییابند اما جزئیات دقیقتر را از دست میدهند. وابسته به آزمایشگاه هوش مصنوعی (CSAIL) و نویسنده ارشد مقاله پروژه. “FeatUp به فعال کردن بهترین های هر دو جهان کمک می کند: عملکردهای بسیار هوشمند در وضوح تصویر اصلی. این ویژگیهای با وضوح بالا، عملکرد را در طیف وسیعی از وظایف بینایی رایانه، از بهبود تشخیص اشیا و بهبود پیشبینی عمق تا ارائه درک عمیقتری از فرآیند تصمیمگیری شبکه شما از طریق توانایی تجزیه و تحلیل با وضوح بالا، به شدت افزایش میدهند.
رنسانس وضوح
همانطور که این مدلهای بزرگ هوش مصنوعی گستردهتر میشوند، نیاز فزایندهای برای توضیح آنچه انجام میدهند، آنچه میبینند و آنچه فکر میکنند وجود دارد.
اما FeatUp دقیقا چگونه می تواند این جزئیات دقیق را تشخیص دهد؟ عجیب است که راز در تکان دادن و تکان دادن تصاویر نهفته است.
به طور خاص، FeatUp تنظیمات کوچکی را اعمال می کند (مانند حرکت تصویر چند پیکسل به چپ یا راست) و مشاهده می کند که الگوریتم چگونه به این حرکات جزئی تصویر واکنش نشان می دهد. این منجر به صدها نقشه ویژگی عمق کمی متفاوت می شود که می توانند در یک مجموعه واضح از ویژگی های عمق وضوح بالا ترکیب شوند. “ما تصور می کنیم که برخی از ویژگی های با وضوح بالا وجود دارد، و زمانی که آنها را مخدوش و تار می کنیم، آنها با تمام ویژگی های اصلی با وضوح پایین تر از تصاویر ناهمخوان مطابقت دارند. هدف ما این است که یاد بگیریم چگونه ویژگیهای با وضوح پایین را به ویژگیهای با وضوح بالا با استفاده از این «بازی» اصلاح کنیم که به ما اطلاع میدهد چقدر خوب کار میکنیم.» این روش شبیه به این است که چگونه الگوریتمها میتوانند یک مدل سهبعدی را از چندین تصویر دو بعدی ایجاد کنند و اطمینان حاصل کنند که شی 3 بعدی مورد نظر با تمام عکسهای دو بعدی استفاده شده برای ایجاد آن مطابقت دارد. در مورد FeatUp، آنها یک نقشه ویژگی با وضوح بالا را پیشبینی میکنند که با تمام نقشههای ویژگی با وضوح پایین که از پراکندگی تصویر اصلی تشکیل شدهاند، سازگار است.
این تیم خاطرنشان کرد که ابزارهای استاندارد موجود در PyTorch برای نیازهای آنها ناکافی است و نوع جدیدی از لایه عمیق شبکه را در جستجوی خود برای راه حلی سریع و کارآمد معرفی کردند. لایه سفارشی آنها، یک عملیات مشترک دوجانبه آپنمونه برداری، بیش از 100 برابر کارآمدتر از یک پیاده سازی ساده در PyTorch بود. این تیم همچنین نشان داد که این لایه جدید می تواند طیف گسترده ای از الگوریتم های مختلف، از جمله تقسیم بندی معنایی و پیش بینی عمق را بهبود بخشد. این لایه توانایی شبکه را برای پردازش و درک جزئیات با وضوح بالا بهبود می بخشد و به هر الگوریتمی که از آن استفاده می کند عملکرد قابل توجهی را افزایش می دهد.
«یک برنامه کاربردی دیگر چیزی به نام استخراج اشیای کوچک است که در آن الگوریتم ما محلی سازی دقیق اشیاء را امکان پذیر می کند. به عنوان مثال، حتی در صحنههای جادهای درهم، الگوریتمهای بهبود یافته FeatUp میتوانند اجسام کوچکی مانند مخروطها، بازتابندهها، چراغها و چالهها را ببینند که پسرعموهایشان با وضوح پایینتر از کار میافتند. استفانی فو ’22، MNG ’23، دانشجوی دکترا در دانشگاه کالیفرنیا برکلی و یکی دیگر از نویسندگان اصلی مقاله جدید FeatUp، گفت: این نشان دهنده توانایی آن در افزایش ویژگی های درشت در سیگنال های ریز دانه است. این امر به ویژه برای کارهای حساس به زمان، مانند تعیین علامت راهنمایی و رانندگی در یک بزرگراه پر ازدحام در خودروهای بدون راننده بسیار مهم است. این نه تنها میتواند دقت چنین وظایفی را با تبدیل مفروضات گسترده به محلیسازیهای دقیق بهبود بخشد، بلکه میتواند این سیستمها را قابل اعتمادتر، قابل تفسیر و قابل اعتمادتر کند.
بعدش چی؟
از نظر آرزوهای آینده، تیم بر پذیرش گسترده FeatUp در جامعه تحقیقاتی و فراتر از آن، مشابه شیوههای افزایش دادهها تاکید میکند. فو میگوید: «هدف این است که این روش را به ابزاری اساسی برای یادگیری عمیق تبدیل کنیم، مدلهایی را برای درک جهان با جزئیات بیشتر بدون ناکارآمدی محاسباتی پردازش با وضوح بالا سنتی غنیسازی کنیم».
نوآ اسنالی، استاد علوم کامپیوتر دانشگاه کرنل، که در این تحقیق شرکت نداشت، گفت: «FeatUp یک پیشرفت شگفتانگیز برای ساختن نمایشهای بصری واقعاً مفید با تولید آنها در وضوح تصویر کامل است. «نمایشهای بصری آموختهشده در چند سال گذشته واقعاً خوب شدهاند، اما تقریباً همیشه با وضوح بسیار پایین تولید میشوند—شما میتوانید یک عکس با وضوح کامل خوب قرار دهید و شبکه کوچکی از ویژگیها را به اندازه یک تمبر پستی دریافت کنید. ” اگر میخواهید از این ویژگیها در برنامههایی که خروجی با وضوح کامل تولید میکنند، استفاده کنید، این یک مشکل است. FeatUp با ترکیب ایدههای کلاسیک در وضوح فوقالعاده با رویکردهای آموزشی مدرن، این مشکل را به روشی خلاقانه حل میکند و در نتیجه نقشههای ویژگی زیبا با وضوح بالا به دست میآید.
“ما امیدواریم این ایده ساده کاربرد گسترده ای داشته باشد. ویلیام تی فریمن، نویسنده ارشد، استاد مهندسی برق و علوم کامپیوتر MIT و یکی از اعضای CSAIL، گفت: این نسخههایی با وضوح بالا از تجزیه و تحلیل تصویر را ارائه میکند که قبلاً فکر میکردیم تنها با وضوح پایین قابل انجام است.
نویسندگان اصلی فو و همیلتون توسط دانشجویان دکترای MIT، لورا برانت SM ’21 و اکسل فلدمن SM ’21، و همچنین Zhoutong Zhang SM ’21، PhD ’22، همه وابستههای فعلی یا سابق MIT CSAIL به آنها ملحق میشوند. تحقیقات آنها تا حدی توسط کمک هزینه تحصیلات تکمیلی بنیاد ملی علوم پشتیبانی شد، از بنیاد ملی علوم و دفتر مدیر اطلاعات ملی، آزمایشگاه تحقیقاتی نیروی هوایی ایالات متحده و شتاب دهنده هوش مصنوعی نیروی هوایی ایالات متحده. این گروه کار خود را در ماه مه در کنفرانس بین المللی ارائه آموزش ارائه خواهد کرد.