You are currently viewing الگوریتم جدید بینش های با وضوح بالا را برای بینایی کامپیوتر باز می کند

الگوریتم جدید بینش های با وضوح بالا را برای بینایی کامپیوتر باز می کند


تصور کنید برای چند دقیقه به یک خیابان شلوغ نگاه می کنید، سپس سعی می کنید صحنه ای را که از حافظه دیده اید ترسیم کنید. اکثر مردم می‌توانند موقعیت‌های ناهموار اشیاء اساسی مانند ماشین‌ها، افراد و پیاده‌روها را ترسیم کنند، اما تقریباً هیچ‌کس نمی‌تواند تمام جزئیات را با دقت کامل پیکسلی ترسیم کند. همین امر در مورد اکثر الگوریتم‌های بینایی کامپیوتری مدرن صدق می‌کند: آنها در ثبت سطح بالایی از جزئیات در یک صحنه فوق‌العاده هستند، اما جزئیات دقیق را هنگام پردازش اطلاعات از دست می‌دهند.

اکنون محققان MIT سیستمی به نام “FeatUp” ایجاد کرده‌اند که به الگوریتم‌ها اجازه می‌دهد تا تمام جزئیات سطح بالا و پایین یک صحنه را به طور همزمان ثبت کنند – تقریباً مانند جراحی لیزیک چشم برای بینایی کامپیوتری.

هنگامی که کامپیوترها با مشاهده تصاویر و ویدئوها “دیدن” را یاد می گیرند، از طریق چیزی به نام “ویژگی ها” در مورد آنچه در یک صحنه وجود دارد “ایده هایی” می سازند. برای ایجاد این ویژگی‌ها، شبکه‌های عمیق و مدل‌های مبنای بصری، تصاویر را به شبکه‌ای از مربع‌های کوچک تقسیم می‌کنند و آن مربع‌ها را به‌عنوان یک گروه پردازش می‌کنند تا مشخص کنند در تصویر چه اتفاقی می‌افتد. هر مربع کوچک معمولاً از 16 تا 32 پیکسل تشکیل شده است، بنابراین وضوح این الگوریتم ها به شدت کوچکتر از تصاویری است که با آنها کار می کنند. در تلاش برای خلاصه‌سازی و درک عکس‌ها، الگوریتم‌ها وضوح پیکسل زیادی را از دست می‌دهند.

الگوریتم FeatUp می تواند این از دست دادن اطلاعات را متوقف کند و وضوح هر شبکه عمیق را بدون کاهش سرعت یا کیفیت افزایش دهد. این به محققان اجازه می دهد تا به سرعت و به راحتی وضوح هر الگوریتم جدید یا موجود را بهبود بخشند. به عنوان مثال، تصور کنید سعی می کنید پیش بینی های یک الگوریتم تشخیص سرطان ریه را به منظور بومی سازی تومور تفسیر کنید. اعمال FeatUp قبل از تفسیر الگوریتم با استفاده از روشی مانند Class Activation Maps (CAM) می تواند نمای بسیار دقیق تری (16-32x) از جایی که تومور ممکن است بر اساس مدل باشد ارائه دهد.

FeatUp نه تنها به پزشکان در درک مدل‌هایشان کمک می‌کند، بلکه می‌تواند طیف وسیعی از وظایف مختلف مانند تشخیص اشیا، تقسیم‌بندی معنایی (برچسب‌گذاری پیکسل‌ها در یک تصویر با برچسب‌های شی) و تخمین عمق را نیز بهبود بخشد. این امر با ارائه ویژگی‌های دقیق‌تر و با وضوح بالا که برای ساخت برنامه‌های بینایی از رانندگی مستقل تا تصویربرداری پزشکی حیاتی هستند، به دست می‌آید.

جوهر تمام بینایی کامپیوتر در این عملکردهای عمیق و هوشمند نهفته است که از اعماق معماری های یادگیری عمیق بیرون می آیند. مارک همیلتون، دانشجوی دکترای برق و علوم کامپیوتر در MIT Computer Science و می‌گوید: «چالش بزرگ الگوریتم‌های مدرن این است که تصاویر بزرگ را به شبکه‌های بسیار کوچکی از ویژگی‌های «هوشمند» تقلیل می‌دهند، به بینش‌های هوشمندی دست می‌یابند اما جزئیات دقیق‌تر را از دست می‌دهند. وابسته به آزمایشگاه هوش مصنوعی (CSAIL) و نویسنده ارشد مقاله پروژه. “FeatUp به فعال کردن بهترین های هر دو جهان کمک می کند: عملکردهای بسیار هوشمند در وضوح تصویر اصلی. این ویژگی‌های با وضوح بالا، عملکرد را در طیف وسیعی از وظایف بینایی رایانه، از بهبود تشخیص اشیا و بهبود پیش‌بینی عمق تا ارائه درک عمیق‌تری از فرآیند تصمیم‌گیری شبکه شما از طریق توانایی تجزیه و تحلیل با وضوح بالا، به شدت افزایش می‌دهند.

رنسانس وضوح

همانطور که این مدل‌های بزرگ هوش مصنوعی گسترده‌تر می‌شوند، نیاز فزاینده‌ای برای توضیح آنچه انجام می‌دهند، آنچه می‌بینند و آنچه فکر می‌کنند وجود دارد.

اما FeatUp دقیقا چگونه می تواند این جزئیات دقیق را تشخیص دهد؟ عجیب است که راز در تکان دادن و تکان دادن تصاویر نهفته است.

به طور خاص، FeatUp تنظیمات کوچکی را اعمال می کند (مانند حرکت تصویر چند پیکسل به چپ یا راست) و مشاهده می کند که الگوریتم چگونه به این حرکات جزئی تصویر واکنش نشان می دهد. این منجر به صدها نقشه ویژگی عمق کمی متفاوت می شود که می توانند در یک مجموعه واضح از ویژگی های عمق وضوح بالا ترکیب شوند. “ما تصور می کنیم که برخی از ویژگی های با وضوح بالا وجود دارد، و زمانی که آنها را مخدوش و تار می کنیم، آنها با تمام ویژگی های اصلی با وضوح پایین تر از تصاویر ناهمخوان مطابقت دارند. هدف ما این است که یاد بگیریم چگونه ویژگی‌های با وضوح پایین را به ویژگی‌های با وضوح بالا با استفاده از این «بازی» اصلاح کنیم که به ما اطلاع می‌دهد چقدر خوب کار می‌کنیم.» این روش شبیه به این است که چگونه الگوریتم‌ها می‌توانند یک مدل سه‌بعدی را از چندین تصویر دو بعدی ایجاد کنند و اطمینان حاصل کنند که شی 3 بعدی مورد نظر با تمام عکس‌های دو بعدی استفاده شده برای ایجاد آن مطابقت دارد. در مورد FeatUp، آنها یک نقشه ویژگی با وضوح بالا را پیش‌بینی می‌کنند که با تمام نقشه‌های ویژگی با وضوح پایین که از پراکندگی تصویر اصلی تشکیل شده‌اند، سازگار است.

این تیم خاطرنشان کرد که ابزارهای استاندارد موجود در PyTorch برای نیازهای آنها ناکافی است و نوع جدیدی از لایه عمیق شبکه را در جستجوی خود برای راه حلی سریع و کارآمد معرفی کردند. لایه سفارشی آنها، یک عملیات مشترک دوجانبه آپنمونه برداری، بیش از 100 برابر کارآمدتر از یک پیاده سازی ساده در PyTorch بود. این تیم همچنین نشان داد که این لایه جدید می تواند طیف گسترده ای از الگوریتم های مختلف، از جمله تقسیم بندی معنایی و پیش بینی عمق را بهبود بخشد. این لایه توانایی شبکه را برای پردازش و درک جزئیات با وضوح بالا بهبود می بخشد و به هر الگوریتمی که از آن استفاده می کند عملکرد قابل توجهی را افزایش می دهد.

«یک برنامه کاربردی دیگر چیزی به نام استخراج اشیای کوچک است که در آن الگوریتم ما محلی سازی دقیق اشیاء را امکان پذیر می کند. به عنوان مثال، حتی در صحنه‌های جاده‌ای درهم، الگوریتم‌های بهبود یافته FeatUp می‌توانند اجسام کوچکی مانند مخروط‌ها، بازتابنده‌ها، چراغ‌ها و چاله‌ها را ببینند که پسرعموهایشان با وضوح پایین‌تر از کار می‌افتند. استفانی فو ’22، MNG ’23، دانشجوی دکترا در دانشگاه کالیفرنیا برکلی و یکی دیگر از نویسندگان اصلی مقاله جدید FeatUp، گفت: این نشان دهنده توانایی آن در افزایش ویژگی های درشت در سیگنال های ریز دانه است. این امر به ویژه برای کارهای حساس به زمان، مانند تعیین علامت راهنمایی و رانندگی در یک بزرگراه پر ازدحام در خودروهای بدون راننده بسیار مهم است. این نه تنها می‌تواند دقت چنین وظایفی را با تبدیل مفروضات گسترده به محلی‌سازی‌های دقیق بهبود بخشد، بلکه می‌تواند این سیستم‌ها را قابل اعتمادتر، قابل تفسیر و قابل اعتمادتر کند.

بعدش چی؟

از نظر آرزوهای آینده، تیم بر پذیرش گسترده FeatUp در جامعه تحقیقاتی و فراتر از آن، مشابه شیوه‌های افزایش داده‌ها تاکید می‌کند. فو می‌گوید: «هدف این است که این روش را به ابزاری اساسی برای یادگیری عمیق تبدیل کنیم، مدل‌هایی را برای درک جهان با جزئیات بیشتر بدون ناکارآمدی محاسباتی پردازش با وضوح بالا سنتی غنی‌سازی کنیم».

نوآ اسنالی، استاد علوم کامپیوتر دانشگاه کرنل، که در این تحقیق شرکت نداشت، گفت: «FeatUp یک پیشرفت شگفت‌انگیز برای ساختن نمایش‌های بصری واقعاً مفید با تولید آنها در وضوح تصویر کامل است. «نمایش‌های بصری آموخته‌شده در چند سال گذشته واقعاً خوب شده‌اند، اما تقریباً همیشه با وضوح بسیار پایین تولید می‌شوند—شما می‌توانید یک عکس با وضوح کامل خوب قرار دهید و شبکه کوچکی از ویژگی‌ها را به اندازه یک تمبر پستی دریافت کنید. ” اگر می‌خواهید از این ویژگی‌ها در برنامه‌هایی که خروجی با وضوح کامل تولید می‌کنند، استفاده کنید، این یک مشکل است. FeatUp با ترکیب ایده‌های کلاسیک در وضوح فوق‌العاده با رویکردهای آموزشی مدرن، این مشکل را به روشی خلاقانه حل می‌کند و در نتیجه نقشه‌های ویژگی زیبا با وضوح بالا به دست می‌آید.

“ما امیدواریم این ایده ساده کاربرد گسترده ای داشته باشد. ویلیام تی فریمن، نویسنده ارشد، استاد مهندسی برق و علوم کامپیوتر MIT و یکی از اعضای CSAIL، گفت: این نسخه‌هایی با وضوح بالا از تجزیه و تحلیل تصویر را ارائه می‌کند که قبلاً فکر می‌کردیم تنها با وضوح پایین قابل انجام است.

نویسندگان اصلی فو و همیلتون توسط دانشجویان دکترای MIT، لورا برانت SM ’21 و اکسل فلدمن SM ’21، و همچنین Zhoutong Zhang SM ’21، PhD ’22، همه وابسته‌های فعلی یا سابق MIT CSAIL به آنها ملحق می‌شوند. تحقیقات آنها تا حدی توسط کمک هزینه تحصیلات تکمیلی بنیاد ملی علوم پشتیبانی شد، از بنیاد ملی علوم و دفتر مدیر اطلاعات ملی، آزمایشگاه تحقیقاتی نیروی هوایی ایالات متحده و شتاب دهنده هوش مصنوعی نیروی هوایی ایالات متحده. این گروه کار خود را در ماه مه در کنفرانس بین المللی ارائه آموزش ارائه خواهد کرد.



Source link