توضیحات
عنوان فارسی: شبکه عصبی Fast R-CNN
عنوان انگلیسی مقاله ترجمه شده:
Fast R-CNN Ross Girshick Microsoft Research
موضوع شبکه عصبی Fast R-CNN
این مقاله یک روش شبکه متداول شبکه سریع مبتنی بر منطقه (Fast R-CNN) برای تشخیص شیء ارائه می دهد. سریع R-CNN بر روی کار قبلی کار می کند تا به طور صحیح طبقه بندی پیشنهادات شیء با استفاده از شبکه های کانولاسیون عمیق. در مقایسه با کار قبلی، Fast R-CNN از چندین نوآوری برای بهبود آموزش و تست سرعت و همچنین افزایش دقت تشخیص استفاده می کند. Fast R-CNN شبکه بسیار عمیق VGG16 را 9 برابر سریعتر از R-CNN حمل می کند، در زمان آزمایش برابر 213 × سریعتر است و MAP بالاتر را در Pascal VOC 2012 به ارمغان می آورد. در مقایسه با SPPnet سریع R-CNN VGG16 3 × سریع تر ، تست 10 × سریعتر و دقیق تر است. Fast R-CNN در Python و C ++ (با استفاده از Caffe) اجرا می شود و تحت مجوز منبع باز MIT در دسترس است
معرفی
اخیرا، ConvNets عمیق [14، 16] به طور قابل توجهی بهبود کیفیت تصویر [14] و تشخیص شی [9، 19] دقت. در مقایسه با طبقه بندی تصویر، تشخیص ابعاد یک کار چالش برانگیز است که نیاز به حل روش های پیچیده تر دارد. با توجه به این پیچیدگی، رویکردهای فعلی (به عنوان مثال، [9، 11، 19، 25]) مدلهای قطار را در خطوط چند مرحلهای ترسیم می کنند که آهسته و غیرقابل پیش بینی هستند.
پیچیدگی به وجود می آید زیرا تشخیص نیاز به محلی سازی دقیق از اشیاء، ایجاد دو چالش اصلی است. اول، مکان های نامزد مورد نظر متعدد (اغلب به نام “پیشنهادات”) باید پردازش شود. دوم، این نامزدها فقط محلی سازی خشن را ارائه می دهند که باید برای دستیابی به مکانیزم دقیق آنها را اصلاح کرد. راه حل این مشکلات اغلب سرعت، دقت و سادگی را به خطر می اندازد.
در این مقاله، ما روند ساده ای را برای آشکارسازهای شیء مبتنی بر ConvNet [9، 11] طراحی می کنیم. ما یک الگوریتم آموزش تک مرحله ای را پیشنهاد می کنیم که به طور مشترک برای طبقه بندی پیشنهادات شیء و اصلاح مکان های مکانی آنها یاد می گیرد.
روش نتیجه می تواند یک شبکه تشخیص بسیار عمیق (VGG16 [20]) 9 × سریعتر از R-CNN [9] و 3 × سریعتر از SPPnet [11] آموزش دهد. در زمان اجرا، شبکه تشخیص پردازش تصاویر در 0.3s (با توجه به زمان پیشنهاد پیشنهاد جسمی) در حالی که دقت بالا در PASCAL VOC 2012 [7] با mAP 66٪ (در مقابل 62٪ برای R-CNN) پردازش می کند .
R-CNN و SPPnet
روش شبكه تلفیقی مبتنی بر منطقه (RCNN) [9] دقت تشخیص شیء عالی را با استفاده از ConvNet عمیق برای طبقه بندی پیشنهادات شیء به دست می آورد. R-CNN، با این حال، دارای معایبی قابل توجه است:
آموزش یک خط لوله چند مرحله ای است. R-CNN ابتدا یک ConvNet را در مورد پیشنهادهای شی با استفاده از ورود به سیستم حذف می کند. سپس، آن را متناسب با SVMs به ویژگی های ConvNet. این SVM ها به عنوان آشکارسازهای شی عمل می کنند و جایگزین طبقه بندی softmax می شود که توسط تنظیم دقیق یاد می شود. در مرحله سوم آموزش، رنجرهای محدود کننده جعبه یاد می گیرند.
آموزش در فضا و زمان گران است. برای SVM و آموزش regressor box-box، از هر پیشنهادی در هر تصویر استخراج شده و به دیسک نوشته می شود. با استفاده از شبکه های بسیار عمیق، مانند VGG16، این فرآیند، روزانه 2.5 GPU برای تصاویر 5K از مجموعه VVC07 در نظر گرفته می شود. این ویژگی ها نیاز به صدها گیگابایت حافظه دارد.
تشخیص شیء کم است. در زمان تست، از هر طرح پیشنهاد شده در هر تصویر آزمون، ویژگی های استخراج می شوند. تشخیص با VGG16 طول می کشد 47s / تصویر (بر روی یک گرافیک).
R-CNN آهسته است، زیرا برای پیشنهادی هر پیشنهادی ConvNet یک پیشفرض روبرو می کند، بدون به اشتراک گذاری محاسبات. شبکه های جمع آوری هرم فضایی (SPPnets) [11] برای به اشتراک گذاری محاسبات به سرعت R-CNN پیشنهاد شد. روش SPPnet یک نقشه ویژگی کانوولیت برای کل تصویر ورودی را محاسبه می کند و سپس هر پیشنهاد شی را با استفاده از یک بردار ویژگی استخراج شده از نقشه ویژگی های مشترک، طبقه بندی می کند. ویژگی ها برای پیشنهاد توسط حداکثر تعداد قسمت ویژگی نقشه در داخل پیشنهاد به یک خروجی ثابت اندازه گرفته شده (به عنوان مثال 6 × 6) استخراج می شوند. اندازه خروجی های چندگانه جمع شده و سپس به عنوان در جمع آوری هرم فضایی پیوند می شود [15]. SP-PNT در زمان آزمون، R-CNN را 10 تا 100 برابر شتاب می دهد. زمان آموزش نیز به دلیل افزایش سریع پیشنهادات، 3 برابر کاهش می یابد.
SPPnet نیز دارای اشکالات قابل توجه است. مانند R-CNN، آموزش یک خط لوله چند مرحله ای است که شامل استخراج ویژگی ها، تنظیم دقیق شبکه با خرابی ورودی، آموزش SVM ها و در نهایت اتصالات رگرسورهای جعبه محدود است. امکانات نیز به دیسک نوشته شده است. اما بر خلاف R-CNN، الگوریتم تنظیم کننده تنظیم شده در [11] نمیتواند لایههای کانولولوژیک قبل از جمعآوری هرم فضایی را به روز کند. ناگفته نماند، این محدودیت (لایه های ثابت کانوولیتی) دقت شبکه های بسیار عمیق را محدود می کند.
مشارکتها
ما یک الگوریتم آموزش جدید را پیشنهاد می دهیم که ضعف های R-CNN و SPPnet را بهبود می بخشد و سرعت و دقت آنها را بهبود می بخشد. ما این روش را سریع R-CNN می نامیم زیرا برای آموزش و تست نسبتا سریع است. روش RCNN سریع دارای مزایای متعددی است:
- کیفیت تشخیص بیشتر (mAP) از R-CNN، SPPnet
- آموزش یک مرحله ای است، با استفاده از یک وظیفه چند کاره
- آموزش می تواند تمامی لایه های شبکه را به روز رسانی کند
- ذخیره سازی دیسک برای ذخیره سازی ویژگی مورد نیاز نیست
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
نقد و بررسیها
هنوز بررسیای ثبت نشده است.