توضیحات
عنوان فارسی: مقایسه تجربی الگوریتم های دسته بندی برای رتبه بندی اعتباری دسته داده های غیر متعادل
عنوان انگلیسی:
An experimental comparison of classification algorithms for imbalanced credit scoring data sets
مقدمه:
در این مقاله، چندین مقاله را که میتواندد در آنالیز و رتبه بدی اعتباری دسته های غیر متعادل به کار بروند را مقایسه کرده ایم.در زمینه رتبه بندی اعتباری ،دسته های داده های نامتعادل به اغلب اتفاق میافتد هنگامیکه تعداد وام های موعد مقرر خیلی کمتر از مشاهدات غیر موعد مقرر باشند.در این مقاله علاوه بر تکنیک های دسته بندی متداول مانند رگرسیون لاجستیک ،شبکه های عصبی و درخت های تصمیم گیری از روش های شیب افزایشی ،بردارهای ماشین پشتیبانی حداقل مربع و جنگل تصادفی برای تعیین پیش گویی موعد مقرر وام استفاده شده است.
در دنیای واقعی از 5 رتبه بندی داده برای ساخت طبقه بندی کننده ها و عملکرد آنها استفاده میشود .ما در این مقاله تعداد عدم تعادل کلاس را در هر کدام از این دسته های داده با نمونه گیری تصادفی از کلاس های اقلیت پیش فرض افزایش میدهیم و بنابراین تعیین میکنیم که کدام یک از این ها بر پیش گویی تکنیک ها اثر میگذارد.معیار انتخاب برای اندازه گیری این اثر ،ناحیه زیر منحنی مشخصات کاری گیرنده (AUC) است ،آمار و آزمایشات پست هاک برای آزمایش اهمیت تفاوت AUC بین تکنیک ها استفاده شد.
نتایج این مطالعات تجربی به خوبی نشان میدهد که طبقه بندی کننده های جنگل انتخابی و شیب افزایشی در زمینه رتبه بندی اعتباری به خوبی عمل میکنند و قادر هستند با عدم تعادل بین داده ها به خوبی کنار بیایند. ما همچنین دریافتیم که هنگامیکه با یک عدم تعدل بزرگ در کلاس مواجه میشویم الگوریتم درخت تصمیم گیری و آنالیز تفکیک درجه دوم و همسایگی K به طور قابل توجهی بدتر از بهترین طبقه بندی کننده ها عمل میکنند.
معرفی
هدف رتبه بندی اعتباری ضرورتا طبقه بندی عملیات وام به داخل کلاس ها است ، پرداخت کنندگان خوب ( آنهایی که موعد بازپرداخت خود را طولانی نمیکنند ) و بازیگران بد آنهایی هستند که ممکن است درباز پرداخت وام غفلت کنند. با وجود مشتری ها ی مالی موجود ، دانشگاههای مالی مشوق انتخاب و پیاده سازی تکنیک های رتبه بندی اعتباری مناسب برای اوراق بهادار اعتباری هستند. در بیان شد که اگر حتی یک کسیری از بهبود در وضوح تکنیک های رتبه بندی اعتباری پیاده سازی شده ایجاد بشود ، کمپانی ها میتونند صرفه جویی بزرگتری را انجام دهند. در هر حال در مقاله ها ی اوراق بهادار موعد مقرر (LDP) کمتر به این موضوع پرداخته شده است که کدام تکنیک برای رتبه بندی آنها مناسب تر است.مساله مورد بررسی ما در زمینه LDP ها این است که آنها شامل تعداد مشاهدات کمی در کلاس های موعد مقرر نسبت به آنهایی که به خوبی پرداخت میشوند،هستند.بنابراین عدم تعادل بزرگی در کلا سوجود دارد که ممکن است بعضی از تکنیک ها نتواند در آن به صورت موفقیت امیزی عمل کنند.
مثال های خاص از اوراق بهادار موعد مقرر شامل وام دهندگان شرکت های با کیفیت بالا ،بانک ها و بعضی از دسته های وام گیرندگان هستند .در انتشارات اخیر FSA در تقریب اوراق بهادار با موعد مقررکم این نگرانی وجود دارد که آیا شرکت ها میتوانند خطر های LDP را ارزیابی کنند یا نه .
در مقالات رتبه بندی اعتباری محدوده وسیعی از تکنیک های دسته بندی ارائه شده است مانند تکنیک های آماری تفکیک خطی و رگرسیون لاجستیک و مدل های غیر پارامتری و K- نزدیک ترین همسایه و درخت های تصمیم گیری.ما دقیقا معلوم نیست که کدام یک از این تکنیک ها بیشتر برای بهبود تفکیک های LDP مناسب است.جدول 1- بخشی از تکنیک های ارائه شده در زمینه رتبه بندی اعتباری را نشان میدهد.
بنابراین هدف این مقاله پرداختن به تکنیک های دسته بندی مختلف بر اساس 5 دسته داده رتبه بندی اعتباری دنیای واقعی است.اندازه این دسته داده ها برابر اندازه کلاس اقلیت آنها خواهد بود.
توجه:
- برای دانلود فایل word کامل ترجمه لطفا اقدام به خرید فرمایید.
- پس از خرید بلافاصله لینک دانلود فایل برای شما ایمیل خواهد شد.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.