توضیحات
پروژه آموزشی پروژه کلاسبندی داده ترافیک دستگاههای اینترنت اشیاء در متلب
گزارش پروژه کلاسبندی
چکیده: در این پروژه داده های مربوط به ترافیک دستگاههای اینترنت اشیاء که به دو گروه کلی داده های نرمال و غیرنرمال تقسیم میشوند، توسط دو روش KNN و درخت تصمیم گیری کلاسبندی میشوند. البته تعداد کلاسها شامل زیرکلاسهای غیرنرمال 5گانه نیز میشود که با کلاس نرمال شامل 6 کلاس کلی میشود. با استفاده از آموزش و تست روشهای کلاسبندی گفته شده، پارامترهای لازم برای تحلیل عملکرد هر کلاسبند محاسبه شده و در پایان با یکدیگر مقایسه میشوند.
مقدمه:
در علم داده کاوی به منظور استخراج اطلاعات مفید از داده های عظیم که در اختیار تحلیلگران داده قرار میگیرد، از روشهای مختلف یادگیری ماشین برای کلاسبندی و دسته بندی آنها استفاده میشود. روشهای کلاسبندی که درگروه روشهای باناظر یادگیری ماشین قرار میگیرند، از طریق داده های آموزشی تحت آ»وزش قرار گرفته و پارامترهای خود را در جهت بهترین پیش بینی ممکن از کلاس داده ورودی تنظیم میکنند. در مرحله تست، داده ورودی بدون برچسب کلاس خروجی، به سیستم پیشگو داده شده و بر اساس تنظمیات قبلی، کلاس داده را محاسبه میکند. البته زمانیکه تنها کلاس گسسته خروجی لازم است با کلاسبندی مواجه هستیم و درحالتی که خروجی خود به صورت یک تابع پیوسته از ورودی (ورودیها) است با مساله رگرسیون. در اینجا هدف مطالعه روشهای کلاسبندی برای پیش بینی کلاس داده ورودی است که به تعداد محدودی و به صورت گسسته میباشد.
برای کلاسبندی روشهای مختلف زیادی همچون k همسایه نزدیک[1]، ماشین بردار پشتیبان[2]، شبکه های عصبی و درختهای تصمیم گیری[3]، روشهای مبتنی بر قواعد خاص و روشهای بیزین و غیره وجود دارد که هر کدام از الگوریتم و ساختار مختص خود برای فرآیند آموزش و تست استفاده میکنند. دو روش استفاده شده در این پروژه، روشهای kهمسایه نزدیک و درخت تصمیم گیری است که در عین سادگی، قدرت بالایی در تفکیک مناسب شاخصها در کلاسهای مختلف دارند. در نهایت نیز عملکرد آنها با محاسبه دقت کلی و پارامترهایی همچون ماتریس درهمریختگی[4]، دقت[5]، ویژگی[6] و حساسیت[7] مقایسه میشوند.
روشهای کلاسبندی
روش Kهمسایه نزدیک
یک روش غیرپارامتری است که برای کلاسبندی و رگرسیون قابل استفاده است. یکی از روشهای ساده یادگیری ماشین است که مدل یادگیری ساده ای دارد. ایده اصلی در آن جستجو در میان k همسایه نزدیک هر نقطه برای یافتن نقاط مشابه و محاسبه خروجی مربوطه با توجه به آنها است. معمولا تعداد همسایه ها عدد فرد در نظر گرفته میشود. مزیت اصلی این روش سادگی مدل یادگیری ماشین و تعداد کم پارامترها جهت تنظیم است.
عمده عیب این روش انتخاب درست و مناسب K و هزینه محاسباتی بالا برای داده های بزرگ است.
دو پارامتر اصلی این روش تعداد همسایه ها k و تابع فاصله جهت معیار تشابه نقاط اطراف است که معمولا فاصله اقلیدسی استفاده میشود. البته روشهای دیگری همچون فاصله منهتن، همینگ و مینکوفسکی هم قابل استفاده است.
روش درخت تصمیم گیری
روش درخت تصمیم گیری نیز برای کلاسبندی و رگرسیون قابل استفاده است. بر اساس یک ساختار سلسله مراتبی، از نقطه مشخصی تحت عنوان ریشه، داده ها به صورت جفتی به کلاسهای دوگانه مجزا تقسیم بندی شده و این حرکت با تکرار در گره های بعدی یک درخت را تشکیل میدهد تا درنهایت به برگهای انتهایی درخت میرسد. این درخت از متغیرهای مستقل از هم نشات میگیرد که هر نقطه آن شرطی را روی شاخصها تعیین میکند. در طول حرکت از نقاط تا رسیدن به برگ انتهایی مجموعه ای از شروط طی شده منجر به انتخاب یک کلاس مشخص میشود. یک روش بازگشتی و حریص معمولا برای ساختن درخت تصمیم گیری استفاده میشود.
از مزایای این روش میتوان به عدم نیاز به پیش پردازش داده ها یا شاخصها، عدم نیاز به پیش فرض توزیع داده ها و توانایی توضیح در مورد نتایج پیش بینی کلاسها اشاره کرد. عیب این روش نیز حساسیت نسبت به نقاط خارج از عرف (outlier)، رشد بیش از حد به ساختارهای خیلی پیچیده و در نتیجه پدیده تطبیق بیش از حد یا overfitting است. پارامترهای مهم در این روش شامل تابع هزینه برای انتخاب شاخه های درخت، عمق حداکثر درخت، حداقل تعداد نقاط مورد نیاز برای جداسازی نقاط داخلی و حداقل تعداد نقاط در برگهای انتهایی درخت میشود.
[1] KNN
[2] SVM
[3] DECISION TREE
[4] Confusion matrix
[5] precision
[6] specificity
[7] sensitivity
دانلود رایگان دیتاست
مقدار دقت به تفکیک کلاسها
روش |
کلاس 1 |
کلاس 2 |
کلاس 3 |
کلاس 4 |
کلاس 5 |
کلاس 6 |
KNN, K=5 |
0.9877 |
0.9466 |
0.9024 |
0.9854 |
1 |
0.9928 |
KNN, K=7 |
0.9895 |
0.9438 |
0.9074 |
0.9825 |
1 |
0.9928 |
Decision Tree with all combinations |
0.9986 |
0.9927 |
0.9923 |
1 |
0.9988 |
0.9993 |
Decision Tree with PCA |
0.9986 |
0.9927 |
0.9923 |
1 |
0.9988 |
0.9993 |
پروژه آموزشی پروژه کلاسبندی داده ترافیک دستگاههای اینترنت اشیاء در متلب توسط کارشناسان گروه ۱.۲.۳ پروژه پیاده سازی گردیده است .
- فایلهای پروژه آموزشی به صورت کامل پس از خرید فایل بلافاصله در اختیار شما قرار خواهد گرفت.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.