توضیحات
فهرست
داده کاوی …………………………………………………………………………………………………….2
تاریخچه داده کاوی ……………………………………………………………………………………….3
دلایل بهره گیری از داده کاوی …………………………………………………………………………….3
انواع منابع داده …………………………………………………………………………………………..4
فرآیند داده کاوی …………………………………………………………………………………………6
مزایا و معایب داده کاوی ………………………………………………………………………………….8
کاربرد های داده کاوی ……………………………………………………………………………………9
بررسی رابطه داده کاوی و وب کاوی ………………………………………………………………………….13
وب کاوی …………………………………………………………………………………………………….16
مقدمه ………………………………………………………………………………………………….16
وب کاوی چیست ……………………………………………………………………………………….21
مفاهیم وب کاوی ………………………………………………………………………………………22
منابع ………………………………………………………………………………………………………..83
داده کاوی
با پیشرفت علم و بخصوص فناوری اطلاعات در سال های اخیر حجم وسیعی از اطلاعات بوجود آمد و پایگاه داده های عظیمی از قبل این اطلاعات بوجود آمد و انسان و سیستم هایی که از این اطلاعات بهره میبرند شاهد یک رشد انفجاری در تولید داده (Data) و ظرفیتهای گردآوری و ذخیرهسازی آن در دامنههای گوناگون بوده است .
از جمله دادههای علمی میتوان به پروژه «ژنوم انسان (Human Genome) اشاره کرد که چندین گیگابایت داده را از کد ژنتیکی انسان تجمیع کرده است. وب جهان گستر World Wide Web مثال دیگری از منابع داده است که میلیاردها صفحه وب شامل اطلاعات متنی و چند رسانهای را دربرمیگیرد. این صفحات توسط میلیونها نفر بازدید میشوند. در چنین شرایطی، تحلیل بدنه بزرگ دادهها به شکل قابل درک و کاربردی، یک مساله چالش برانگیز است. این مسئله با موضوعی به نام داده کاوی (Data Mining) که با فراهم کردن روشها و نرمافزارهایی برای خودکارسازی تحلیلها و اکتشاف مجموعه دادههای بزرگ و پیچیده میباشد قابل حل شد .
داده کاوی چیست؟
به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود.
دلایل پیرامون مبدل شدن دادهکاوی به یک حوزه مهم از مطالعات :
۱. رشد انفجاری دادهها در گستره وسیعی از زمینهها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی میشود:
- دستگاههای ذخیرهسازی نسبت به گذشته ارزانتر و با ظرفیت نامحدود، مانند فضاهای ذخیرهسازی ابری
- ارتباطات سریعتر با سرعت اتصال بیشتر
- سیستمهای مدیریت پایگاه داده و پشتیبانی نرمافزاری بهتر
۲. قدرت پردازش کامپیوتری به سرعت در حال افزایش
تاریخچه دادهکاوی
در سال ۱۹۶۰، کارشناسان آمار از اصطلاحات صید داده (Data Fishing) و لایروبی داده (Data Dredging) برای ارجاع به فعالیتهای تحلیل داده (Data Analytics) استفاده میکردند. اصطلاح «دادهکاوی» در حدود سال ۱۹۹۰ در جامعه پایگاهداده مورد استفاده قرار گرفت و به محبوبیت قابل توجهی دست پیدا کرد. عنوان مناسبتر برای فرآیند دادهکاوی، کشف دانش از داده (Knowledge Discovery From Data) است.
از روشهای دادهکاوی در فرآیند طویل پژوهش و توسعه محصول استفاده میشود. از همین رو، تکامل دادهکاوی نیز از هنگامی آغاز شد که دادههای کسبوکارها روی کامپیوترها ذخیره شدند. دادهکاوی به کاربران امکان حرکت در میان دادهها را در زمان واقعی میدهد. از دادهکاوی در جامعه کسبوکار بدین دلیل استفاده میشود که از سه فناوری بلوغ یافته استفاده میکند، این فناوریها عبارتند از:
- گردآوری داده انبوه
- کامپیوترهای چند پردازندهای قدرتمند
- الگوریتمهای دادهکاوی
دلایل بهره گیری از دادهکاوی؟
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد.
بنابراین، بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماریها، کشف کلاهبرداری و پیشبینی قیمت سهام استفاده میکند در ادامه، برخی از استفادههای دادهکاوی مورد بررسی قرار گرفتهاند.
پیشبینی خودکار گرایشها و رفتارها
از دادهکاوی برای خودکارسازی فرآیندها و انجام پیشبینی در پایگاهدادههای بزرگ استفاده میشود. پرسشهایی که پاسخگویی به آنها نیازمند تحلیلهای گسترده است، اکنون و با استفاده از تحلیل دادهها قابل پاسخگویی هستند. بازاریابی هدفمند مثالی از بازاریابی پیشبین است. همچنین، از دادهکاوی برای ارسال ایمیلهای تبلیغاتی هدفمند و بهینه استفاده میشود. در واقع، دادهکاوی به منظور بیشینهسازی بازگشت سرمایه (Return On Investment) در ارسال ایمیلهای تبلیغاتی مورد استفاده قرار میگیرد. از دیگر مسائل پیشبینی میتوان به پیشبینی ورشکستگی، اشاره کرد. شناسایی بخشهایی از جامعه که احتمال دارد به یک رویداد واکنشهای مشابهی نشان دهند نیز از دیگر قابلیتهای دادهکاوی به شمار میآید.
کشف خودکار الگوهای پیشتر ناشناخته
از ابزارهای دادهکاوی برای بررسی پایگاههای داده استفاده میشود. همچنین، برای شناسایی الگوهای از پیش ناشناخته نیز قابل بهرهبرداری است. یک مثال خیلی خوب از کاوش الگوها، تحلیل دادههای فروش خردهفروشیها است. این کار با هدف شناسایی محصولات غیر مرتبطی که معمولا با هم خریداری میشوند انجام میشود. همچنین، مسائل کاوش الگوی دیگری نیز وجود دارند که از جمله آنها میتوان به شناسایی تراکنشهای کلاهبرداری در کارتهای اعتباری اشاره کرد. در چنین مواردی، الگوهای داده ناشناخته و جدید، میتوانند خبر از وقوع سرقت اطلاعات کارت اعتباری و دیگر انواع کلاهبرداری بدهند.
بررسی الگوریتم Page Rank از الگوریتم های روش کاوش ساختار وب از روش های وب کاوی و نمایش نمونه کد آن در زبان C#.net و بررسی روش بهبود آن :
سال 1998 سال مهمی برای تجزیه و تحلیل لینک وب و جستجوی وب بود. هر دو الگوریتم PageRank و HITS در آن سال گزارش شده اند. HITS توسط Jon Kleinberg در ژانویه ، 1998 در نهمین سالانه ACM-SIAM Symposiumon گسسته الگوریتم ها ارائه شد. PageRank توسط سرگئی برین و لری پیج در هفتمین کنفرانس بین المللی شبکه جهانی وب (WWW7) در آوریل 1998 ارائه شد. براساس الگوریتم ، آنها موتور جستجوی گوگل را ساختند. ایده های اصلی PageRank و HITS واقعاً کاملاً شبیه به هم هستند. با این حال ، این عدم شباهت آنها است که تفاوت بزرگی ایجاد کرده است ، همانطور که بعدا خواهیم دید. از آن سال ، PageRank بعنوان مدل تجزیه و تحلیل پیوند مسلط برای جستجوی وب ظاهر شده است ، بخشی از این امر به دلیل ارزیابی مستقل از کوئری صفحات وب و توانایی آن در مبارزه با هرزنامه است ، و بخشی دیگر به دلیل موفقیت در تجارت Google در این بخش ، ما روی PageRank تمرکز می کنیم. در بخش بعدی. PageRank با استفاده از ساختار پیوند گسترده آن به عنوان شاخص کیفیت یک صفحه ، به ماهیت دموکراتیک وب متکی است. در واقع ، PageRank یک پیوند از صفحه x به صفحه y را به عنوان یک رأی ، توسط صفحه x ، برای صفحه y تفسیر می کند. با این حال ، PageRank بیش از تعداد آرا یا پیوندهای دریافتی یک صفحه را بررسی می کند. همچنین صفحه ای را که رأی می دهد تجزیه و تحلیل می کند. رأی داده شده توسط صفحاتی که خود “مهم” هستند وزن بیشتری دارند و به “مهمتر” شدن صفحات دیگر کمک می کنند. این دقیقاً ایده اعتبار منزلت در شبکه های اجتماعی است .
1-8)- الگوریتم Page Rank :
PageRank یک رتبه بندی ثابت از صفحات وب است به این معنی که مقدار PageRank برای هر صفحه خارج از خط محاسبه می شود و این به درخواست جستجو بستگی ندارد. از آنجا که PageRank بر اساس میزان اعتبار در شبکه های اجتماعی بنا شده است ، می توان مقدار PageRank هر صفحه را اعتبار آن دانست. اکنون فرمول PageRank را استخراج کرده ایم. بگذارید ابتدا برخی مفاهیم اصلی را دوباره در متن وب بیان کنیم.
- فایلهای پروژه به صورت کامل پس از خرید فایل بلافاصله در اختیار شما قرار خواهد گرفت.
سفارش پروژه سی شارپ
درصورتیکه این پروژه دقیقا مطابق خواسته شما نمی باشد، با کلیک بر روی کلید زیر پروژه دلخواه خود را سفارش دهید.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.