توضیحات
عنوان فارسی: کلان داده( داده های بزرگ)
- چکیده
- مقدمه
- هادوپ
- کارهای انجام گرفته در راستای هادوپ
- کارهای مرتبط در راستای کلانداده
- ارزیابی مساله classification درکلان داده
- تکنیک های داده کاوی برای کاوش دانش در مجموعه کلان داده
- نرم افزارها و تکنولوژیهای مدیریت دادههای بزرگ در محیط محاسبات ابری
- کلان داده: مرز بعدی برای نوآوری، رقابت و بهرهوری
- افراطی در دادههای اطلاعات فشرده محاسبات علمی
- تجزیه و تحلیل هوش کسب و کار از تاثیر زیاد دادههای بزرگ بر آن
- مروری بر چالشها و فرصت ها با استفاده از کلان دادهها
- مطالعه موردی در راستای آموزش بازنمایی دیدگاههای جدید داده
- بررسی و معرفی ابزارهای مورد استفاده در کلان داده
- ابزارهای تحلیل کلان داده مبتنی بر تحلیلهای
- نتیجه گیری
- منابع
چکیده
این واقعیتی درست است که کلان داده[1] توجه بسیاری از پژوهشگران، سیاستها و تصمیمگیرندگان دولتی و سازمانهای غیردولتی را به خود اختصاص داده است. دلیل این توجه زیاد این میباشد که حجم تولید اطلاعات بر طبق قانون Moor افزایش مییابد. میتوان گفت این سرعت بیش از انتظار میباشد و مشکلات زیادی را برای انسان فراهم کرده است. با این حال ارزشها و فواید زیادی در پردازش کلان داده وجود دارد. پارادایم تازهایی به نام علم کشف دادههای فشرده به ظهور پیوسته است که این پارادایم همچنین به عنوان علم کلان داده نیز شناخته میشود. این علم، تعداد زیادی از زمینهها و رشتهها را از اقتصاد و فعالیتهای اقتصادی گرفته تا ادارات امنیت ملی و همچنین تحقیقات علمی را در همه زمینهها را شامل میشود. از اینرو با توجه به اهمیت این حیطه در این تحقیق، به ارزیابی مسائل مربوط به کلان داده خواهیم پرداخت.
کلمات کلیدی: کلان داده، سیستمهای توزیعی، جایگذاری دادهها، هادوپ.
1- مقدمه
کلان داده یکی از مهمترین موضوعات تحقیقاتی در حال حاضر و آینده میباشد. در لیست موسسه گارتنر[2]، کلان داده به عنوان یکی از 10 فناوری برتر و یکی از 10 تکنیک حیاتی برای سالهای آتی بیان شده است. این منصفانه است که کلان داده را بله عنوان یکی از تاثیرگذارترین علوم بر دیگر علوم و زمینهها بنامیم. در حال حاضر دو تعریف مشهور از کلان داده وجود دارد که به Vs3 و Vs4 مشهور میباشند. در تعریف Doug Lancy که به Vs3 معروف میباشد سه پارامتر حجم، سرعت و تنوع مطرح میباشند. مفهوم حجم برای سایز مجموعه داده بکار میرود و مفهوم سرعت به معنای سرعت ورود دادههای ورودی و خروجی میباشد و در نهایت مفهوم تنوع توصیف کننده نوع مختلف دادهها و منابع میباشد. در تعریف بعدی یعنی Vs4 به موارد گفته شده در تعریف قبلی مجازی سازی و یا ارزش را نیز میتوان اضافه نمود. کلان داده یک مجموعه بزرگی از مجموعه دادههای خیلی بزرگ و با تنوع بسیار زیاد میباشد. ویژگی این مجموعه دادهها به نحوی است که پر دازش آنها از عهده پردازشگرها و بسترهای معمولی خارج میباشد. با توجه به قوانین مختلفی که برای رشد دادهها وجود دارد( به عنوان مثال شبکههای حسگر، تلسکوپها و آزمایشات علمی) مشاهده میشود که نرخ رشد دادههای علمی به صورت نمایی رو به افزایش میباشند که این رشد فراینده در شکل 1 نشان داده شده است]7[.
شکل1: سرعت رشد دادهها از سرعت پردازش دادهها بیشتر میباشد]7[
تکنیکها و تکنولوژیهایی که هماکنون وجود دارند را نمیتوانیم به منظور ذخیره و تحلیل کلانداده به صورت بهینه استفاده کنیم. از جمله مشکلاتی که هماکنون با آنها مواجه میباشیم عبارتند از مواردی نظیر نحوه بدست آوردن کلان داده، دقت در تحلیل و مجازی سازی دادهها میباشند. در بسیاری از موارد، علم و دانش در حجم زیادی از دانشها ذخیره شده است و میتوانیم در صورتی که تحلیلی مناسب از آن حجم عظیم از دادهها داشته باشیم، آن پتانسیل بلقوه را به پتانسیلی بالفعل تبدیل نمائیم. بر این اساس نیازمند تکنیکها و تکنولوژیهای جدیدی به منظور کاووش در کلان داده و استفاده از مزیتهای کلان داده برای هدفهای خاص، میباشیم. کلان داده راه و روش ما را در زمینه کسب و کار، مدیریت و تحقیقات تغییر خواهد داد. علومی همچون علم کلان داده و به خصوص محاسبات کلان داده، در حال ظهور میباشند که هدف آن مدیریت این دادههای کلان میباشند. علم کلان داده در حال ظهور به عنوان چهارمین پارادایم علمی، بعد از علومی نظیر علوم محاسباتی، علوم تجربی و علوم نظری میباشد]7[.
2- هادوپ[3]
هادوپ يك پروژه مبتني بر برنامه نويسي متن باز است كه توسط سازمان نرم افزاري آپاچي ايجاد شده است. ايده اوليه هادوپ اولين بار در شركت گوگل رقم خورد اما خيليها باور به پياده سازي اين سيستم نداشتند و در چند سال اول اين ايده تنها بصورت تئوري مطرح بود. هادوپ امكان ذخيره سازي اطلاعات را در چندين سرویسدهنده (شخصی) با هزينهاي پايين فراهم ميآورد. كلودرا شركتي است كه بصورت فعال در اين زمينه فعال ميباشد و بسته نرم افزاري بينظير هادوپ را ايجاد كرده و آن را انتشار داده و پشتيباني ميكند.
تكنولوژي هادوپ از دو بخش كلي اچ دي اف اس يا سيستم فايل انتشاري هادوپ[4] و همچنين تكنيك با كيفيت پردازي اطلاعات به نام مپريديوس[5] استفاده ميكند]9[.
ساختار كلي اطلاعاتي در هادوپ بدينگونه ميباشد كه اطلاعات توسط سيستم هادوپ شكسته شده و به چندين سرویسدهنده فرستاده ميشود، سرویسدهندهها بسته به نوع اطلاعات كه ممكن است پردازشي يا ذخيرهاي باشد اطلاعات را پردازش يا ذخيره سازي ميكنند. در هنگام در خواست اطلاعات مجدد سيستم اطلاعات را از سرویسدهندههای مختلف گرفته، مونتاژ كرده و در خروجي نمايش ميدهد. خوبي اين سيستم تهيه نسخه پشتيبان از اطلاعات بصورت خودكار است. هر تكه از اطلاعات در چندين قسمت (سرویسدهنده) ذخيره ميشود و در صورت آسيب ديدن يكي از سرویسدهندهها، سرویسدهندهی ديگر قادر است مسؤوليت را بر عهده گرفته و اطلاعات مورد نظر را جايگزين كند. اکثر کمپانیهای بزرگ دنیا از قبیل AOL،Facebook ،Yahoo،IBM و غیره. از این تکنولوژی استفاده میکنند. برای مثال شرکت یاهو با بیش از ۱۰۰،۰۰۰ هستهی CPU در بیش از ۴۰،۰۰۰ سرویسدهنده بزرگترین مجری سیستم هادوپ در دنیا محسوب میشود. بزرگترین کلاستر (Cluster) این شرکت شامل ۴۵۰۰ سرویسدهنده میباشد که هر کدام دارای ۲ پردازشگر ۴ هستهای، ۴ هارد دیسک ۱ ترابایتی و ۱۶ گیگابایت حافظهی رم میباشند
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش تحقیق مرتبط با رشته تخصصی خود بر روی کلید زیر کلیک نمایید.
سفارش تحقیق
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.