توضیحات
عنوان: هادوپ
- مقدمه
- آمار از داده ها
- هادوپ چیست
- آنچه که HADOOP ارائه می دهد
- تکنولوژی در هادوپ
- مفاهیم و طراحی HDFS
- مفاهیم و معماری MAP/REDUCE
کشف داده های حجیم - سیستم HPCC و تفاوت ان با HADOOP
- امنیت در HADOOP
- APACHE TEZ
- مفهوم و نسخه YARN
- نیازها در نصب
- منابع
مقدمه
تاریخچه big data
گرچه واژه big data یا داده های کلان نسبتا جدید است عمل جمع آوری مقادیر عظیم داده ها یا اطلاعات برای تحلیل های احتمالی قدمت زیادی دارد. گرچه به نظر می رسد منظور از داده های کلان فقط مقادیر عظیم داده باشد ولی big data به داده هایی اشاره دارد که علاوه بر مقدار، سرعت و تنوع فوق العاده زیادی دارد.
این مفهوم در اوایل دهه ۲۰۰۰ میلادی پدیدار شد یعنی زمانی که Doug Laney تعریف فعلی big data را با سه مشخصه زیر ارائه کرد:
- : variety تنوع یا گوناگونی
- : volumeحجم
- velocity :سرعت
: Volume مقدار ، حجم
مقدار داده ها به این واقعیت اشاره دارد که در حال تولید مقدار زیادی از این داده ها هستیم و این مقدار تولید با گذشت زمان زیادتر هم می شود. برای مثال گوشی های هوشمند دربردارنده تعدادی سنسور هستند. این سنسورها داده هایی را تولید می کنند که می توان از آنها در تحلیل استفاده کرد، به عنوان نمونه می توان سنسور GPS موبایل را مثال زد. با افزایش تعداد، پیچیدگی و استفاده از گوشیهای هوشمند مقدار داده هایی هم که تولید می کنند بیشتر می شود. سازمان ها داده ها را از منابع متعددی شامل تراکنشهای کاری، رسانه های اجتماعی و اطلاعاتی از سنسورها یا داده های ماشین به ماشین (M2M) جمع آوری می کنند. در گذشته ذخیره سازی مسئله ساز بود ولی فناوریهای جدید مانند هدوپ (Hadoop) این مشکل را حل کرده اند.
Velocity سرعت
سرعت به این معنی است که در داده های کلان، داده ها به سرعت تغییر می کنند. مثلا اطلاعات موقعیت کاربر که از گوشی هوشمند او بدست می آید به سرعت تغییر می کند. وضعیتی را در نظر بگیرید که می خواهید پیشنهاد خاصی را در خیابان خاصی به کاربر بدهید، اطلاعات موقعیت در عرض چند دقیقه یا ثانیه قدیمی و بلا استفاده می شود اگر نتوانید در موقعیت درست پیشنهاد را به مشتری بدهید نتوانسته اید از داده هایتان استفاده کنید. احتمالا حالا بهتر معنی سرعت در big data و اهمیت آن را متوجه شدید. داده ها با سرعت پیش بینی نشده تولید می شوند و باید به صورت زمانبندی شده از آن استفاده کرد. حجم زیاد داده های حاصل از تگ های [1] RFID و سنسورهای اندازه گیری هوشمند نشان می دهد که با سیلی از داده ها سروکار داریم و باید به صورت مناسبی آنها را پردازش و استفاده کنیم.
Variety تنوع
در داده های کلان، داده ها به فرمتهای مختلف و گوناگون وجود دارند. مثلا داده های ساخت یافته، داده های عددی، اسناد متنی بدون ساختار، ایمیل، ویدیو، داده های صوتی و تراکنشهای مالی در این داده ها جای دارند.
بعضی از منابع علاوه بر سه مورد فوق می توان سه بعد دیگر را برای big data در نظر گرفته اند: انجام تحقیق
Variability تغییر پذیری
علاوه بر سرعت و تنوع در حال افزایش داده ها، جزیان های داده ها می تواند بسیار ناپایدار و دارای پیکهای (اوج) دوره ای باشد. مدیریت بار داده های روزانه، فصلی و یکباره مشکل است. این مشکل وقتی بیشتر خودش را نشان می دهد که داده های غیرساخت یافته هم داشته باشیم.
[1] RFID مخفف سه واژه Radio Frequency Identification به معنای “تشخیص با استفاده از فرکانس رادیویی” است
توجه:
برای دانلود فایل کامل ورد لطفا اقدام به خرید نمایید.
لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش تحقیق مرتبط با رشته تخصصی خود بر روی کلید زیر کلیک نمایید.
سفارش تحقیق
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.