توضیحات
عنوان فارسی: پردازش پرسوجوی twig از XML توزیع شده با استفاده از نگاشت کاهش
عنوان انگلیسی مقاله:
Distributed XML Twig Query Processing Using MapReduce
چکیده:
پردازش پرسوجوی شاخه یکی از عملیات اصلی پرسوجوی XML است. الگوریتم جامع twig متمرکز بر تلفات بهره وری بزرگ زمانی که اسناد XML در مقیاس بزرگ تقسیم شده و در ابر ذخیره شوند کار میکند. کار قبلی در پردازش پرسوجوی شاخه ای توزیع شده چند محدودیت داشت. برای مثال وابستگی مطلق الگوهای پرسوجو تکرار کار نگاشت کاهش و غیره.. در این مقاله تقسیم بندی XML دلخواه ما و استراتژی ذخیره سازی نیاز به هیچ دانشی از الگوی پرسوجو ندارد. پرسوجوهای شاخه ای می توانند در یک کار نگاشت کاهش تک دور با مقیاس پذیری خوب پردازش تهیه شوند. آزمایش های گسترده برای تایید کارایی و مقیاس پذیری الگوریتم های ما انجام شده است.
معرفی
مدیریت دادهی مقیاس پذیر در زمینه دادههای بزرگ به عنوان مرز تحقیقاتی جدید ظهور کرده است.[6] به عنوان یک دادهی نیمه ساختارمند XML به یک فرمت استاندارد برای ذخیره سازی دادهها و تبادل تبدیل شده است. رشد سریع مقیاس داده XML درخواست های پردازش پرسوجوی XML را افزایش میدهد.
برای جلوگیری از تعداد زیادی از نتایج ساختار ملحق [1] الگوریتم جامع twig با بهره گیری از جریان گره و پشته ی زنجیره ای برای تحقق بخشیدن به بررسی اینکه آیا هرگره ی همسان به نتایج نهایی کمک میکند یا نه میپردازد. بنابراین تمام گرههایی که در پشته ی مربوطه قرار می گیرند می توانند تضمین کنند که بخشی از راه حل می باشند.
Twigstack زمانی که الگوی آن شامل رابطه ی فقط جد-نسل باشد بهینه عمل خواهد کرد. رهبر کار را برای عملکرد بهتر پردازش جستجو پیگیری میکند و نشان میدهد که الگوریتم های جامع twig کارآمدترین روش های پردازش برای پرسوجوهای twig هستند.
درحال حاضر محاسبات ابری فن آوری عمده برای پردازش در مقیاس بزرگ دادهها می باشند. از آنجا که الگوریتم های جامع twig نمی توانند مستقیما به تنظیمات مشترک توزیع شده اعمال شوند به خصوص در محیط ابر بنابراین دو چالش وظایف وجود دارد که باید به آن ها پرداخت: ۱) پارتیشن و ذخیره سازی استراتژی های دادههای XML در مقیاس بزرگ بر روی ماشین های بدون اشتراک و ۲) نمونه های کامپیوتر محلی موازی در هر دستگاه جدا.
این مقاله بر پردازش پرسوجوی twig توزیع شده در مواردی که دادههای XML با مقیاس بزرگ تحت مکانیزم چارچوب محاسبات ابری مانند هادوپ تقسیم و ذخیره شده اند تمرکز دارد. بنابراین استراتژی ذخیره سازی XML توزیع شده ی ما تضمین میکند که پارتیشن دلخواه بدون هیچ گونه دانش پرسوجوی وارد شده صورت میگیرد. TwigStack توزیع شده (DTS) براساس TwigStack و MapReduce ارایه شده است که عملیات پردازش صرف نظر از اینکه چگونه دادههای XML تقسیم میشوند نمایش داده میشود. چارچوب ComMapReduce با یک هماهنگ کننده که کلیدهای جهانی را به روشی سبک وزن تصحیح میکند استفاده شده است. به طور خلاصه بخشهای این مقاله به شرح زیر است:
- استراتژی ذخیره سازی XML توزیع شده برای حفظ اطلاعات ساختاری، بدون آگاهی از نمایش داده شد ورودی طراحی شده است.
- الگوریتم پردازش پرسوجوی twig توزیع شده براساس TwigStack ارایه شده است صرف نظر از اینکه داه های XML چگونه تقسیم میشوند.
- آزمایش های گسترده به منظور بررسی اثر بخشی و کارایی انجام ا الگوریتم ارائه شده است.
بقیه مقاله به شرح زیر است. بخش ۲ کارهای مرتبط را ارایه میکند.بخش ۳ به استراتژی پارتیشن بندی که براساس الگوریتم جامع twig توزیع شده در بخش ۴ پیشنهاد شده میپردازد. نتایج تجربی در بخش ۵ ارایه شده است ودر بخش ۶ نتیجه گیری مقاله آورده شده است.
- کارهای مرتبط
MapReduce [8]، توانایی محاسباتی موازی قدرتمندی را با قابلیت مقیاس پذیری بالا مشخص میکند که شامل 3 بخش اعظم محاسباتی است: 1) نگارش (map) دستهای از دادهی ورودی را در هر زمان دریافت میکند و آن را به داخل یک لیست از زوج <key, value> پردازش میکند؛ 2) هر گروه از مقادیر متناظر را به کلید مشابه در <key, list<value>>; به صورت راندوم ترکیب میکند. 3) مجموع همهی مقادیر از هر کلید را برای تولید نتایج نهایی کاهش میدهد. Machdi et al. در ]13[ استراتژیهای تقسیم داده XML را بر اساس GMX مد نظر قرار داد ]12[، که از ویژگی هر دوی موازی سازی داخلی و درونی بر حسب توزیع استاتیک و دینامیک داده بهره میبرد. Wu در ]15[ یک الگوریتم توزیع بار کاری بر اساس پلی نومینال را پیشنهاد کرد. معکوس برچسبهای لیست نسبت به اسناد خام XML قابل توزیع تر بودند. هر چند در هر دوی این مقالهها، بخشهای XML باید بر اساس دانش اولویت الگوی دستور ذخیره شوند.
Damingos et al. در ]7[ دستورت را به مسیرهای یکه برای تشخیص اجرای مسیرX توزیع شده بر اساس MapReduce قطعه قطعه کرد. چون که مورد نیاز است هر بخش XML دارای مسیر تمام پیشوندی از گره ریشه باشد. در نتیجه انعطاف محدود خواهد بود.
Choi et al. در ]5 [یک سیستم HadoopXML را برای پردازش دستورات چندگانهی twig به صورت همزمان طراحی کرد. بررسیهای ورودی و نتایج میانی اشتراک گذاری شده اند که بسیاری از I/O ها را حفظ کرده و نعادل بار اجرایی را پیشرفت داد. چون بر خلاف پیش پردازش، HadoopXML به 2 کار MapReduce متوالی برای پردازش دستور نیاز دارد که ما در این مقاله مخلاف این مورد هستیم.
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.