توضیحات
عنوان فارسی: بردارهای سراسری برای نمایندگی GloVe
عنوان انگلیسی مقاله ترجمه شده:
GloVe: Global Vectors forWord Representation
GloVe : بردارهای سراسری برای نمایندگی
Jeffrey Pennington, Richard Socher, Christopher D. Manning
Computer Science Department, Stanford University, Stanford, CA 94305
چکیده:
روش های اخیر برای یادگیری اصطلاحات بردار فضایی کلمات، در ضبط قوانین معناشناختی و نحوی زیبا با استفاده از محاسبات بردار موفق بوده اند، اما منشاء این نظم ها مبهم باقی مانده است. ما به تجزیه و تحلیل و ایجاد مدل صریحی از خواص مورد نیاز برای چنین قوانینی برای استفاده در بردار کلمات می پردازیم. نتیجه یک مدل رگرسیون منطقی جدید سراسری است که مزایای دو خانواده اصلی مدل را در مقالات ترکیب می کند: فاکتور سازی ماتریس سراسری و روش های محلی پنجره محاوره ای. مدل ما به طور مؤثر اطلاعات آماری را با تمرین تنها در عناصر غیر صفر در یک ماتریس هم رخدادی کلمه – کلمه، به جای کل ماتریس نهایی و یا روی پنجره های متن فرد در یک کروم بزرگ، استفاده می کند. این مدل یک فضای بردار با زیربنای معنی ایجاد می کند، که عملکرد آن با میزان 75٪ بر روی یک قاعده از لغات اخیرا نشان داده شده است. همچنین این مدل، مدل های مربوط به وظایف شباهت را بهتر و بهتر به رسمیت می شناسد.
مقدمه :
مدل فضای معنایی زبان هر کلمه را با یک بردار واقعی ارزش نشان می دهد. این بردارها را می توان به عنوان ویژگی های مختلف در برنامه های کاربردی مانند بازیابی اطلاعات (Manning و همکاران، 2008)، طبقه بندی سند (Sebastiani، 2002)، پاسخ سوال (Tellex et al.، 2003)، به رسمیت شناختن نهاد (Turian و همکاران، 2010) و تجزیه (Socher et al.، 2013) مورد استفاده قرار داد.
بیشتر روش های بردار کلمه به فاصله و یا زاویه بین جفت بردارهای کلمات به عنوان روش اولیه برای ارزیابی کیفیت ذاتی چنین مجموعه ای از بازنویسی های کلمه متکی هستند. اخیرا، Mikolov و همکاران( c2013) یک طرح ارزیابی جدید مبتنی بر لغت شناسی کلمات ارائه داد که ساختار دقیق تر فضای بردار کلمه را با بررسی فاصله عددی بین بردارهای کلمه، اما با ابعاد مختلف تفاوت آن ها بررسی کرد. به عنوان مثال، لغتشناسی “پادشاه به ملکه به عنوان مرد به زن است” باید در فضای بردار با معادله بردار king – queen = man – woman کد گذاری شود. این طرح ارزیابی مدل هایی را که ابعاد معنایی را تولید می کنند، به ارمغان می آورد، به این ترتیب، ایده چندکاره ای از ارائه های توزیع شده را جذب می کند (Bengio، 2009).
دو خانواده اصلی مدل برای یادگیری واژه نامه ها عبارتند از: 1) روش های فاکتورسازی ماتریس سراسری ، مانند تجزیه و تحلیل معنایی نهفته (Deerwester LSA) (و همکاران، 1990) و 2) روش های پنجره محاوره محلی، مانند مدل skip-gram میکولوف و همکاران) . c2013). در حال حاضر، هر دو خانواده دچار معایب قابل توجهی هستند. در حالی که روش هایی مانند LSA به طور موثری اطلاعات آماری را مورد استفاده قرار می دهند، آنها در مورد لغت شناسی کلمات نسبتا ضعیف عمل می کنند، که نشان دهنده یک ساختار فضای بردار نیمه بهینه هستند. روش هایی مانند skip-gram ممکن است در زمینه لغت شناسی بهتر عمل کنند، اما آنها از آمار بدنه خیلی کم استفاده می کنند، زیرا آنها از پنجره های محتوایی به جای شمارش رخدادهای سراسری استفاده میکنند.
در این کار، خواص مدل مورد نیاز جهت تولید خطی از معانی را تحلیل می کنیم و استدلال می کنیم که مدل های رگرسیون سراسری لگاریتمی-دو جمله ای برای این کار مناسب هستند. ما یک مدل کوچکترین مربع با وزن ویژه را پیشنهاد می دهیم که بر تعداد کل رخداد کلمه – کلمه سراسری تمرکز می کند و لذا استفاده موثر از آمار را افزایش می دهد. این مدل یک فضای بردار کلمه ای با ساختار معنی دار تولید می کند، که نشان می دهد که عملکرد مرز علم آن از دقت 75٪ در مجموعه داده های لغت شناسی کلمه است. ما همچنین نشان می دهیم که روش های ما از روش های دیگر فعلی در چندین وظیفه شباهت کلمه، و همچنین در یک معیار شناخت مشترک نام (NER) برتر است. ما کدهای مدل و همچنین بردارهای کلمه آموزش دیده را در http://nlp.stanford.edu/projects/glove/ قرار داده ایم.
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.