توضیحات
عنوان فارسی: CS224D: یادگیری عمیق برای NLP1
عنوان انگلیسی مقاله ترجمه شده:
CS 224D: Deep Learning for NLP1
CS224D: یادگیری عمیق برای NLP1
یادداشت های سخنرانی: قسمت 1
بهار 2016
کلید واژه ها: پردازش زبان طبیعی. بردارتجزیه مقدار منفرد. پرش به بالا. کیسه پیوسته کلمات (CBOW ). نمونه برداری منفی
این مجموعه یادداشت ها با معرفی مفهوم پردازش زبان طبیعی (NLP) و مشکلات NLP امروزه شروع می شود. سپس ما به جلو رفته و مفهوم نمایش کلمات را به عنوان بردارهای عددی بحث کنیم. در نهایت، ما در مورد روش های محبوب برای طراحی بردارهای کلمه بحث می کنیم.
- مقدمه ای بر پردازش زبان طبیعی
ما با بحث عمومی درباره NLP شروع می کنیم. هدف NLP این است که بتوانیم الگوریتم هایی را طراحی کنیم تا رایانه بتواند زبان طبیعی را “درک” کند تا کاری را انجام دهد. مثال هایی از این عملیات در سطوح مختلف سختی قرار می گیرند:
آسان
- بررسی املا
- جستجو کلید واژه
- پیدا کردن مترادف
متوسط
- تجزیه اطلاعات از وب سایت ها، اسناد و غیره
سخت
- ترجمه ماشین (مانند ترجمه چینی به انگلیسی)
- تجزیه و تحلیل معنایی (معنای عبارت پرسشی چیست؟)
- ارجاع (به عنوان مثال آیا”او” یا “آن” به یک سند اشاره دارد؟)
- “سوال پاسخ دادن” (به عنوان مثال پاسخ به پرسش های جسورانه چیست؟)
اولین و مهمترین علامت دهنده مشترک در تمام وظایف NLP چگونگی ارائه کلمات به عنوان ورودی به هر یک از مدل های ما است. بسیاری از کارهای قبلی NLP به نحوی عمل می کنند که ما کلمات را به عنوان نمادهای اتمی پوشش نخواهیم داد. برای عملکرد مناسب در بیشتر وظایف NLP ما در ابتدا باید به یک مفهوم شباهت و تفاوت بین کلمات نیاز داریم. با استفاده از بردار واژه ها ، ما می توانیم این توانایی را به راحتی در خود بردارها (با استفاده از اندازه گیری های از راه دور مانند Jaccard، Cosine، Euclidean، و غیره) رمزگذاری کنیم.
- بردارهای واژگان
حدود 13 میلیون نشانه برای زبان انگلیسی وجود دارد، اما آیا آنها کاملا غیر مرتبط هستند؟ پیشی[1] به گربه، هتل به متل؟ من اینگونه فکر نمی کنم. به این ترتیب، ما می خواهیم تک کلمه ها هر کدام در یک بردار رمزگشایی کنیم که نشان دهنده یک نقطه در نوعی از فضای “کلمه” باشد. این کار به بعضی دلایل مهم است، اما منطقی ترین دلیل آن این است که شاید در واقع یک فضای N بعدی وجود داشته باشد (به طوری که N<<13 میلیونی) که برای رمزنگاری تمام معانی زبان ما کافی است.. هر بعد یک معنی را که ما با استفاده از گفتار انتقال می دهیم کد گذاری می کند. به عنوان مثال، ابعاد معنایی ممکن است نشان دهنده زمان (گذشته در مقابل فعلی در مقابل آینده)، شمارش (منفرد در برابر جمع) و جنسیت (مذکر در مقابل مونث) باشد.
بنابراین بیایید به اولین بردار کلمه ما و احتمالا ساده ترین آنها بپردازیم، یک بردار گرم: هر کلمه را به عنوان یک بردار ℝ|V|×1 با تمام درایه های 0 و یک 1 در شاخص این کلمه در زبان انگلیسی مرتب شده نشان میدهیم. در این نشانه گذاری، |V| اندازه واژگان ما است. بردارهای کلمه در این نوع کدگذاری به صورت زیر ظاهر می شوند:
ما هر کلمه را به عنوان یک موجودیت کاملا مستقل نشان می دهیم. همانگونه که قبلا مورد بحث قرار گرفت، این نمایش واژگان به طور مستقیم به هیچ یک از مفهوم شباهت ما را نمی دهد. برای مثال،
بنابراین شاید بتوانیم اندازه این فضا را از |V|ℝ به چیزی کوچکتر کاهش دهیم و در نتیجه یک زیرمجموعه ای پیدا کنیم که روابط بین کلمات را رمزگذاری می کند.
- روشهای مبتنی بر SVD
برای این کلاس روش برای پیدا کردن کلمات جایگزین (یا به اصطلاح بردار واژگان )، ما ابتدا به دور بیش از یک مجموعه داده های عظیم حلقه می زنیم و جمع شماری از رخدادهای کلمه را در برخی از فرم های ماتریس X ترسیم می کنیم و سپس تجزیه مقدار انحصاری روی X برای یافتن مقدار USVT به دست می آوریم. سپس ما از رديف های U به عنوان كلمات جایگزین براي همه كلمات در فرهنگ لغت ما استفاده كنيم. اجازه دهيد چند انتخاب از X را بررسی كنيم.
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.