توضیحات
عنوان فارسی: تأثیر ویژگی های لغوی، نحوی و ساختاری و ترکیب آن ها بر تخصیص تألیف برای متن زبانی Telugu
عنوان انگلیسی مقاله ترجمه شده:
Influence of lexical, syntactic and structural features and their combination on Authorship Attribution for Telugu Text
چکیده
تخصیص تألیف (AA) شناسایی هویت مؤلف یک متن ناشناخته از مجموعه نویسنده شناخته شده است. تخصیص تألیف را میتوان به عنوان یک مسأله طبقه بندی متن در نظر گرفت. AA بر پایه طبقهبندی اسناد بر اساس سبک نگارش نویسنده به جای موضوع متن میباشد. در این مقاله ارزیابی های تجربی بر متن زبانی Telugu برای تخصیص تألیف با استفاده از ویژگی های مختلف و ترکیبی از آنها انجام پذیرفت. مدل یادگیری شده برای هر یک از این بردارها تولید شد و عملکرد مدل یادگیری شده با استفاده از معیار F1 محاسبه میشود. تعداد بیشتری از ویژگیها ممکن است منجر به کاهش عملکرد مدل شود. ویژگی هایی بیربط با استفاده از معیار کای دو از بردارهای ویژگی حذف شدند. الگوریتم ماشین بردار پشتیبانی[1] به عنوان طبقه کننده برای تولید مدل یادگیری هر بردار ویژگی استفاده میشود. این مدل یادگیری شده برای تخصیص متن ناشناخته به یکی از نویسندگان شناخته شده به کار برده میشود.
مقدمه
پردازش زبان طبیعی، موضوع تحقیقاتی میباشد که برای اهداف مختلفی استفاده شده است و به طور مداوم محبوبتر گردیده است. به رسمیت شناختن تالیف (AR) شامل 4 مشکل اصلی به نامهای تخصیص(اسناد) تالیف، تصدیق تالیف، پروفایل(مشخصات) تالیف و خوشهبندی تالیف میباشد. AR وابسته به زبان میباشد. در نتیجه تمامی تکنیکهای موجود برای سایر زبانها باید برای متن زبانی Telugu بهینه شوند. در این مقاله، نقطهی جالب و قابل توجه تخصیص تالیف (AA) میباشد. AA را میتوان به سه روش معرفی کرد. روش اول برای سند متنی داده شده، یافتن مولف متن از میان گروه مولفان مشخص شده، میباشد. روش دوم برای سند متنی داده شده، باور این موضوع که متن توسط نویسندهای از گروه مولفان نوشته شده و سپس یافتن خود نویسنده، در صورت وجود، میباشد. روش سوم برای سند متنی داده شده، شناسایی مولف است. دو حالت برای کارکرد و وظیفهی AA وجود دارد: نوع (طبقه) بسته و نوع (طبقه) باز. تعریف اول، یک مسالهی نوع بسته میباشد در حالی که تعاریف دوم و سوم مسائل طبقه باز هستند. در مسالهی طبقه بسته نویسندهای که باید شناسایی شود، از گروه نویسندگان داده شده است در حالی که در مسائل طبقه بسته نویسندهای که باید شناسایی گردد، ممکن است از گروه مؤلفان مشخص شده باشد و ممکن است نباشد. در این مقاله، مولف یک متن ناشناخته از گروه مؤلفین شناخته شده، که یک مسالهی طبقه بسته میباشد، در نظر گرفته شده است.
نویسندگان دارای شیوهی گفتار و نوشتار منحصر به فرد میباشند. از شیوهی نوشتار میتوان به عنوان ویژگیهای ممتاز برای تشخیص نویسندهی آن استفاده کرد. این را میتوان به عنوان یک مسالهی طبقهبندی شدهی معمولی در نظر گرفت، که گروهی از اسناد با مؤلفان شناخته شده برای آموزش استفاده میشوند و هدف تعیین خودکار مولف متناظر یک متن ناشناس میباشد. بر خلاف سایر وظایف طبقهب ندی، مشخص نمیباشد که کدام ویژگیهای یک متن به منظور طبقهبندی نویسنده، باید استفاده شود.
به طور کلی، کارکردها و موارد استفاده از AA شامل حل و رفع سوالات تاریخی تألیف نامشخص و قابل نزاع است. در سالهای اخیر، کاربردهای عملی برای شناسایی در زمینه هایی مانند هوش، قانون کیفری، قانون مدنی، و امنیت کامپیوتری رشد یافته است. AA سابقهی طولانی با زمینههای کاربردی متعددی دارد که شامل فیتلر کردن هرزنامه (اسپم) [1] ، تحکیم سایبری، تشخیص سرقت ادبی [2] ، بازشناسی مؤلف یک برنامه داده شده [3] و مدیریت اطلاعات وب [2] میباشد. تحقیقات قانونی که در آنها بررسی نویسندگان ایمیلها، پیامهای گروههای خبری، یا شناسایی منشا هوش صورت میگیرد، نیز از کاربردهای AA در نظر گرفته میشود.
تحقیق بر AA برای متن زبانی Telugu صورت نگرفته است. ویژگیهای مختلفی برای استخراج خصوصیات نویسنده در متن زبانهای مختلف، به جز متن Telugu، انجام شده است. در نتیجه نیاز است تا تاثیر خصوصیات مختلف متن Telugu برای AA آزمایش و بررسی شود. در این مقاله تلاشی در رابطه با استفاده از خصوصیات متفاوت AA و ترکیب آنها برای متن Telugu صورت گرفته است.
کار مربوطه
وظایف آنالیز تألیف را میتوان در 4 روش طبقهبندی کرد. آنها تخصیص تألیف (AA)، پروفایل (مشخصات) مؤلف، شناسایی مولف و خوشهبندی میباشد. AA را میتوان به عنوان شناسایی مؤلف مشابه [4, 5] ، وظیفه نوع بسته مشابه [6] ، وظیفه دستهبندی شده مشابه [7] ، مسالهی سوزن در انبار کاه مشابه [8] و تخصیص تألیف مشابه [7] نام برد.
دسته بندی متن (TC)، اسناد را بر اساس طبقهبندیهای از پیش تعیین شده، دستهبندی میکند. تخصیص تألیف (AA) به صورت یک مساله طبقهبندی لحاظ میشوند. مراحل متعدد در AA شامل پیش پردازش، استخراج ویژگی، انتخاب و کاهش ویژگی، یادگیری تولید مدل از ویژگیهای انتخابی و در نهایت اندازهگیری عملکرد مدل یادگیری شده با استفاده از معیارهای مختلف، میباشد.
توجه
- برای دانلود فایل کامل ورد لطفا اقدام به خرید نمایید.
- پس از خرید بلافاصله لینک دانلود فایل برای شما ایمیل خواهد شد.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.