توضیحات
عنوان فارسی: روشی هوشمند برای خوشه بندی اسناد برای تشخیص الگوهای جرم
عنوان انگلیسی مقاله ترجمه شده:
An Intelligent Document Clustering Approach to Detect Crime Patterns
چکیده
گزارشات و اخبار متعددی بر روی جرم هایی که تقریبا هر روز به طور فزاینده ای انجام می شوند، منجر به شناسایی مشکل تر جرم ها، اگر نگوییم پیچیده تر، می شود. در نتیجه، نیاز برای تشخیص و شناسایی چنین جرم هایی به عنوان راهی ضروری برای تشخیص و شناسایی چنین الگوهای جرمی در اخبار گسترش می یابد. خوشه بندی اسناد به طور فزاینده ای تبدیل به موضوعی برای دست یابی به نتایج خوب با روش های آموزشی بدون نظارت می باشد. هدف آن دسته بندی خودکار اسناد مشابه در یک خوشه با استفاده از الگوریتم های استخراج و خوشه بندی می باشد. کارهایی برای بهبود روش های خوشه بندی اسناد مانند روش های استخراج و خوشه بندی در حال انجام شدن هستند تا بر دشواری طراحی یک خوشه بندی اسناد با هدف کلی برای تحقیقات جرم ها و مشکل مطرح شده استخراج و خوشه بندی، غلبه کنند. این مقاله دو مرحله متوالی اصلی در خوشه بندی اسناد به نام های «ویژگی های استخراج و الگوریتم های خوشه بندی» را به همراه چالش های اصلی و موضوعات کلیدی در طراحی ویژگی های استخراج و الگوریتم های خوشه بندی مورد بحث قرار می دهد. بعلاوه، روش پیش رو به ماموران اجرای قانون و کارگاهان کمک می کند تا عملکرد خود را بهبود داده و فرآیند حل جرم را سرعت بخشند.
مقدمه
به دلیل اهمیت اجتماعی روز افزون، دامنه جرم به عنوان یک ناحیه کاربردی در این کار انتخاب شده است. با عقب رفتن در تاریخچه تشخیص و حل جرم ها، بدیهی است که چنین دامنه مهمی توسط تعداد گسترده ای از کارشناسان و متخصصان در عدالت کیفری و اجرای قانون استفاده شده است. اخیرا، به دلیل پیشرفت های تکنولوژیکی سریع مانند کاربردهای فزاینده سیستم های کامپیوتری برای ردیابی و تشخیص جرم، تحلیلگر های داده های کامپیوتری گام هایی عملی در کمک به ماموران اجرای قانون و کارآگاهان برای بهبود فرآیند حل جرم ها و افزایش عملکرد آن ها برداشته اند.
در چندین سال اخیر، توجه فزاینده ای روی آن بخش از تحقیقات که مربوط به تشخیص و ردیابی داستان های جرم ها بر مبنای روش های خوشه بندی صورت گرفته است. چنین توجه های فزاینده ای منتسب به معماهای اجتماعی و بیماری های همه گیر توسط رخ دادن جرم های اجتماعی بیان و بازتاب شده است که تهدید های عظیمی برای جامعه به حساب می آید. زیرا مقدار بسیاری از داستان های نگران کننده جدید به طور کلی، و سایر داستان هایی که مربوط به جرم ها در اخبار می شوند به طور خاص، به طور رو به افزایشی مانند سیل در اینترنت تجمع می یابند. تصمیم گیرندگان در بخش های اجرای قانون با چالش های بسیاری در تشخیص، شناسایی و ردیابی و وقایع جرم روبرو هستند. لذا، ردیابی جرم ها یا رویدادهای اجتماعی بر اساس خط زمانی آن ها تبدیل به کاری خسته کننده می شود. چنین چالش های دشواری در سازماندهی اخبار داستان های جرم ناشی از چند بعدی بودن بسیاری داده های جرم ها می باشد، که معمولا مربوط به تنوع گسترده ای است که در روش هایی مانند داده های مجرمین و داده های اسلحه نفته است. به بیان دیگر، این روش ها برای ماموران اجرای قانون و کارآگاهان به همراه توضیحات موجهی در برای دیدگاه بین المللی الگوهای جرم توسط انجام دادن شناسایی روابطه بین الگوهای محلی، ارائه می شوند.
خوشه بندی اسناد به عنوان یکی از رایج ترین روش ها در تشخیص موضوعات/وقایع یا نوع سند جرم شناخته می شود، و که در آن خوشه بندی اسناد دارای سه فرآیند اصلی می باشد. اولین فرآیند، پیش پردازش اسناد برای حذف کلمات و نشانه های غیر مهم از سند جرم می باشد. فرآیند دوم نمایش سند جرم برای استخراج مهم ترین داده های از سند جرم و نشان دادن شباهت ها میان این اسناد می باشد. آخرین فرآیند خوشه بندی اسناد شامل اعمال الگوریتم خوشه بندی روی گروه هایی از اسناد موضوعات/وقایع یا انواع جرم ها بر اساس شباهت های میان این اسناد می باشد.
این مطالعه تلاش دارد تا محدودیت های خوشه بندی اسناد را در ارتباط با دامنه جرم در دو مرحله ارائه دهد (استخراج سند و الگوریتم های خوشه بندی). خوشه بندی اسناد برای سالیان سال مورد مطالعه قرار گرفته است، با این حال، هنوز موضوعی داغ در زمینه های تحقیقاتی به شمار می رود، و بنابراین نیازمند بهبودهای بیشتری می باشد. همانطور که در بخش 2، دو مورد از 3 فرآیند خوشه بندی اسناد مورد بررسی قرار می گیرد. در بخش 3، سیستم پیشنهادی خود برای خوشه بندی اسناد جرم را توصیف کرده ایم، و در نهایت در بخش 4 نتیجه گیری ارائه می شود.
فرآیندهای خوشه بندی اسناد
در این بخش مروری جامع از کارهای مربوط قبلی روی استخراج عبارات و الگوریتم خوشه بندی در خوشه بندی اسناد ارائه شده است. مروری جزیی بر کارهای پیشین مربوط به استخراج عبارات و الگوریتم های خوشه بندی در خوشه بندی اسناد در اولین و دومین زیر بخش آورده شده اند. بعلاوه، در این بخش، زیر بخش دوم شامل محدودیت هایی در دو مورد از سه فرآیند خوشه بندی اسناد می باشد.
استخراج عبارات
در این مرحله هر سند جرم توسط مجموعه ای از شرایط نمایش داده می شود که ویژگی ها نامیده می شوند. انتخاب ویژگی ها از میان کلمات نشانه دار به عنوان یک چالیش حقیقی در نظر گرفته شده است. این به این دلیل است که بیش از یک ویژگی یا ترکیبی از ویژگی ها در این مرحله در نظر گرفته شده اند. چارچوب گسترده ای از تحقیقات در این دامنه استخراج خاص انجام گرفته اند. تمرکز برخی از محققان روی استخراج اطلاعات از شرایط یا «ویژگی هایی» که نشان دهنده یک جرم مشخص هستند، با استفاده از موجودیت نام، کیسه کلمات، n-گرم، کلمه متداول و معنی کلمه متداول، مفهوم آنتولوژی وزنی، آنتولوژی کلمات خالص لغوی و ویژگی های معنایی هسته قرار گرفته است، تا خوشه بندی اسناد را بهتر و موثر تر کند. در این رابطه، ژیوای و همکاران، مطالعه ای را انجام دادند که در آن بین کیسه کلمات و موجودیت نام مقایسه ای انجام دادند. یافته های آنها نشان داد که نتایج به دست آمده با استفاده از روش موجودیت نام بهتر و موثر تر از نتایج به دست آمده توسط کیسه کلمات بوده اند. بعلاوه، یانجونلی و همکاران از روش کلمه متداول و معنی کلمه متداول استفاده کردند تا آن ها را با روش کیسه کلمات مقایسه کنند. نتایج آن ها نشان داد که کلمه متداول و معنی کلمه متداول بهتر از روش کیسه کلمات بود. از طرف دیگر، ماسنیزه و همکاران، بین دو روش موجودیت نام و کیسه کلمات، با استفاده از کاربران، تمایز قرار دادند. یافته های آن ها نشان داد که روش موجودیت نام بهتر از روش کیسه کلمات می باشد. ساماه فوده و همکاران آزمایشی را با استفاده از آنتولوژی و ویژگی های معنایی انجام دادند که در آن تمامی نام های با معانی بسیار و نام های مترادف از اسناد استخراج شده و روش منحصر به فرد اجازه می داد بهره اطلاعات به دست آمده در رفع ابهام این اسم ها را به صورت یادگیری بدون نظارت اندازه گیری کند، توسعه دادند. هدف توسعه این روش شناسایی زیرمجموعه هسته ای ویژگی های معنایی یک مجموعه متنی نمایش داده شده بود. لذا، بر اساس این آزمایش، نتایج نشان داد که به کارگیری ویژگی های معنایی هسته ای برای خوشه بندی، می تواند تعداد ویژگی ها را تا 90% و یا بیشتر کاهش دهد. در همان حال، این امکان وجود دارد که خوشه هایی تولید شود که موضوعات اصلی در یک مجموعه متنی را بگیرند. بر اساس تحقیقات (هموی هموی و تای تای و تارک قریب و همکاران) هنگامی که مفهوم آنتولوژی وزنی و آنتولوژی کلمات خالص لغوی را با روش کیسه کلمات مقایسه کردند، عملکرد مفهوم آنتولوژی وزنی و آنتولوژی کلمات خالص لغوی بسیار بهتر از روش کیسه کلمات بود.
توجه
- برای دانلود فایل کامل ورد لطفا اقدام به خرید نمایید.
- پس از خرید بلافاصله لینک دانلود فایل برای شما ایمیل خواهد شد.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.