توضیحات
عنوان فارسی: یافتن کلمه در اسناد تاریخی با استفاده از کتاب کد بدوی و برانامه نویسی پویا
عنوان انگلیسی مقاله ترجمه شده:
Word spotting in historical documents using primitive codebook and dynamic programming
چکیده:
جستجوی کلمه و نمایهسازی در مجموعه اسناد تاریخی یک مشکل چالش برانگیز است، زیرا حروف متن اغلب به دلیل تخریب و آثار گذشت زمان تحت تأثیر قرار گرفته اند. در این مقاله، ما یک رویکرد جدید برای جستجوی کلمه با استفاده از تجزیه خطوط متن به شکلهای هندسی اولیه و تطبیق رشتهای ارائه میدهیم. خطوط متن در ابتدا توسط یک فرآیند تقسیمبندی جدا شدهاند. سپس، هر خط متن به عنوان دنبالهای از برچسبهای ابتدایی که به حروف مشخص و یا بخشهایی از حروف مطابقت دارد، توصیف میگردد. این شکلهای هندسی اولیه از یک کتاب کد اشکال تولید شده از صفحات آموزشی گرفته شده از مجموعه، در نظر گرفته میشوند. در طول نمایهسازی و شاخص بندی، خطوط متن به رشتههایی از شکلهای اولیه رونویسی شده و در فایلهایی ذخیره شدهاند. برای این منظور، یک استراتژی نمایهسازی کارآمد با استفاده از روش چند برچسبی و با ترکیب آنالیز دو مرحلهای شکلهای هندسی اولیه: سطوح درشت و سطوح ریز، استفاده شده است. در طول بازیابی، تصویر کلمه پرسش به رشتههایی از شکلهای هندسی درشت و ریز انتخاب شده از کتاب کد، کدگذاری شده است. در نهایت، یک روش برنامهنویسی پویا مبتنی بر تطبیق رشتهای تقریبی به منظور یافتن توالی هندسههای مشابه در خطوط متن مجموعه در حال اجرا، استفاده شده است. ما ارزیابی تجربی بر مجموعه دادهها از تصاویر مستند زندگی واقعی که از کتابهای تاریخی مختلف جمع آوری شدهاند را ارائه میدهیم. نتایج تجربی نشان میدهد که این روش در جستجوی متن در اسناد به هم ریخته، قوی میباشد.
کلمات کلیدی: جستجوی کلمه، نمایه سازی سند، تطبیق رشته ای تقریبی، درشت به ریز
- مقدمه
جستجوی متن در یک سند تاریخی در جامعه تحقیقات آنالیز تصویری سند (DIA) به دلیل پیچیدگی و نیاز روز افزون برای تععین محتوای کتابهای دیجیتالی، محبوب شده است. در سالهای اخیر، دیجیتالی کردن سندهای تاریخی در کتابخانهها، موزهها انجام شده است و این اطلاعات دیجیتالی از طریق پورتالهای وب در دسترس کاربران گذاشته شده است. با استفاده از این پورتالها، کاربران تنها به مشاهده صفحات دیجیتالی شده محدود شدهاند. جستجو بر اساس اطلاعات محتوایی (مانند کلمه) تنها در صورتی که صفحات متناظر رونویسی شده باشند، در دسترس است. در اسناد تاریخی، به دلیل تخریب ناشی از قدرت، کششها، استفاده مکرر و غیره، شناخت حروف کار آسانی نیست. استخراج مناسب حروف در چنین اسنادی با هدف تشخیص دشوار است. تقسیمبندی نادرست حروف شکسته و کمرنگ شده هنوز هم یکی از عوامل اصلی برای تقسیم بندی مبتنی بر رویکردهای تشخیص است]1[. بیشتر روشهای تقسی مبندی کلمه از آنالیز فضایی بین حروف استفاده میکنند]2[. گاهی اوقات به علت فاصله غیر یکنواخت بین حروف و کلمات، تقسیمبندی کامل کلمات دشوار است. همچنین، مشاهده شده است که برخی صفحات کتاب تاریخی شامل متنهایی با فونتهای متفاوت هستند. بنابراین، روش تشخیص و تعیین باید در زمینه تقسیمبندی قوی باشد تا با مشکل فونتهای مختلف مقابله کند. ما دو نمونه از تصاویر سند از مجموعه خود را در شکل 1 نشان میدهیم که نمایانگر مشکلاتی است که در بالا ذکر شدهاند. رونویسی اتوماتیک متن انجام شده توسط سیستمهای OCR تجاری در دسترس در این کتابها تا به حال رضایتبخش نیست. همچنین، رونویسی دستی آرشیو با توجه به حجم زیاد دادهها عملی نیست.
در هنگام پردازش اسناد تخریب شده، تکنیکهای جستجوی کلمه]3و7[، یک جایگزین برای OCR، برای جستجو کردن موارد ممکن از کلمات خاص، مفید هستند. این روشها نیازمند تشخیص تمام حروف کلمه سوال و یا کلمات هدف نیستند و در نتیجه قادر به بازیابی کلمه مشابه در حضور تحریف کوچک است. ویژگیها به طور کلی از تمام کلمه محاسبه شدهاند و در نتیجه در این روشها توجه به ویژگیهای مشابه در تصاویر هدف است. یک گلوگاه این روشهای جستجو این است که بیشتر آنها نیازمند این هستند که مرحله تقسیمبندی کلمه قبل از تطبیق انجام گیرد. اگر کلمات به درستی تقسیم نشوند، ویژگیها در تصویر هدف مطابقت نخواهد کرد و در نتیجه این کلمات را نمیتوان بازیابی کرد. برای غلبه بر این مشکل، به تازگی برخی روشهای تقسیمبندی آزاد]8و9[ ارائه شده است، اما هزینه محاسبه آنها بیش از حد بالا میباشد که در یک برنامه واقعی برای جستجو استفاده شدند.
هدف از این کار، ارائه طرح نمایهسازی کارآمد است که قادر خواهد بود که اطلاعات متن در آرشیوهای تاریخی را بهتر و سریعتر جستجو کند. برای غلبه بر محدودیت OCR، ما پیشنهاد میکنیم استفاده از پرسش توسط اصل مثال (QBE) به طوریکه تصویر پرسش کاربر میتواند در حجم زیادی از اسناد تاریخی به خوبی جستجو شود. بازیابی اطلاعات متن سریع خواهد بود و به کاربر در جستجوی اطلاعات مرتبط کمک خواهد کرد توسط غلبه بر مشکلاتی که فرآیند OCRرا به کتابهای تاریخی محدود میکند. رویکرد پیشنهادی ما تلاش میکند تا بر مشکلات روشهای جستجوی کلمه مبتنی بر تقسیمبندی با نیازمند نبودن به تقسیم کل کلمه از قبل، غلبه کند. فقط، تقسیمبندی خط متن که نسبتاً آسانتر است برای تقسیمبندی طرح چاپ شده اسناد، در رویکرد ما در نظر گرفته شده است.
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.