مقاله حذف خودکار حاشیه نویسی دستی از بین نواحی خطوط متن و داخل متن در سند متنی چاپ شدهAutomatic Removal of Handwritten Annotations from Between-Text-Lines and Inside-Text-Line Regions of a Printed Text Document

مقاله حذف خودکار حاشیه نویسی دستی از بین نواحی خطوط متن و داخل متن در سند متنی چاپ شدهAutomatic Removal of Handwritten Annotations from Between-Text-Lines and Inside-Text-Line Regions of a Printed Text Document

چکیده فارسی :

بازیابی اصلی سند متن چاپ شده از حاشیه نویسی دستی، و قابل خواندن کردن آن توسط ماشین هنوز هم یکی از مشکلات چالش برانگیز در تجزیه و تحلیل تصویر سند می باشد، به ویژه هنگامی که سند اصلی در دسترس نیست. بنابراین، هدف کلی ما از این پژوهش، شناسایی و حذف هر گونه حاشیه نویسی دست نوشته که ممکن است در هر بخش سند ظاهر شود، بدون از دست دادن اطلاعات اصلی چاپ شده می باشد. در این مقاله، ما دو روش جدید برای حذف حاشیه نویسی دست نوشته پیشنهاد می کنیم که به طور خاص در بین خطوط متن و داخل متن واقع شده اند. برای حذف حاشیه نویسی بین خطوط متن ، دو الگوریتم مرحله ای ارائه شده است، که خط پایه خطوط متن چاپ شده با استفاده از تجزیه و تحلیل اجزای متصل شده تشخیص می دهد و با کمک محاسبه آماری فاصله ی بین خطوط متن حاشیه نویسی را حذف می کند. از سوی دیگر، برای حذف حاشیه نویسی در داخل متن ، یک ایده جدیدی از تشخیص حاشیه نویسی دستی و متن چاپ شده ارائه شده است، که شامل استخراج سه ویژگی برای اجزای متصل در سطح کلمه که با هم ادغام شده اند می باشد. به عنوان اولین مشخصه، ما توزیع چگالی را با استفاده از مشخصات تصویر عمودی محاسبه می کنیم. سپس در مرحله بعدی، ما تعداد لبه های بزرگ عمودی و بزرگتین لبه عمودی به عنوان ویژگی های متمایز دوم و سوم با استفاده از روش تشخیص لبه  Prewitt محاسبه می کنیم. روش ارائه شده است با مجموعه داده از 170 سند  که دارای  حاشیه نویسی های پیچیده دست نوشته بودند آزمایش شده است، که در نتیجه دقت کلی 93.49٪ در حذف حاشیه نویسی دست نوشته و دقت 96.22٪ در بازیابی اصلی متن سند چاپ شده به دست آمد.

کلمات کلیدی : حذف حاشیه نویسی دستی ، حذف حاشیه نویسی کناری ، حاشیه نویسی بین خطوط متن ، حاشیه نویسی داخل متن

چکیده انگلیسی:

Recovering the original printed text document from handwritten annotations, and making it machine readable is still one of the challenging problems in document image analysis, especially when the original document is unavailable. Therefore, our overall aim of this research is to detect and remove any handwritten annotations that may appear in any part of the document, without causing any loss of original printed information. In this paper, we propose two novel methods to remove handwritten annotations that are specifically located in between-text-lines and inside-text-line regions. To remove between-text-line annotations, a two stage algorithm is proposed, which detects the base line of the printed text lines using the analysis of connected components and removes the annotations with the help of statistically computed distance between the text line regions. On the other hand, to remove the inside-text-line annotations, a novel idea of distinguishing between handwritten annotations and machine printed text is proposed, which involves the extraction of three features for the connected components merged at word level from every detected printed text line. As a first distinguishing feature, we compute the density distribution using vertical projection profile; then in the subsequent step, we compute the number of large vertical edges and the major vertical edge as the second and third distinguishing features employing Prewitt edge detection technique. The proposed method is experimented with a dataset of 170 documents having complex handwritten annotations, which results in an overall accuracy of 93.49% in removing handwritten annotations and an accuracy of 96.22% in recovering the original printed text document.

Keywords: Handwritten annotation removal ; Marginal annotation removal ; Between-text-line annotations ; Inside-text-line annotation .



