Abstract    This paper proposes a new method to distinguish the printed digits, regardless of font and size, using neural networks.Unlike our proposed method, existing neural network based techniques are only able to recognize the trained fonts. These methods need a large database containing digits in various fonts. New fonts are often introduced to the public, which may not be truly recognized by the Optical Character Recognition (OCR). Therefore, the existing OCR systems may need to be retrained or their algorithm be updated. In this paper we propose a self-organizing map (SOM) neural network powered by appropriate features to achieve high accuracy rate for recognizing printed digits problem. In this method, we use a limited sample size for each digit in training step. Two expriments are designed to evaluate the performance of the proposed method. First, we used the method to classify a database including 2000 printed Persian samples with twenty different fonts and ten different sizes from which 98.05% accuracy was achieved. Second, the proposed method is applied to unseen data with different fonts and sizes with those used in training data set. The results show 98% accuracy in recognizing unseen data.


چکیده    در این مقاله روشی جهت شناسایی مستقل از فونت و سایز ارقام چاپی فارسی توسط شبکه عصبی ارائه شده است. برخلاف روش ارائه شده این مقاله، روش­های موجود مبتنی بر شبکه عصبی، تنها قادر به شناسایی فونتهای آموزش دیده شده هستند. هر ساله فونتهای جدیدی به عموم معرفی می‌شود که این فونت‌ها نمی­توانند به درستی توسط سیستم‌های تشخیص الکترونیکی حروف شناسایی شوند. بنابراین، سیستم‌های موجود نیازمند بازآموزش برای به‌روزرسانی الگوریتم خود هستند. در این مقاله، روشی جهت شناسایی ارقام چاپی با دقت بالا توسط شبکه عصبی نگاشت خود سازمانده مجهز به ویژگی‌های مناسب ارائه داده­ایم. برای ارزیابی کارایی روش، دو آزمون طراحی شده است. در آزمون اول، داده­های مربوط به پایگاه داده­ای با ۲۰۰۰ نمونه ارقام چاپی فارسی حاوی ۱۲ فونت و ۱۰ سایز مختلف را دسته بندی نموده­ و به دقت ۰۵/۹۸%رسیده­ایم. در آزمون دوم روش ارائه شده برای شناسایی داده­های دیده نشده با فونت و سایز متفاوت از مجموعه آموزشی استفاده شده است. نتایج دقت ۹۸% برای شناسایی داده­های دیده نشده را نشان می­دهد.


