Обнаружение текста - 3 March 2010 - Персональный сайт Макаров Анатолий /// Macarov Anatoli

Tuesday, 07.02.2012, 02:10
| RSS

Engineer M DevelopmentMA

Главная » 2010 » March » 3 » Обнаружение текста
Обнаружение текста
19:44
 
Метод "Особо контрастные пиксели”
     Метод основан на подсчете количество особо контрастных соседей для каждого пикселя, на изображениях с оттенками серого цвета (GreyScale). Он содержит четыре этапа:
  • Конвертирование цветных изображений в оттенки серого цвета;
  • Обход восьми соседей;
  • Сегментация изображения;
  • Поиск блоков строк.
     Конвертирование цветных изображения в оттенки серого цвета
     Алгоритм проходит один раз по изображению и через уравнение 4 пропускаем три цвета (RGB) каждого пикселя, в конце получаем оттенок серого цвета. На этом этапе проводится подсчет порога, по которому определяется особо контрстность. Так же необходим один проход по изображению. GreyValue = red * 0.299 + green * 0.587 + blue * 0.114 . (4)
     Обход восьми соседей
     Обходим каждый пиксель изображения, подсчитываем количество особо контрастных восьми соседей, где оттенок серого цвета должен превышать порог. Если порог превышен, делаем инкремент количеству. Если это количество больше или равно 3 и меньше 8 (обычно один пиксель со всеми сильно, контрастными, соседними пикселями), то пикселю ставим значение 1 в массиве особо контрастных пикселей.
     Сегментация изображения
     Проходим сверху – вниз построчно, а с лево - направо пошагово, с размеров 60 пикселей. Шаг необходим в захвате нескольких букв. Если на шаге подсчитывается больше 24 единичек, то это возможно текст и проделываем для каждого пикселя двойной инкремент. Там где были единицы, станет 3 и там где ноль – 2. Нули так же надо инкрементировать, так как являются пустотами между букв или слов. А если подряд 40 единичек, то это линия, так как буквы в словах обычно имеют разрывестую линию. В конце получается выделенный целый блок, а не каждая буква в отдельности. На каждом инкременте в шаге проверяем 15 впереди стоящих пикселей, если они все нули, то это конец блока строки. Данный алгоритм обеспечивает выделения текста находящийся по горизонтали, а так же текст волной (спам). Здесь нам понадобился один обход, для исправления ошибок с вертикальным текстом и диагональным, надо добавить 3 таких обхода для каждого угла 90, 45, 135. Или же реализовать общий метод, как в "Fast and effective text detection” алгоритм Stroke Filter.
     Поиск блоков строк
     Делает полный обход изображения, ищем минимальные и максимальные значения x, y для блока строки. Сам блок обходим с помощью проверки 8 соседей, если пиксель имеет значение больше 1, то ее умножаем на -1 (пометили, что тут были). Если закончили работу с блоком переходим на следующий. В конце, каждый блок проверяется по особым характеристикам текста. Проходит тот блок, который имеет: высота блока находится между 6 и 44 пикселей, ширина блока больше чем в два раза высота, площадь объекта (сумма пикселей) больше чем половина площади блока.
     Определение истинных блоков. На результирующих изображениях имеются лишние блоки. Для определения текстовых блоков, кроме тех что определены на этапе поиска, можно вычислить где находится большее количество блоков, просмотреть расстояние между блоками строк (должно быть примерно одинаково до 7 пикселей, разница до 3 пикселей) – это по высоте, по ширине – должны быть ограничены по сторонам.
 
Продолжение в отчете.
 
СПАСИБО Funky Bee !!!
 
Категория: Документация | Просмотров: 1006 | Добавил: admin | Рейтинг: 0.0/0 |
Всего комментариев: 1
0  
1 Александр Васмльевич   (06.10.2011 09:32)
Здравствуйте.

А распознование рукописного текста из сканированного документа ??
Буфер обмена для вставки в "captcha систему" !!!
распознование и передача в текстовй редактор !!

Name *:
Email:
Code *:
Меню сайта
Разделы новостей
Концепт программы [1]
Программы только планируются или в разработке.
Программы [8]
Готовый продукт
Документация [4]
Документы проектов.
Уроки [5]
О себе [1]
Инфа о себе, документы, сертификаты...
Календарь новостей
«  March 2010  »
SuMoTuWeThFrSa
 123456
78910111213
14151617181920
21222324252627
28293031
Поиск
Друзья сайта
Статистика
Copyright Macarov Anatoli © 2012
Free site builder - uCoz