Sunday, 20.08.2017, 07:51
| RSS

Engineer M DevelopmentMA

Главная » 2010 » March » 3 » Обнаружение текста
Обнаружение текста
19:44
 
Метод "Особо контрастные пиксели”
     Метод основан на подсчете количество особо контрастных соседей для каждого пикселя, на изображениях с оттенками серого цвета (GreyScale). Он содержит четыре этапа:
  • Конвертирование цветных изображений в оттенки серого цвета;
  • Обход восьми соседей;
  • Сегментация изображения;
  • Поиск блоков строк.
     Конвертирование цветных изображения в оттенки серого цвета
     Алгоритм проходит один раз по изображению и через уравнение 4 пропускаем три цвета (RGB) каждого пикселя, в конце получаем оттенок серого цвета. На этом этапе проводится подсчет порога, по которому определяется особо контрстность. Так же необходим один проход по изображению. GreyValue = red * 0.299 + green * 0.587 + blue * 0.114 . (4)
     Обход восьми соседей
     Обходим каждый пиксель изображения, подсчитываем количество особо контрастных восьми соседей, где оттенок серого цвета должен превышать порог. Если порог превышен, делаем инкремент количеству. Если это количество больше или равно 3 и меньше 8 (обычно один пиксель со всеми сильно, контрастными, соседними пикселями), то пикселю ставим значение 1 в массиве особо контрастных пикселей.
     Сегментация изображения
     Проходим сверху – вниз построчно, а с лево - направо пошагово, с размеров 60 пикселей. Шаг необходим в захвате нескольких букв. Если на шаге подсчитывается больше 24 единичек, то это возможно текст и проделываем для каждого пикселя двойной инкремент. Там где были единицы, станет 3 и там где ноль – 2. Нули так же надо инкрементировать, так как являются пустотами между букв или слов. А если подряд 40 единичек, то это линия, так как буквы в словах обычно имеют разрывестую линию. В конце получается выделенный целый блок, а не каждая буква в отдельности. На каждом инкременте в шаге проверяем 15 впереди стоящих пикселей, если они все нули, то это конец блока строки. Данный алгоритм обеспечивает выделения текста находящийся по горизонтали, а так же текст волной (спам). Здесь нам понадобился один обход, для исправления ошибок с вертикальным текстом и диагональным, надо добавить 3 таких обхода для каждого угла 90, 45, 135. Или же реализовать общий метод, как в "Fast and effective text detection” алгоритм Stroke Filter.
     Поиск блоков строк
     Делает полный обход изображения, ищем минимальные и максимальные значения x, y для блока строки. Сам блок обходим с помощью проверки 8 соседей, если пиксель имеет значение больше 1, то ее умножаем на -1 (пометили, что тут были). Если закончили работу с блоком переходим на следующий. В конце, каждый блок проверяется по особым характеристикам текста. Проходит тот блок, который имеет: высота блока находится между 6 и 44 пикселей, ширина блока больше чем в два раза высота, площадь объекта (сумма пикселей) больше чем половина площади блока.
     Определение истинных блоков. На результирующих изображениях имеются лишние блоки. Для определения текстовых блоков, кроме тех что определены на этапе поиска, можно вычислить где находится большее количество блоков, просмотреть расстояние между блоками строк (должно быть примерно одинаково до 7 пикселей, разница до 3 пикселей) – это по высоте, по ширине – должны быть ограничены по сторонам.
 
Продолжение в отчете.
 
СПАСИБО Funky Bee !!!
 
Категория: Documentation | Просмотров: 3853 | Добавил: admin | Рейтинг: 0.0/0 |
Всего комментариев: 2
2  
Рукописный текст очень разнообразен, по каким-то характиристикам распознает.

1  
Здравствуйте.

А распознование рукописного текста из сканированного документа ??
Буфер обмена для вставки в "captcha систему" !!!
распознование и передача в текстовй редактор !!

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Меню сайта
Разделы новостей
Concept Software [2]
Programs are planned or under construction.
Software [10]
Release Software
Lessons [12]
About Me [1]
Infa about yourself, documents, certificates ...
Documentation [4]
Documentation of projects
Календарь новостей
«  March 2010  »
SuMoTuWeThFrSa
 123456
78910111213
14151617181920
21222324252627
28293031
Поиск
Друзья сайта
Статистика
Copyright Macarov Anatoli © 2017
Free website builderuCoz