Google встроил появившуюся (как один из API) прошлой осенью технологию распознавания текста в свой онлайн-редактор Google Docs. Загружаемые изображения и pdf-файлы теперь могут быть преобразованы в редактируемый текст (пока только на 5-и западноевропейских языках, без русского).
Для преобразования применяется OCR Google Books, однако, несмотря на говорящее название родителя, результат распознавания, даже идеально отсканированной книжной страницы, от собственно книги — далёк. Дело в том, что вёрстка листа фактически не принимается во внимание и на выходе получается простой текст.
Исходная книжная страница
Пример распознавания
Преобразование сканов быстрое, ошибок не содержит, но на десктопе укомплектованном сканером (а значит, как правило, и программой OCR) есть привычные, глубоко проработанные (и заведомо сохраняющие форматирование) альтернативы онлайновому преобразованию.
Интереснее ситуация в нише переносных приложений. Учитывая, что программ распознавания для смартфонов на рынке практически нет, а камеры телефонов вплотную подбираются к разрешениям достаточным для чёткого отображения листов A4, достаточно очевидно, что не загружающее процессор распознавание в первую очередь может пригодиться на мобильных устройствах без клавиатуры. На небольших экранах даже сохранение форматирования может оказаться избыточным.
Примечательно, что у той же Abbyy распознавание текста с фотографий, а не сканов, появилось, как прописанная возможность ещё в 2008-м году. К 2010-му году перестали быть редкостью и загружаемые в сеть телефонные снимки большого разрешения. Существует даже онлайновый FineReader. Но, как вещь в себе, и "где-то там" в тени.
Между тем просматривается выгода портальной интеграции онлайнового распознавания: пользователь мог бы использовать стандартный софт для загрузки изображений на фотохостинг, указывать необходимость распознавания текста на нем и получать результат на e-mail.
Добавить 3 комментария
На самом деле эта штука уже довольно давно работала — в Gmail можно было просмотреть присланный PDF на вебе и вытащить текст через буфер. Теперь к ней сделали интерфейс в Докс. Эта функция будет востребована прежде всего для настольного использования, так как доля документов, распространяемых в PDF, довольно велика, а среди них высок процент «нетекстовых» документов — где текст вставлен в виде картинок или неизвлекаем из-за особенносетй генерации файла. Теперь можно открывать такие документы, присланные в Gmail, в виде текста сразу в Гугл докс. Абби работает над технологиями мобильного распознавания, делая всякие прикладные мобильные решения типа Business Cards Reader и мобильного словаря, дающего перевод сфотографированного слова (фотографируем-распознаем-обрабатываем). Сама задача мобильного распознавания ради распознавания — это какой-то шарообразный конь. Зачем?
Так она же «лёгкая» совсем, смотря со стороны «интегратора». «Зачем?» — это всегда вопрос вычислительной «цены». Если за 20 минут, с загруженным преобразованиями телефоном и разряженной батарейкой по итогам — то незачем. А если, например, сфотографировал и почти сразу имеешь в телефоне результат текстом — то дальше можно даже без экрана с документом ознакомиться. Например телефон может документ этот взять и роботическим голосом зачитать. Разве плохо?
Юра, сними на телефон рекламу гугла. В сети ее нет — это будет типа эксклюзив. :) Обсудим, реклама хорошая… Принять на грудь, там, жизнь это поиск и все такое. Должна быть в перерыве между таймами, правда во втором футболе не знаю будет ли.