hOCR
hOCR — открытый стандарт, который определяет формат для представления OCR-вывода. Стандарт имеет целью приобщить к распознанному тексту информацию о макете, уровень достоверности распознавания, стиль и другие данные. Для достижения цели вступления этой информации распознанного текста используется стандартный формат HTML.
Существует утилита командной строки hocr2pdf [1] для преобразования hocr-данных в файлы PDF.
См. также
править- Программное обеспечение, которое использует этот формат:
- OCRopus — открытое программное обеспечение OCR для Linux
- Tesseract — в OCR Engine используется OCRopus (до 3.0)
- CuneiForm — свободное программное обеспечение OCR
- ExactImage — свободное программное обеспечение для обработки изображений
Ссылки
править- Общедоступная спецификация для формата hOCR (англ.)
- hocr-tools на „Google Code“
Это заготовка статьи об информационных технологиях и вычислительной технике. Помогите Википедии, дополнив её. |