Tesseract-OCR

14 Квітня, 2014 0

Tesseract-OCR (англ. тессеракт) – свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей.

Ядро программы Tesseract-OCR было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985-1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Microsoft Windows. Затем, с 1998 года – частичная миграция с Си на Си++. Значительная часть кода изначально написана на Си, но проводились доработки для совместимости с Си++ компиляторами.

В настоящее время Tesseract-OCR 3.0 собирается под Linux с GCC 2.95 и старше, а также под Microsoft Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0). Код на C++ часто использует множество макросов для реализации контейнеров.