gImageReader — извлечение текста из изображений и PDF-файлов в… – Tehnografi.com

gImageReader это бесплатная программа для чтения PDF с открытым исходным кодом, которая может извлекать текст из изображений и PDF-файлов. Он построен как простой интерфейс Gtk/Qt для Тессеракт-OCRмеханизм OCR с открытым исходным кодом для распознавания текстов и шаблонов в документах и изображениях с использованием Искусственный интеллект.

Сам по себе Tesseract — это инструмент командной строки, который могут использовать только пользователи Linux, достаточно хорошо знакомые со своими терминалами. Благодаря gImageReaderтеперь каждый может воспользоваться преимуществами эффективности распознавания текста.

gImageReader работает, сканируя тексты из PDF-файла или файла изображения на любом из нескольких языков, которые он поддерживает благодаря наличию символов Unicode. Он имеет простой, хорошо организованный настраиваемый пользовательский интерфейс, с помощью которого вы можете выполнять задачи проверки орфографии и перевода.

Функции в gImageReader

Бесплатное программное обеспечение с открытым исходным кодом. Исходный код доступен на GitHub.

Доступно на платформах GNU/Linux и Windows.

Тематический пользовательский интерфейс со знакомым макетом редактирования.

Импорт PDF-документов и изображений с диска, сканирующих устройств, снимков экрана и буфера обмена.

Создавайте PDF-документы из документов hOCR.

Ручное или автоматическое определение области распознавания.

Пакетная обработка нескольких изображений и документов.

Распознавать документы hOCR или обычный текст.

Распознанный текст отображается рядом с изображениями.

Постобработка распознанного текста, включая проверку орфографии.

gImageReader прост в использовании и поддерживает работу с электронными копиями документов, а также снимками загруженных медиафайлов, например скриншотами. У вас даже есть возможность выбрать интересующую вас область текста и добавить только тот текст, который вам нужен. В конечном счете, gImagereader работает как программа для чтения PDF и инструмент для извлечения текста. Тупой материал.

Установите gImageReader в Linux

Чтобы использовать gImageReader в полной мере, вы должны вручную установить Тессеракт языковые пакеты, чтобы вы могли правильно анализировать изображения и файлы. Пакет называется ‘Tesseract-ocr-eng‘ и он доступен у менеджера программного обеспечения в Дебиан а также Федора дистрибутивы

Если вы бежите Убунтувы можете просто добавить ППА и запустите команду установки, используя команды ниже:

$ sudo add-apt-repository ppa:sandromani/gimagereader $ sudo apt update $ sudo apt install gimagereader

На Дебиан, Федораа также OpenSUSE установите его из менеджера пакетов.

$ sudo apt установить gimagereader [On Debian]
$ sudo dnf установить gimagereader [On Fedora]
$ sudo zypper установить gimagereader [On OpenSuse]

Не чувствуйте себя обделенным, если вы бежите Арх Линукс или любые его производные. АУР вас прикрыл. А если вы предпочитаете пересобирать приложение из исходного кода, инструкции можно найти в вики-ссылке на репозиторий GitHub.

Вы извлекаете печатный текст из изображений? Вы даже можете делать снимки выбранных областей с помощью телефона и загружать их на свой ноутбук. Что еще круче, так это его многоязычная поддержка, которая, хотя и не идеальна, уже сейчас является одним из лучших вариантов в сообществе.

gImageReader является одним из лучших программ для чтения PDF в мире с открытым исходным кодом, особенно с возможностью распознавания текста, так что попробуйте его и посмотрите, понравится ли он вам.

Как обычно, вы можете поделиться с нами своим опытом работы с приложением, если он у вас есть. И добавить другие предложения в разделе комментариев ниже.

gImageReader PDFфайлов в.. из извлечение изображений текста