culhu

Сканирование и преобразование изображений в текст с помощью оптического распознавания текста и оптического распознавания символов

Это не случайно, что вы можете получить документ по электронной почте, который был отправлен вам в виде изображения или, возможно, в виде файла PDF, и вам нужно иметь возможность редактировать или иметь текст в редактируемой форме. Иногда вам, возможно, придется сканировать некоторые документы через сканер, и вам нужно будет редактировать их из текстового редактора.

Редактирование изображения или отсканированное непосредственно в файл само по себе невозможно, и, если у вас нет свободного времени, вы не захотите печатать все самостоятельно. То, что вам нужно, это то, что уже давно называется Оптическое распознавание символов (OCR), которое переводит текст на изображениях в текст, который вы можете редактировать. Одними из лучших программных пакетов OCR являются Omnipage и FineReader, но они стоят больших денег. Вот подборка в основном бесплатных способов преобразования вашего текста в редактируемую форму.
1. FreeOCR

FreeOCR – это программа OCR, основанная на движке Tesseract с открытым исходным кодом, которая поддерживается Google и считается очень точной. Он может принимать входные данные непосредственно со сканера, файла PDF и нескольких различных типов форматов изображений, включая многостраничные файлы TIFF, поддерживая преобразование с использованием 11 различных языков. Вы также можете выбрать определенные части входного документа для преобразования, что полезно для нескольких блоков или столбцов текста, а выходные данные можно экспортировать непосредственно в Word или в формате Rich Text.

Обратите внимание во время установки, поскольку программа использует Менеджер установки, чтобы предложить вам несколько бит рекламного ПО. FreeOCR работает с Windows XP до Windows 8, для пользователей XP требуется установка .NET Framework v2. FreeOCR также разрешено использовать как для коммерческого, так и для личного использования.

Скачать FreeOCR

2. SimpleOCR

Программное обеспечение SimpleOCR является бесплатным для личного, образовательного и коммерческого использования и принимает входные данные со сканера, JPG, BMP и многостраничных изображений TIFF. Полученный текст можно сохранить как стандартный текстовый файл или документ Word. После установки, когда вы запускаете SimpleOCR в первый раз, убедитесь, что вы выбрали верхнюю опцию «Машинная печать», которая является бесплатной, а нижняя – 14-дневная демонстрация более продвинутого программного обеспечения. Затем выберите один из 4 языков для своего профиля и нажмите «Выбрать».

Можно добавить несколько страниц, нажав кнопку «Добавить страницу», и преобразовать их с помощью функции «Преобразовать в текст». После того, как распознавание символов завершено, полученный текст будет отображаться в нижнем окне с цветными словами, чтобы проинформировать вас о потенциальных проблемах с написанием. Синий – подозрительные слова, красный – слова, которых нет в словаре программы и т. Д., И каждое из этих слов можно проверить с помощью раскрывающегося списка предлагаемых альтернатив.

Скачать SimpleOCR

3. i2OCR

i2OCR – это бесплатный и неограниченный онлайн-сервис конвертации оптического распознавания символов от Sciweavers.org, который принимает входные данные из изображений в форматах TIF, JPG, PNG, BMP, GIF, PBM, PGM и PPM. Существует поддержка 33 больших языков, и хотя максимальный размер файла ограничен 10 МБ, этого должно быть достаточно для наиболее общего использования.

Использование довольно просто, просто нажмите кнопку, чтобы найти файл на вашем компьютере, или опция URL-адреса может получить файл непосредственно из онлайн-местоположения, такого как Dropbox и т. Д. Выберите ваш язык из выпадающего списка и нажмите большую кнопку, чтобы преобразовать файл, время конверсии составляло всего несколько секунд при тестировании. Точность преобразования кажется превосходной, хотя это всего лишь простой текст, и он будет отображаться рядом с исходным изображением в нижней части окна, которое можно затем щелкнуть, чтобы выделить и скопировать в документ или сохранить непосредственно как файл Word .DOC. , Sciweavers также имеет несколько других полезных инструментов преобразования форматов, включая преобразование файлов в PDF.

Посетите i2OCR

4. OCR онлайн

Бесплатный онлайн-OCR имеет бесплатную и платную услугу, которая позволяет вам конвертировать до 15 страниц в час. Это включает в себя загрузку документов JPG, BMP, TIF, PNG, PCX, GIF и многостраничных PDF-документов для обработки на одном из 32 признанных языков размером до 4 МБ каждый. Выходными данными могут быть документы Word (DOC), электронные таблицы Excel (XLS) или текстовые файлы (TXT).

Выберите локальный файл для загрузки, нажмите кнопку «Загрузить», введите пронумерованный код и установите нужный язык и формат вывода. Затем нажмите «Распознать» и подождите несколько секунд, пока он преобразуется. Полученный текст появится внизу вместе с кнопкой, чтобы загрузить его в качестве выбранного формата файла.

Посетить Интернет-OCR

5. Бесплатный онлайн OCR

Этот онлайн-сервис поддерживает загрузку наиболее популярных графических форматов JPG, GIF, BMP, PNG, TIFF, а также поддерживает преобразование документов PDF в оптическое распознавание текста. После преобразования полученный текст также можно выводить в несколько различных форматов Word DOC, Richtext RTF, обычный TXT, а также многослойный PDF-документ. Программа также делает все возможное, чтобы макет и форматирование текста было как можно ближе к исходной копии.

Чтобы воспользоваться услугой, просто выберите файл для загрузки и выберите, в каком формате вы хотите сохранить его, затем нажмите кнопку. Во время конвертации вы получаете хороший индикатор прогресса, и после его завершения появится кнопка загрузки. Похоже, что бесплатное онлайн-распознавание текста работало достаточно хорошо, в большинстве случаев сохранялись размеры и формат шрифта. Услуга бесплатна для использования, но нет никакого упоминания о размере файла или ограничениях использования, что немного сбивает с толку, так как мы не знаем, действительно ли оно неограниченно, или они просто не упомянули, что это за ограничения …

Посетите бесплатный онлайн-OCR

6. NewOCR

Этот бесплатный онлайн-сервис OCR, безусловно, имеет большую поддержку формата ввода. Существует 9 распространенных форматов изображений, поддержка изображений внутри Zip-архивов, многостраничных документов, таких как PDF, TIFF и DjVu, а также файлов DOCX и ODT. Список вывода меньше, но все же полезен с доступным сохранением файлов TXT, DOC и PDF. Распознавание осуществляется механизмами Tesseract и Cuneiform и может распознавать в общей сложности 58 языков, а также многостолбцовый текст, а также изображения более низкого качества.

Чтобы использовать NewOCR, просто выберите свой локальный файл или один прямой из URL, выберите язык распознавания и нажмите кнопку «Просмотр». Это загрузит страницу предварительного просмотра, и при этом отобразится преобразованный текст OCR. Если вы не видите текст, нажмите синюю кнопку OCR. Текст можно экспортировать различными способами, включая стандартную загрузку в один из 3 форматов файлов, копирование в буфер обмена, передачу его через переводчики Google или Bing, вставку в Интернете в Pastebin или Pastie и даже отправку непосредственно в Документы Google. NewOCR имеет неограниченное количество загрузок и не требует никакой регистрации.

Посетить NewOCR

7. Microsoft Office Document Imaging

Как мы знаем, Microsoft Office не является бесплатным продуктом, но у большого числа пользователей, вероятно, будет установлена ​​какая-то его версия. Средство визуализации документов Office может выполнять распознавание документов, и результаты очень хорошие, но, к сожалению, его нет в наличии во всех версиях Office. В Office 2003 он должен быть включен в вашу установку по умолчанию, пользователям Office 2007 придется вручную добавить его из опции добавления компонентов, а в Office 2010 его даже нет по умолчанию. Инструкции по добавлению MODI в Office 2010 можно найти на сайте Microsoft.com.

Параметр «Отображение документов Microsoft Office» можно найти в меню «Пуск» -> «Программы» -> «Microsoft Office» -> «Инструменты Microsoft Office». Он распознает только изображения в формате TIFF в качестве входного источника, поэтому вам, вероятно, придется предварительно конвертировать документы. Откройте файл и щелкните значок глаза на панели инструментов под названием «Распознать текст с помощью OCR». Затем нажмите на кнопку справа, чтобы отправить текст прямо в Word.

Примечание редактора: OCROnline был еще одним бесплатным тестированным сервисом, но у вас есть только 5 бесплатных конверсий по одной странице в неделю, что слишком ограничительно, и вам также нужно создать аккаунт. Качество конвертации очень хорошее, хотя вам нужна нечетная страница время от времени.

Google Docs также имеет возможность конвертировать PDF-файлы и изображения в документы с помощью OCR. Перейдите на диск Google и выберите «Параметры» -> «Настройки загрузки» -> «Преобразовать текст из загруженных файлов PDF и изображений», а также выберите параметр подтверждения. Затем вас спросят, хотите ли вы распознать изображение или PDF при загрузке файла на Google Диск.

Exit mobile version