Уроки Phptoshop, Linux, Windows 7
20 Май 2012, 15:04:15 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
Новости:
 
  Начало   Форум   Помощь Поиск Календарь Пользователи Downloads Войти Регистрация  
Страниц: [1]   Вниз
  Печать  
Автор Тема: VueScan и русский текст в линукс  (Прочитано 1991 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Svictor
Администратор
Активист
*****

Карма: + 5/ -0
Мужской
Сообщений: 127
Активность на форуме
0%

svictor_ru WWW Награды
« : 24 Декабрь 2009, 17:24:46 »

Про VueScan для сканирования картинок смотри здесь .

Но то про версию, которая в упор не понимает великий и могучий, а только варварские наречия евро-западненцев.

Ситуацию можно скорректировать, если скачать и установить обновлённую версию VueScan с этой страницы.
Программа упакована в rar-архив размером 8,56 МБ.

Отличия от официальной пробной версии состоят в малом, но существенном. А именно: добавлен модуль распознавания русского текста и внутрь архива вложен текстовый файл serial.txt с данными для снятия ограничений по использованию.

Установка.


Распаковать и скопировать полученную папку VueScanOCR в каталог /opt, который собственно и предназначен для всяческих ‘левых’ и portable программ, как то AdobeReader, Google Chrome и иже с ними. (Потребуются права root).

А вот сделать менюшную ссылку на запуск VueScanOCR придётся ручками.

При первом запуске (принтер должен быть включён) VueScanOCR попросит ввести данные из файла serial.txt – сделайте это. И сразу же МЕНЮ – Сканер – Калибровать.

Создайте каталог в /home/username/, например с именем ‘сканер’, куда VueScanOCR будет складировать результаты своих трудов, что вы должны указать в настройках программы (вкладка – На выходе).

Интерфейс – русский, поэтому затруднений у вас не должно возникнуть.

Про сканирование текста с бумажных носителей.

На вкладке На входе отметьте – Носитель > текст

На вкладке На выходе отметьте – Распознавать текст. Язык – русский и укажите, куда складывать созданные файлы. А также тип файла – tiff 16 бит серого.

На вкладке Настройки укажите имя редактора, в котором должен открываться распознанный текст, если хотите, конечно. Я зарядил OOo Writer – в нём удобно обрабатывать текст с помощью расширения «Альтернативный поиск».

Некоторые нюансы


VueScanOCR умеет выводить распознанное только в формате простого текста. Но качество распознавания – хорошее. Выполнив задание, VueScanOCR сохранит в прописанный настройками каталог файл скан-картинки и текстовый файл, а если указан в настройках внешний редактор, то запустит его с распознанным текстом.

VueScanOCR не умеет распознавать ориентацию бумажного носителя, поэтому, если требуется отсканировать несколько разворотов книги сначала запустите Просмотр, с помощью стрелок поверните скан нужным образом и тогда уже можно будет все последующие развороты безболезненно сканировать сразу же без предварительного просмотра.

Экспериментируйте: Insdom – вольный естествоиспытатель альтернативного софта для домашнего линукс-десктопа, но Insdom – не учителка и не писатель мануалов.

Если же вам более интересно распознавание с сохранением форматирования, то это сфера приложения cuneiform+yagf в сочетании с Xsane. Подробнее — здесь .
 
Зависимости: Imagemagic, libmagic++2

Кое-какие необычности

#01. В окне yagf необходимо указать тип файла html
#02. В процессе работы создаётся черновая копия html-файла с автосохранением в скрытом каталоге /home/username/.yagf, и у этой копии гораздо более высокое качество распознанного форматирования, нежели у рабочего файла.

Для deb-based дистрибутивов cuneiform+yagf можно взять здесь: http://www.mediafire.com/alexp

В Ubuntu 9.10 Karmic работает отлично.

Если у вас Mandriva и вы успели обновиться до версии 2010, то работоспособную пару cuneiform+yagf надо брать вручную из yandex-репозитория EduMandriva 2009, а не  EduMandriva 2010, здесь http://mirror.yandex.ru/mirrors/EduMandriva/educontrib/ . Потому что разработчики некогда нежно мною любимого дистрибутива снова напоролись на свои излюбленные грабли: программы, обновлённые под новую версию дистрибутива, зачастую работают через пень-колоду, если вообще работают.

При этом, если у вас Mandriva 2010 и вы попытаетесь установить старую сборку с вкладки EduMandriva 2009 на сайте автоустановки софта http://za1raz.mandriva.ru/ , всё равно скачается кривая сборка  из EduMandriva 2010. По крайней мере так было пару недель тому назад.

Суть проблеммы: на запуск директивы "Распознать" следует ответ системы: Cuneiform for linux 0.8.0 PUMA_init failed

Главное будет не дать потом системе обновить cuneiform+yagf до версии 2010, например, отключением репозитория EduMandriva от своей системы.

[urlhttp://sites.google.com/site/insdom02/linux-soft-deluxe/raspoznavanie-russkogo-teksta-v-linuks]Источни
Записан

Уроки Phptoshop, Linux, Windows 7
   

 Записан
Страниц: [1]   Вверх
  Печать  
 
Перейти в:  



* Счетчики
Наша Кнопка

Powered by SMF 1.1.16 | SMF © 2006-2009, Simple Machines | Sitemap
SimplePortal 2.3 © 2008-2009, SimplePortal