?

Log in

 
 
13 December 2011 @ 10:51 am
SanskritOCR  
В новой версии SanskritOCR от Оливера (Oliver Hellwig) качество распознавания дэванагари заметно улучшилось. Но результат не очень стабильный. Местами распознаёт просто идеально, местами - ошибка на ошибке. Любит добавлять анусвары где ни попадя и всё такое. Так что без строгой вычитки не обойтись. Но всё лучше, чем печатать самому. (Для программы-близнеца HindiOCR, заточенной под хинди, где лигатур гораздо меньше, заявлена точность распознавания в 99%.)

Работает очень просто: открыть картинку (понимает bmp, jpg и png), выделить нужную область и ткнуть кнопку "распознать" (там, где лупа с красными буквами abc).





Результат появляется в нижнем окне в виде юникодовского дэванагари, раскрашенного в разные цвета:
чёрный - найдено в словаре;
зелёный - не найдено в словаре, но должно быть правильно;
серый - что-то сомнительное;
синий - автоматически исправленное.
Некоторые места (видимо, самые подозрительные) выделяются
жёлтым.

Встроенная в программу клавиатурная раскладка дэванагари позволяет исправлять распознанный текст, не отходя от кассы. Правда, раскладку эту придётся признать недоделанной - в ней не предусмотрено возможности вводить ऌ ॢ ॐ ॥, т.е. даже полного алфавита нет. И ещё - если что-то неправильно там впечатать или удалить и по привычке нажать Ctrl+z для отмены последнего действия, то коварная программа за последнее действие считает вовсе не ввод последней буквы с клавиатуры, а распознавание текста картинки. В результате весь распознанный текст вместе с внесёнными поправками просто пропадает и вернуть его обратно нет никакой возможности, кроме как запустить распознавание заново.



Есть обучающий режим, который теоретически должен существенно повысить качество распознавания.



В работе обучалки два недостатка. 1. Нельзя создавать свои буквы, а обучать можно только тому, что было предусмотрено автором программы. 2. Программа сама выбирает контур, на это никак нельзя повлиять, и если программа не сумеет правильно его определить, то и обучить её правильному распознаванию не получится. Попытался научить её узнавать ॐ, который она постоянно пыталась распознать как द्ध्यं,  ईँई и тому подобную ерунду. При этом верхняя часть значка постоянно выпадает из выделения. В результате программа начала распознавать его как ओं. Но невписавшаяся часть при этом распознаётся в виде дополнительного мусора. Так же и с другими буквами и комбинациями - если программа их как-то неправильно выделила, то остаётся только нажать "Skip!"





Демо-версия доступна для свободного скачивания. В ней нет пункта меню "сохранить" и заблокированы привычные комбинации Ctrl+C или Ctrl+Ins. Но хитрый мышЪ знает, как утащить буковки. ;)
UPD. Увы, демку на сайте обновили, на мыша поставили мышеловку. :(

В полной версии дана возможность сохранять результаты по желанию в юникоде или в транслите. Ещё, если правильно понимаю, к полной версии прилагается готовый набор обученных шрифтовых шаблонов.



Цена на полную версию программы какая-то не совсем адекватная указана - 129 евро или 9 036 рупий, или 171 бакс. После того, как старые версии, пускай и недоделанные, раньше лежали в сети в свободном доступе, удивляет такой резкий переход к коммерческим продажам. Причём с явной ориентацией на покупку организациями. Малообеспеченные частные любители санскрита в расчёт не берутся.

Изучение условий покупки программы повергло меня в полный восторг. Условия эти ещё намного менее адекватны, чем цена. Разработчик за эти деньги гарантирует, что в течение 30 дней после приобретения данной софтинки он примет к сведению информацию об обнаруженных багах и, возможно, даже попробует их исправить, если посчитает это коммерчески оправданным. Разработчик не гарантирует, что программа будет правильно работать или что она вообще будет работать. Более того, "Oliver Hellwig expressly does not warrant that ... the software will be free of ... viruses..." !!! Причём активация программы производится только через интернет. И не понятно, возможна ли повторная активация (например, после переустановки) и если да, то будет ли она доступна по истечении 30 дней, или пользователю надо каждый раз заново покупать программу. И кстати, если вдруг их контора завтра прогорит, то активировать вашу оплаченную программу станет некому. И при том, что программа сама по себе замечательная и уникальная, но покупать её за такие деньги на таких подлых условиях как-то совсем нету никакого желания...





 
 
Current Music: Zaz - Je veux
 
 
 
pingback_botpingback_bot on December 14th, 2011 09:29 am (UTC)
Sanskrit OCR
User yaoayao referenced to your post from Sanskrit OCR saying: [...] http://renuvate.livejournal.com/12091.html [...]
Гауриgouramma on March 8th, 2012 08:58 pm (UTC)
Привет!
Может знаешь какую-нибудь программку, которая pdf файл c ltdfyfufhb переводить в текст (doc, txt) умеет?
renuvaterenuvate on March 10th, 2012 08:09 pm (UTC)
Так ведь PDFы разные бывают. Бывают со сканированными картинками. Картинки можно вытащить и попытаться распознать. А бывают с текстом. Сам текст легко копируется. Однако алгоритм сжатия PDF перекосячивает кодировку на свой лад, так что даже если найти тот шрифт, которым делали файл, текст всё равно получается испорченный. Короче, программки не знаю.
Гауриgouramma on March 10th, 2012 08:37 pm (UTC)
В пдфке картинки, текст не копируется.
Я не поняла - это так надо, что эта программа в итоге выдает некое подобие транслита вместо деванагари? Или я что-то накосячила?
renuvaterenuvate on March 10th, 2012 10:29 pm (UTC)
Если проблема с тем, чтобы вытащить картинки из файла PDF, то я это делал в Adobe Acrobat (не путать с Adobe Acrobat Reader). Наверное, и другие программки для редактирования PDF это могут.

Подобие транслита на выходе я наблюдал в старых версиях SanskritOCR. В новой - юникодное дэванагари. Например, результат с первой тестовой картинки такой:
अतीन्द्रिये भूतादावर्थे-
लैङ्गिकं प्रमाणं व्यू!ख्म्गेतम् । १० । १९ ।
लैङ्गिकं परोक्षमुच्यते, भविष्यति' इत्यादि कार्याणां येनावगम्यते तदनुमानं
प्रमाणं व्याख्यातम् ।
ну и т.д.
Гауриgouramma on March 10th, 2012 10:30 pm (UTC)
ты купил чтоль новую версию?! я нашла старую, выдает транслит. :((((

очень надо для грамматики. поможешь?
renuvaterenuvate on March 10th, 2012 10:32 pm (UTC)
Нет, не купил. Меня новая демка вполне устраивает.
Гауриgouramma on March 10th, 2012 10:35 pm (UTC)
но там же сохранить результат нельзя???
или скопировать в ворд можно?
renuvaterenuvate on March 10th, 2012 10:38 pm (UTC)
МышЪ перетаскивает на раз. Ловкость рук и никакого мошенства.
Гауриgouramma on March 10th, 2012 10:39 pm (UTC)
Спасибо!
Завтра попробую демку, вернусь к тебе с вопросами. :)
renuvaterenuvate on March 10th, 2012 10:47 pm (UTC)
Ага, обращайся. Может, чего и подскажу ещё :)
Но чтобы не было обольщений - всё равно придётся много ручками исправлять.
Гауриgouramma on March 10th, 2012 10:49 pm (UTC)
исправлять - ладно! а то сейчас приходится все руками набирать! всю сиддханту каумуди!
renuvaterenuvate on March 10th, 2012 10:56 pm (UTC)
Экие ужасы на сон грядущий ты мне рассказываешь! Вот вдруг теперь приснится уважаемый Бхаттоджи да спросит: "А ты набрал руками Сиддханту каумуди?" - что я ему скажу?
Гауриgouramma on March 10th, 2012 11:00 pm (UTC)
Скажешь "ЕЩЕ нет", встанешь и пойдешь набирать ;))))))
vvrogov on February 17th, 2015 06:04 am (UTC)
перетаскивание букв
Что-то у меня мышЪ не достаточно хитрый (или я), не хочут буковы перетаскиваться, объясните, пожалуйста поподробней, как Вы это делаете :)