სკანირებული ტექსტის ამოცნობა
ავტორი tsotne
Optical Character Recognition (OCR)
წერილები: 83
tsotne says:
24 აპრილი 2012, 17:51
მოგესალმებით :)

როგორც ვიცი არსებობს ქართული სკანირებული ტექსტის გადამყვანი ანუ სურათიდან ტექსტად გადამქცევი პროგრამები: "ქორის თვალი" და "ABBYY Fine Reader". მაინტერესებს რამდენად კარგად ასრულებენ ეს პროგრამები თავიანთ დავალებას. როგორ მუშაობენ ისინი ცოტა დაბალი ხარისხის სურათებზე, ცოტათი მობრუნებულ გვერდებზე, ან საერთოდ ხელით ნაწერზე.

მაინტერესებს რამდენადაა მოთხოვნა ასეთ პროგრამაზე საქართველოში. ჭირდება თუ არა კერძო პირებს ან სახელმწიფო ორგანოებს. ვფიქრობ, მაგალითად ეროვნული ბიბლიოთეკისთვის საკმაოდ საინტერესო უნდა იყოს (შეძლებენ ელექტრონული ბიბლიოთეკის გაკეთებას. შეძლებენ იმ წიგნების ტექსტად გადაყვანას, რომლებიც უკვე კარგ მდგომარეობაში აღარ არის და ა.შ.)

ეს თემა ფორუმ.გე -ზე გავხსენი, მაგრამ აქაც გავხსენი რადგან როგორც გავიგე რამდენიმე ადამიანს პირდაპირი შეხება ჰქონია OCR-თან (ჭრელას, ვარამას და ანდროს).
წერილები: 74
Quick says:
24 აპრილი 2012, 18:57
მე არ მქონდა ოცრ-თან შეხება, ჩემ ძმას ჰქონდა, მაგაზე სამაგისტრო დაწერა.
მოკლედ to my knowledge ყველა არსებულ სოფტს ქართულთან დაკავშირებით ერთი დიდი პრობლემა აქვს: თუ მუშაობს, მუშაობს მარტო ერთ ფონტთან კარგად, სხვებს ვეღარ გებულობს. არი 2 გზა ან machine learning მიდგომა გამოიყენო რო ყველა ფონტზე ავარჯიშო და მერე ამოცნობის სიზუსტე იზრდება (მაგას აკეთებდა ჩემი ძმა opensource სისტემის tesseract დახმარებით) ან სერიოზულად იჩალიჩო თვითონ ამოცნობის ალგორითმში და ქართული ანბანის ასოების მოხაზულობის თავისებურებები ჩადო, რაც იდეაში გაზრდის კარგად აღქმადი ფონტების სიმრავლეს.
სხვა საკითხია რა სტიმული შეიძლება ჰქონდეს ადამიანს ამის გაკეთებისთვის, იმიტომ რომ სერიოზული სამუშაოა ჩასატარებელი. როგორც Fine Reader-ს ესეთ პროდუქტს ვერ გაყიდი საქართველოში, ცხადია დაკრეკავენ ეგრევე. ანუ ვიღაცის დაკვეთა უნდა იყოს განათლების სამინისტროს, მაგალითად, იმისთვის რომ იგივე ბიბლიოთეკები ციფრულ ფორმატში გადაიყვანოს. მგონი ასეთი მოთხოვნა ჯერ არ არსებობს და სანამ არ იქნება რეალური წინსვლა ამ სფეროში მოსალოდნელი არაა imho.
წერილები: 83
tsotne says:
24 აპრილი 2012, 19:03
ფონტებით მიდგომა ცუდია ჩემი აზრით. ვიღაცას რომ მოუნდეს რაიმეს დასკანირება ვერ მიცემ გარანტიას რომ მისი ფონტი უეჭველი გექნება. უკეთესი და უფრო რთული მიდგომაა ალგორითმული. მაგრამ ძალიან საინტერესო :) გაყიდვით შეიძლება გაყიდო, გააჩნია როგორ გააკეთებ. მე ასეთი რამ მოვიფიქრე: პროგრამას რომ გადმოწერ, სურათს ჩააგდებ, მერე ეს აქ დაამუშავებს და კომპაქტურად გააგზავნის ამ ინფორმაციას (არაა აუცილებელი სურათი გააგზავნოს... შეუძლია რაიმე შუალედური ინფორმაცია გააგზავნოს - თანაც ზომაში უფრო მცირე იქნება ვიდრე თვითონ სურათი, ანუ არ იქნება ნელი ატვირთვა) სერვერზე. იქიდან კი უკან ტექსტი გამოეგზავნება. ხოლო გადასახადი სიტყვების რაოდენობით იქნება. ანუ ეგ მოგვარებადია, მთავარია, არსებობს თუ არა მოთხოვნა.
წერილები: 49
25 აპრილი 2012, 0:03
ეგ თემა მეც მაინტერესებდა და ვეძებდი რამე მიდგომებს როგორ აკეთებდნენ და რა მეთოდი ჯობდა მაგრამ თითქმის ვერაფერი ვიპოვე.
წერილები: 83
tsotne says:
25 აპრილი 2012, 0:46
არ მიცდია მოძებნა მაგრამ არა მგონია ეგეთი რთული იყოს ნახვა...

შენ თვითონ მოიფიქრე :) შეიძლება ვერ გამოვიდეს ძაან მაგარი მარა ეგ ისეთი დავალებაა, რომ ახალი იდეები ჭირდება, და რა იცი, იქნება კარგი გამოდგეს :)
წერილები: 74
Quick says:
25 აპრილი 2012, 2:04
აქ იშოვება რაღაც საინტერესო დოკუმენტები
წერილები: 83
tsotne says:
25 აპრილი 2012, 16:30
მადლობა, გადავხედავ :)
წერილები: 48
nikaj says:
26 აპრილი 2012, 11:04
სადღაც შეჯიბრებაზე მოგებული Fine Reader (ABBYY იყო სპონსორი) ახლა აგდია სადღაც ისე რო არც გამიხსნია მგონი :)
წერილები: 83
tsotne says:
26 აპრილი 2012, 13:20
ახლაც ატარებენ ეგენი მემგონი, CodeForces-ზე :)
წერილები: 5
daylight says:
14 მაისი 2012, 12:07
გამოვიდა ქართული ოპტიკური ამოცნობის სისტემა SunnyPage რომელიც იყენებს tesseract-ს SunnyPage.ge
წერილები: 83
tsotne says:
14 მაისი 2012, 12:15
ეგეთი საიტი რომ არ არსებობს არაუშავს? :)
წერილები: 5
daylight says:
17 მაისი 2012, 0:16
ეხლა მუშაობს

http://www.sunnypage.ge/ge ქართული ვერსია,
http://www.sunnypage.ge ინგლირური ვერსია და
http://www.sunnypage.ge/ru რუსული ვერსია
გთხოვთ გაიარეთ ავტორიზაცია კომენტარის გამოსაქვეყნებლად.
სიახლეები Facebook-ზე
მომავალი ღონისძიებები
მომავალი ღონისძიებების სია ცარიელია.
ღონისძიებების კალენდარი
მხარდამჭერები






ახალი კომენტარები
Dixtosa Episode II - Analysis...
Eშისაიდან მოვიდა 3**13?ისე 4 * 52 * 3**13 = 331M+ ...
Quick GeOlymp 2013 - ფინალური ეპიზოდი იწყება...
Upsolving ჩაირთო...
saba_tavdgiridze GeOlymp 2013 - ფინალური ეპიზოდი იწყება...
აღარ მინდა.:)...
saba_tavdgiridze GeOlymp 2013 - ფინალური ეპიზოდი იწყება...
B ამოცანის 17 ტესტს ვერ მიმანიშნებთ?...
tornike5 GeOlymp 2013 - ფინალის შესახებ...
ვაპირებდი იგივე მეკითხა მარა მეგონა უეჭველი იქნება...
giorgi123 GeOlymp 2013 - ფინალის შესახებ...
მადლობა.შარშან ფინალში ამოცანების ყურებით ვიფარგლე...
Elle GeOlymp 2013 - ფინალის შესახებ...
შარშან ფინალს codeblocks-ით წერდით?დავაყენეთ codeb...