unicharset is created automatically (by official training procedure
https://github.com/tesseract-ocr/tesstrain)


Zdenko


št 14. 9. 2023 o 13:56 Ali hussain <mdalihussain...@gmail.com> napísal(a):

> I have faced in my own trianed_text this normalization error. I think the
> main problem is * ্য    *in these words. and i did't find*  ্য*  in
> ben.unicharset file. I think this is the reason for the show error.
> if I create a unicharset for * ্য  *and add in ben.unicharset file it
> will work?
> I don't know how to create a unicharset for this * ্য  * like look at
> these words you can understand better. thx
>
> ব্যাটারির
> র‌্যাবের
> র‌্যাঙ্কিংয়েও
> হ্যাকাররা
>
> *This is the main error.: *
> Extracting unicharset from plain text file data/ben/all-gt
> Invalid start of grapheme sequence:D=0x981
> Normalization failed for string 'পারে মটোরোলার গবেষকেদের তৈরি বিশেষ এ উলকি
> ত্বকের ওপর আঁঁকা এক ধরনের সার্কিটের মতো এতে কোনো ব্যাটারির প্রয়োজন পড়ে না'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence:H=0x9cd
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence:H=0x9cd
> Normalization failed for string 'হবে এসব স্থানে মোটরসাইকেল নিয়ে ও হেঁটে
> র‌্যাবের দল টহল দেবে র‌্যাবের পোশাকধারী সদস্যের পাশাপাশি সাদা পোশাকে
> গোয়েন্দা'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence:H=0x9cd
> Normalization failed for string 'র‌্যাবের এক বিজ্ঞপ্তিতে এ তথ্য জানানো হয়
> রমজান মাসে আর্থিক লেনদেন বেড়ে যাওয়ায় ছিনতাই চাঁদাবাজির মতো সন্ত্রাসী
> কর্মকাণ্ড রোধে'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence:H=0x9cd
> Normalization failed for string 'কার্যক্রম জোরদার করা হবে এ ব্যাপারে
> র‌্যাবের গণমাধ্যম শাখার পরিচালক উইং কমান্ডার এ টি এম হাবিবুর রহমান প্রথম
> আলো'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence:H=0x9cd
> Normalization failed for string 'বড় ব্যবধানে হারানোর পর এখন বিশ্বকাপ
> জয়ের স্বপ্নে বিভোর ব্রাজিলের সমর্থকেরা ফুটবলে ব্রাজিলিয়ান উত্থানের
> প্রতিধ্বনি শোনা যাচ্ছে ফিফার র‌্যাঙ্কিংয়েও'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence: H=0x9cd
> Normalization failed for string 'নয় নম্বরে গত বছরের জুলাই থেকে শুরু
> হয়েছিল ফিফা র‌্যাঙ্কিংয়ে ব্রাজিলের অবনমন স্বাগতিক হওয়ার সুবাদে বিশ্বকাপ
> বাছাই পর্ব খেলতে'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence: H=0x9cd
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence: H=0x9cd
> Normalization failed for string 'এসব পদক্ষেপ নিয়েছে র‌্যাব নিরাপত্তা
> পরিকল্পনার অংশ হিসেবে অন্য আইনশৃঙ্খলা বাহিনীর পাশাপাশি র‌্যাবও নিজস্ব
> দায়িত্বপূর্ণ এলাকায় তিন ধাপে'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence: H=0x9cd
> Normalization failed for string 'ঠেকাতে র‌্যাবের পদক্ষেপের কথা উল্লেখ করেন
> উইং কমান্ডার হাবিবুর রহমান এ ব্যাপারে তিনি বলেন বাস রেল লঞ্চ কাউন্টার ও'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence: H=0x9cd
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence: H=0x9cd
> Normalization failed for string 'নিয়ন্ত্রণে রাখতে অন্যবারের মতো এবারের
> রমজান মাসেও দেশজুড়ে বাড়তি নিরাপত্তা ব্যবস্থা নিয়েছে র‌্যাপিড একশন
> ব্যাটালিয়ন র‌্যাব আজ বৃহস্পতিবার'
> Invalid start of grapheme sequence: M=0x9be
> Invalid start of grapheme sequence: M=0x9be
> Invalid start of grapheme sequence: M=0x9be
> Normalization failed for string 'ফিশিং এটাক বলে এ ছাড়া ডিকশনারি এটাক বা
> সহজে অনুমান করা যায় এমন শব্দনির্ভর পাসওয়াার্ডগুলো দিয়েও আক্রমণ করে
> হ্যাকাররা গবেষকেরা'
> Dropping isolated joiner: 0x200c
> Invalid start of grapheme sequence: H=0x9cd
> Normalization failed for string 'ফাইনালে ব্রাজিলের কাছে হেরে কনফেডারেশনস
> কাপের শিরোপাটা অধরা থেকে গেলেও ফিফা র‌্যাঙ্কিংয়ের শীর্ষস্থানটা হারাতে
> হয়নি স্পেনকে ১৫৩২ পয়েন্ট নিয়ে'
>
> --
> You received this message because you are subscribed to the Google Groups
> "tesseract-ocr" group.
> To unsubscribe from this group and stop receiving emails from it, send an
> email to tesseract-ocr+unsubscr...@googlegroups.com.
> To view this discussion on the web visit
> https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com
> <https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com?utm_medium=email&utm_source=footer>
> .
>

-- 
You received this message because you are subscribed to the Google Groups 
"tesseract-ocr" group.
To unsubscribe from this group and stop receiving emails from it, send an email 
to tesseract-ocr+unsubscr...@googlegroups.com.
To view this discussion on the web visit 
https://groups.google.com/d/msgid/tesseract-ocr/CAJbzG8xTXPZ9LcuYUuHs8_4YV7jOFGX8RWOFL-dg7MVfp7A-dA%40mail.gmail.com.

Reply via email to