The absence of a character in the unicharset is not supposed to cause 
error. You have to cross-check that it is encoded in utf8. 
On Thursday, September 14, 2023 at 3:49:05 PM UTC+3 mdalihu...@gmail.com 
wrote:

> We create ground-truth files that are created by every language including 
> these types of files. because  * ্য  *this letter is not in 
> ben.unicharset files and shows and creates without   ্য  ground-truth files 
> and when I training its shows me this error for missing  * ্য .  *I think 
> that. but not sure.
>
> On Thursday, 14 September, 2023 at 6:43:45 pm UTC+6 Ali hussain wrote:
>
>> I mean in langdata_lstm 
>> https://github.com/tesseract-ocr/langdata_lstm/tree/main/ben
>> every language has its own unicharset file.
>>
>> On Thursday, 14 September, 2023 at 6:35:29 pm UTC+6 zdenop wrote:
>>
>>> unicharset is created automatically (by official training procedure 
>>> https://github.com/tesseract-ocr/tesstrain)
>>>
>>>
>>> Zdenko
>>>
>>>
>>> št 14. 9. 2023 o 13:56 Ali hussain <mdalihu...@gmail.com> napísal(a):
>>>
>>>> I have faced in my own trianed_text this normalization error. I think 
>>>> the main problem is * ্য    *in these words. and i did't find*  ্য*  
>>>> in  ben.unicharset file. I think this is the reason for the show error.  
>>>> if I create a unicharset for * ্য  *and add in ben.unicharset file it 
>>>> will work? 
>>>> I don't know how to create a unicharset for this * ্য  * like look at 
>>>> these words you can understand better. thx
>>>>
>>>> ব্যাটারির 
>>>> র‌্যাবের 
>>>> র‌্যাঙ্কিংয়েও
>>>> হ্যাকাররা 
>>>>
>>>> *This is the main error.: *
>>>> Extracting unicharset from plain text file data/ben/all-gt
>>>> Invalid start of grapheme sequence:D=0x981
>>>> Normalization failed for string 'পারে মটোরোলার গবেষকেদের তৈরি বিশেষ এ 
>>>> উলকি ত্বকের ওপর আঁঁকা এক ধরনের সার্কিটের মতো এতে কোনো ব্যাটারির প্রয়োজন 
>>>> পড়ে না'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence:H=0x9cd
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence:H=0x9cd
>>>> Normalization failed for string 'হবে এসব স্থানে মোটরসাইকেল নিয়ে ও 
>>>> হেঁটে র‌্যাবের দল টহল দেবে র‌্যাবের পোশাকধারী সদস্যের পাশাপাশি সাদা পোশাকে 
>>>> গোয়েন্দা'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence:H=0x9cd
>>>> Normalization failed for string 'র‌্যাবের এক বিজ্ঞপ্তিতে এ তথ্য জানানো 
>>>> হয় রমজান মাসে আর্থিক লেনদেন বেড়ে যাওয়ায় ছিনতাই চাঁদাবাজির মতো 
>>>> সন্ত্রাসী 
>>>> কর্মকাণ্ড রোধে'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence:H=0x9cd
>>>> Normalization failed for string 'কার্যক্রম জোরদার করা হবে এ ব্যাপারে 
>>>> র‌্যাবের গণমাধ্যম শাখার পরিচালক উইং কমান্ডার এ টি এম হাবিবুর রহমান প্রথম 
>>>> আলো'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence:H=0x9cd
>>>> Normalization failed for string 'বড় ব্যবধানে হারানোর পর এখন বিশ্বকাপ 
>>>> জয়ের স্বপ্নে বিভোর ব্রাজিলের সমর্থকেরা ফুটবলে ব্রাজিলিয়ান উত্থানের 
>>>> প্রতিধ্বনি শোনা যাচ্ছে ফিফার র‌্যাঙ্কিংয়েও'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence: H=0x9cd
>>>> Normalization failed for string 'নয় নম্বরে গত বছরের জুলাই থেকে শুরু 
>>>> হয়েছিল ফিফা র‌্যাঙ্কিংয়ে ব্রাজিলের অবনমন স্বাগতিক হওয়ার সুবাদে বিশ্বকাপ 
>>>> বাছাই পর্ব খেলতে'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence: H=0x9cd
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence: H=0x9cd
>>>> Normalization failed for string 'এসব পদক্ষেপ নিয়েছে র‌্যাব নিরাপত্তা 
>>>> পরিকল্পনার অংশ হিসেবে অন্য আইনশৃঙ্খলা বাহিনীর পাশাপাশি র‌্যাবও নিজস্ব 
>>>> দায়িত্বপূর্ণ এলাকায় তিন ধাপে'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence: H=0x9cd
>>>> Normalization failed for string 'ঠেকাতে র‌্যাবের পদক্ষেপের কথা উল্লেখ 
>>>> করেন উইং কমান্ডার হাবিবুর রহমান এ ব্যাপারে তিনি বলেন বাস রেল লঞ্চ কাউন্টার 
>>>> ও'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence: H=0x9cd
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence: H=0x9cd
>>>> Normalization failed for string 'নিয়ন্ত্রণে রাখতে অন্যবারের মতো এবারের 
>>>> রমজান মাসেও দেশজুড়ে বাড়তি নিরাপত্তা ব্যবস্থা নিয়েছে র‌্যাপিড একশন 
>>>> ব্যাটালিয়ন র‌্যাব আজ বৃহস্পতিবার'
>>>> Invalid start of grapheme sequence: M=0x9be
>>>> Invalid start of grapheme sequence: M=0x9be
>>>> Invalid start of grapheme sequence: M=0x9be
>>>> Normalization failed for string 'ফিশিং এটাক বলে এ ছাড়া ডিকশনারি এটাক 
>>>> বা সহজে অনুমান করা যায় এমন শব্দনির্ভর পাসওয়াার্ডগুলো দিয়েও আক্রমণ করে 
>>>> হ্যাকাররা গবেষকেরা'
>>>> Dropping isolated joiner: 0x200c
>>>> Invalid start of grapheme sequence: H=0x9cd
>>>> Normalization failed for string 'ফাইনালে ব্রাজিলের কাছে হেরে 
>>>> কনফেডারেশনস কাপের শিরোপাটা অধরা থেকে গেলেও ফিফা র‌্যাঙ্কিংয়ের 
>>>> শীর্ষস্থানটা 
>>>> হারাতে হয়নি স্পেনকে ১৫৩২ পয়েন্ট নিয়ে' 
>>>>
>>>> -- 
>>>> You received this message because you are subscribed to the Google 
>>>> Groups "tesseract-ocr" group.
>>>> To unsubscribe from this group and stop receiving emails from it, send 
>>>> an email to tesseract-oc...@googlegroups.com.
>>>> To view this discussion on the web visit 
>>>> https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com
>>>>  
>>>> <https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com?utm_medium=email&utm_source=footer>
>>>> .
>>>>
>>>

-- 
You received this message because you are subscribed to the Google Groups 
"tesseract-ocr" group.
To unsubscribe from this group and stop receiving emails from it, send an email 
to tesseract-ocr+unsubscr...@googlegroups.com.
To view this discussion on the web visit 
https://groups.google.com/d/msgid/tesseract-ocr/eead450d-f087-47a1-bcd7-6dd93975de26n%40googlegroups.com.

Reply via email to