The absence of a character in the unicharset is not supposed to cause error. You have to cross-check that it is encoded in utf8. On Thursday, September 14, 2023 at 3:49:05 PM UTC+3 mdalihu...@gmail.com wrote:
> We create ground-truth files that are created by every language including > these types of files. because * ্য *this letter is not in > ben.unicharset files and shows and creates without ্য ground-truth files > and when I training its shows me this error for missing * ্য . *I think > that. but not sure. > > On Thursday, 14 September, 2023 at 6:43:45 pm UTC+6 Ali hussain wrote: > >> I mean in langdata_lstm >> https://github.com/tesseract-ocr/langdata_lstm/tree/main/ben >> every language has its own unicharset file. >> >> On Thursday, 14 September, 2023 at 6:35:29 pm UTC+6 zdenop wrote: >> >>> unicharset is created automatically (by official training procedure >>> https://github.com/tesseract-ocr/tesstrain) >>> >>> >>> Zdenko >>> >>> >>> št 14. 9. 2023 o 13:56 Ali hussain <mdalihu...@gmail.com> napísal(a): >>> >>>> I have faced in my own trianed_text this normalization error. I think >>>> the main problem is * ্য *in these words. and i did't find* ্য* >>>> in ben.unicharset file. I think this is the reason for the show error. >>>> if I create a unicharset for * ্য *and add in ben.unicharset file it >>>> will work? >>>> I don't know how to create a unicharset for this * ্য * like look at >>>> these words you can understand better. thx >>>> >>>> ব্যাটারির >>>> র্যাবের >>>> র্যাঙ্কিংয়েও >>>> হ্যাকাররা >>>> >>>> *This is the main error.: * >>>> Extracting unicharset from plain text file data/ben/all-gt >>>> Invalid start of grapheme sequence:D=0x981 >>>> Normalization failed for string 'পারে মটোরোলার গবেষকেদের তৈরি বিশেষ এ >>>> উলকি ত্বকের ওপর আঁঁকা এক ধরনের সার্কিটের মতো এতে কোনো ব্যাটারির প্রয়োজন >>>> পড়ে না' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence:H=0x9cd >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence:H=0x9cd >>>> Normalization failed for string 'হবে এসব স্থানে মোটরসাইকেল নিয়ে ও >>>> হেঁটে র্যাবের দল টহল দেবে র্যাবের পোশাকধারী সদস্যের পাশাপাশি সাদা পোশাকে >>>> গোয়েন্দা' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence:H=0x9cd >>>> Normalization failed for string 'র্যাবের এক বিজ্ঞপ্তিতে এ তথ্য জানানো >>>> হয় রমজান মাসে আর্থিক লেনদেন বেড়ে যাওয়ায় ছিনতাই চাঁদাবাজির মতো >>>> সন্ত্রাসী >>>> কর্মকাণ্ড রোধে' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence:H=0x9cd >>>> Normalization failed for string 'কার্যক্রম জোরদার করা হবে এ ব্যাপারে >>>> র্যাবের গণমাধ্যম শাখার পরিচালক উইং কমান্ডার এ টি এম হাবিবুর রহমান প্রথম >>>> আলো' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence:H=0x9cd >>>> Normalization failed for string 'বড় ব্যবধানে হারানোর পর এখন বিশ্বকাপ >>>> জয়ের স্বপ্নে বিভোর ব্রাজিলের সমর্থকেরা ফুটবলে ব্রাজিলিয়ান উত্থানের >>>> প্রতিধ্বনি শোনা যাচ্ছে ফিফার র্যাঙ্কিংয়েও' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence: H=0x9cd >>>> Normalization failed for string 'নয় নম্বরে গত বছরের জুলাই থেকে শুরু >>>> হয়েছিল ফিফা র্যাঙ্কিংয়ে ব্রাজিলের অবনমন স্বাগতিক হওয়ার সুবাদে বিশ্বকাপ >>>> বাছাই পর্ব খেলতে' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence: H=0x9cd >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence: H=0x9cd >>>> Normalization failed for string 'এসব পদক্ষেপ নিয়েছে র্যাব নিরাপত্তা >>>> পরিকল্পনার অংশ হিসেবে অন্য আইনশৃঙ্খলা বাহিনীর পাশাপাশি র্যাবও নিজস্ব >>>> দায়িত্বপূর্ণ এলাকায় তিন ধাপে' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence: H=0x9cd >>>> Normalization failed for string 'ঠেকাতে র্যাবের পদক্ষেপের কথা উল্লেখ >>>> করেন উইং কমান্ডার হাবিবুর রহমান এ ব্যাপারে তিনি বলেন বাস রেল লঞ্চ কাউন্টার >>>> ও' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence: H=0x9cd >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence: H=0x9cd >>>> Normalization failed for string 'নিয়ন্ত্রণে রাখতে অন্যবারের মতো এবারের >>>> রমজান মাসেও দেশজুড়ে বাড়তি নিরাপত্তা ব্যবস্থা নিয়েছে র্যাপিড একশন >>>> ব্যাটালিয়ন র্যাব আজ বৃহস্পতিবার' >>>> Invalid start of grapheme sequence: M=0x9be >>>> Invalid start of grapheme sequence: M=0x9be >>>> Invalid start of grapheme sequence: M=0x9be >>>> Normalization failed for string 'ফিশিং এটাক বলে এ ছাড়া ডিকশনারি এটাক >>>> বা সহজে অনুমান করা যায় এমন শব্দনির্ভর পাসওয়াার্ডগুলো দিয়েও আক্রমণ করে >>>> হ্যাকাররা গবেষকেরা' >>>> Dropping isolated joiner: 0x200c >>>> Invalid start of grapheme sequence: H=0x9cd >>>> Normalization failed for string 'ফাইনালে ব্রাজিলের কাছে হেরে >>>> কনফেডারেশনস কাপের শিরোপাটা অধরা থেকে গেলেও ফিফা র্যাঙ্কিংয়ের >>>> শীর্ষস্থানটা >>>> হারাতে হয়নি স্পেনকে ১৫৩২ পয়েন্ট নিয়ে' >>>> >>>> -- >>>> You received this message because you are subscribed to the Google >>>> Groups "tesseract-ocr" group. >>>> To unsubscribe from this group and stop receiving emails from it, send >>>> an email to tesseract-oc...@googlegroups.com. >>>> To view this discussion on the web visit >>>> https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com >>>> >>>> <https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com?utm_medium=email&utm_source=footer> >>>> . >>>> >>> -- You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To unsubscribe from this group and stop receiving emails from it, send an email to tesseract-ocr+unsubscr...@googlegroups.com. To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/eead450d-f087-47a1-bcd7-6dd93975de26n%40googlegroups.com.