ব্যাটারির র্যাবের র্যাঙ্কিংয়েও হ্যাকাররা
these are encoded in utf8. text is right in Bengali. On Thursday, 14 September, 2023 at 7:19:43 pm UTC+6 desal...@gmail.com wrote: > The absence of a character in the unicharset is not supposed to cause > error. You have to cross-check that it is encoded in utf8. > On Thursday, September 14, 2023 at 3:49:05 PM UTC+3 mdalihu...@gmail.com > wrote: > >> We create ground-truth files that are created by every language including >> these types of files. because * ্য *this letter is not in >> ben.unicharset files and shows and creates without ্য ground-truth files >> and when I training its shows me this error for missing * ্য . *I >> think that. but not sure. >> >> On Thursday, 14 September, 2023 at 6:43:45 pm UTC+6 Ali hussain wrote: >> >>> I mean in langdata_lstm >>> https://github.com/tesseract-ocr/langdata_lstm/tree/main/ben >>> every language has its own unicharset file. >>> >>> On Thursday, 14 September, 2023 at 6:35:29 pm UTC+6 zdenop wrote: >>> >>>> unicharset is created automatically (by official training procedure >>>> https://github.com/tesseract-ocr/tesstrain) >>>> >>>> >>>> Zdenko >>>> >>>> >>>> št 14. 9. 2023 o 13:56 Ali hussain <mdalihu...@gmail.com> napísal(a): >>>> >>>>> I have faced in my own trianed_text this normalization error. I think >>>>> the main problem is * ্য *in these words. and i did't find* ্য* >>>>> in ben.unicharset file. I think this is the reason for the show error. >>>>> if I create a unicharset for * ্য *and add in ben.unicharset file it >>>>> will work? >>>>> I don't know how to create a unicharset for this * ্য * like look at >>>>> these words you can understand better. thx >>>>> >>>>> ব্যাটারির >>>>> র্যাবের >>>>> র্যাঙ্কিংয়েও >>>>> হ্যাকাররা >>>>> >>>>> *This is the main error.: * >>>>> Extracting unicharset from plain text file data/ben/all-gt >>>>> Invalid start of grapheme sequence:D=0x981 >>>>> Normalization failed for string 'পারে মটোরোলার গবেষকেদের তৈরি বিশেষ এ >>>>> উলকি ত্বকের ওপর আঁঁকা এক ধরনের সার্কিটের মতো এতে কোনো ব্যাটারির প্রয়োজন >>>>> পড়ে না' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence:H=0x9cd >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence:H=0x9cd >>>>> Normalization failed for string 'হবে এসব স্থানে মোটরসাইকেল নিয়ে ও >>>>> হেঁটে র্যাবের দল টহল দেবে র্যাবের পোশাকধারী সদস্যের পাশাপাশি সাদা >>>>> পোশাকে >>>>> গোয়েন্দা' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence:H=0x9cd >>>>> Normalization failed for string 'র্যাবের এক বিজ্ঞপ্তিতে এ তথ্য জানানো >>>>> হয় রমজান মাসে আর্থিক লেনদেন বেড়ে যাওয়ায় ছিনতাই চাঁদাবাজির মতো >>>>> সন্ত্রাসী >>>>> কর্মকাণ্ড রোধে' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence:H=0x9cd >>>>> Normalization failed for string 'কার্যক্রম জোরদার করা হবে এ ব্যাপারে >>>>> র্যাবের গণমাধ্যম শাখার পরিচালক উইং কমান্ডার এ টি এম হাবিবুর রহমান প্রথম >>>>> আলো' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence:H=0x9cd >>>>> Normalization failed for string 'বড় ব্যবধানে হারানোর পর এখন বিশ্বকাপ >>>>> জয়ের স্বপ্নে বিভোর ব্রাজিলের সমর্থকেরা ফুটবলে ব্রাজিলিয়ান উত্থানের >>>>> প্রতিধ্বনি শোনা যাচ্ছে ফিফার র্যাঙ্কিংয়েও' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence: H=0x9cd >>>>> Normalization failed for string 'নয় নম্বরে গত বছরের জুলাই থেকে শুরু >>>>> হয়েছিল ফিফা র্যাঙ্কিংয়ে ব্রাজিলের অবনমন স্বাগতিক হওয়ার সুবাদে >>>>> বিশ্বকাপ >>>>> বাছাই পর্ব খেলতে' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence: H=0x9cd >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence: H=0x9cd >>>>> Normalization failed for string 'এসব পদক্ষেপ নিয়েছে র্যাব নিরাপত্তা >>>>> পরিকল্পনার অংশ হিসেবে অন্য আইনশৃঙ্খলা বাহিনীর পাশাপাশি র্যাবও নিজস্ব >>>>> দায়িত্বপূর্ণ এলাকায় তিন ধাপে' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence: H=0x9cd >>>>> Normalization failed for string 'ঠেকাতে র্যাবের পদক্ষেপের কথা উল্লেখ >>>>> করেন উইং কমান্ডার হাবিবুর রহমান এ ব্যাপারে তিনি বলেন বাস রেল লঞ্চ >>>>> কাউন্টার >>>>> ও' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence: H=0x9cd >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence: H=0x9cd >>>>> Normalization failed for string 'নিয়ন্ত্রণে রাখতে অন্যবারের মতো >>>>> এবারের রমজান মাসেও দেশজুড়ে বাড়তি নিরাপত্তা ব্যবস্থা নিয়েছে র্যাপিড >>>>> একশন >>>>> ব্যাটালিয়ন র্যাব আজ বৃহস্পতিবার' >>>>> Invalid start of grapheme sequence: M=0x9be >>>>> Invalid start of grapheme sequence: M=0x9be >>>>> Invalid start of grapheme sequence: M=0x9be >>>>> Normalization failed for string 'ফিশিং এটাক বলে এ ছাড়া ডিকশনারি এটাক >>>>> বা সহজে অনুমান করা যায় এমন শব্দনির্ভর পাসওয়াার্ডগুলো দিয়েও আক্রমণ করে >>>>> হ্যাকাররা গবেষকেরা' >>>>> Dropping isolated joiner: 0x200c >>>>> Invalid start of grapheme sequence: H=0x9cd >>>>> Normalization failed for string 'ফাইনালে ব্রাজিলের কাছে হেরে >>>>> কনফেডারেশনস কাপের শিরোপাটা অধরা থেকে গেলেও ফিফা র্যাঙ্কিংয়ের >>>>> শীর্ষস্থানটা >>>>> হারাতে হয়নি স্পেনকে ১৫৩২ পয়েন্ট নিয়ে' >>>>> >>>>> -- >>>>> You received this message because you are subscribed to the Google >>>>> Groups "tesseract-ocr" group. >>>>> To unsubscribe from this group and stop receiving emails from it, send >>>>> an email to tesseract-oc...@googlegroups.com. >>>>> To view this discussion on the web visit >>>>> https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com >>>>> >>>>> <https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com?utm_medium=email&utm_source=footer> >>>>> . >>>>> >>>> -- You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To unsubscribe from this group and stop receiving emails from it, send an email to tesseract-ocr+unsubscr...@googlegroups.com. To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/9245e8e8-3d65-4511-a0db-ecec77125e9an%40googlegroups.com.