"--- Mai exact, de obicei ai paritate, ceea ce inseamna ca-ti corecteaza maxim un bit corect."
hmm. puneti mana pe teorie si (re)cititi capitolul "coduri detectoare si corectoare de erori". bitul de paritate poate DETECTA doar 1 bit eronat. t. 2013/11/16 Vali Dragnuta <[email protected]> > On Fri, 2013-11-15 at 17:25 +0000, Dan Borlovan wrote: > > Io nu sint in clar cu o chestie > > > > hdd-ul are ECC (si da il foloseste). Nu stiu daca memoria cache de pe > hdd e si ea macar cu bit de paritate, dar de pe platane erorile de citire > sint detectate (si in masura posibilitatilor corectate) > > --- Prespunind ca ajunge corect acolo.Oricum, nu stim cit de bun este > acel ECC (16bit, 32 bit...ce algoritm...) > > > > sata are si el ceva crc, ca si sirmele de firma pot avea probleme (asta > ca sa nu ma leg de ingeniosul care a proiectat mufele, care ies afara numai > cind te uiti la ele) > --- Da > > > > memoria dintr-un server e ecc > --- Mai exact, de obicei ai paritate, ceea ce inseamna ca-ti corecteaza > maxim un bit corect. Tocmai am o masina care logeaza erori de paritate > pe un anume bank de memorie si totusi crapa frecvent. Presupun ca > dimm-ul e atit de stricat incit > inregistreaza deseori coruptii dincolo de bitul corectat de paritate. > Shit can happen, easily. BTW, de ce crezi ca sint masini care nu numai > ca folosesc memorii ECC, dar au posibilitatea sa implementeze si > mirroring de memorie ? Pentru ca uneori e nevoie de mai mult. > http://h18000.www1.hp.com/products/servers/technology/memoryprotection.html > > > > > > nu stiu memoria cache din controller-ul raid, cel putin unele folosesc > memorii simple de pc, dar la cele profi ma astept sa aiba si ele ecc > > > > pe ethernet avem si acolo checksum-uri > > --- Sigur. Dar sint sigur ca stii ca avem ecc in frame-ul ethernet dar > avem si checksum (doar pt header,ce-i drept) in header-ul IP si mai avem > si in TCP...Pentru ca e clar ca nu doar procesul de transmitere poate > provoca erorile ci si eventual procesul de transmisie poate genera erori > ci si softwareul prin care trece intre transmisii :) > > > > > > Si atunci, exceptind cazuri extreme > > - de coruptie intre doua medii de transfer (gen bug in fw la > controllerul raid sau hdd care nu onoreaza un flush de cache) > > - modificari care trec de suma de control (ca nah orice algoritm de > suma de control mai scurta decit datele respective va avea coliziuni -> > cazuri de erori nedetectate) > > > > de unde naiba atitea silent data corruption? > > --- Sigur, nu zice nimeni ca sint asa frecvente - probabil ca cu cit ai > hardware mai scump cu atit mai putine erori ai. Da' guess what, de multe > ori hardwareul mai scump isi are rezilienta fix in mecanisme de detectie > si corectie a erorilor suplimentare (vezi memory mirroring de mai sus). > Am avut masini care erau rebootate normal (deci nu datorita unui crash!) > dupa ~180 zile de uptime si fsck.ext3 full gasea mereu si corecta > diverse erori minore, in ciuda faptului ca masina nu a avut intreruperi > bruste, nu avea probleme cu memoriile etc. > De unde ? Probabil ca si de la software bugs si alti factori, daca mai > cauti online vei mai gasi diverse referinte. > Cert e ca cu cit volumele de date pe care le avem sint mai mari, cu atit > probabilitatea de a intilni aceste erori este mai mare. > > > > _______________________________________________ > RLUG mailing list > [email protected] > http://lists.lug.ro/mailman/listinfo/rlug > _______________________________________________ RLUG mailing list [email protected] http://lists.lug.ro/mailman/listinfo/rlug
