"--- Mai exact, de obicei ai paritate, ceea ce inseamna ca-ti corecteaza
maxim un bit corect."

hmm. puneti mana pe teorie si (re)cititi capitolul "coduri detectoare si
corectoare de erori". bitul de paritate poate DETECTA doar 1 bit eronat.

t.


2013/11/16 Vali Dragnuta <[email protected]>

> On Fri, 2013-11-15 at 17:25 +0000, Dan Borlovan wrote:
> > Io nu sint in clar cu o chestie
> >
> > hdd-ul are ECC (si da il foloseste). Nu stiu daca memoria cache de pe
> hdd e si ea macar cu bit de paritate, dar de pe platane erorile de citire
> sint detectate (si in masura posibilitatilor corectate)
>
> --- Prespunind ca ajunge corect acolo.Oricum, nu stim cit de bun este
> acel ECC (16bit, 32 bit...ce algoritm...)
> >
> > sata are si el ceva crc, ca si sirmele de firma pot avea probleme (asta
> ca sa nu ma leg de ingeniosul care a proiectat mufele, care ies afara numai
> cind te uiti la ele)
> --- Da
> >
> > memoria dintr-un server e ecc
>  --- Mai exact, de obicei ai paritate, ceea ce inseamna ca-ti corecteaza
> maxim un bit corect. Tocmai am o masina care logeaza erori de paritate
> pe un anume bank de memorie si totusi crapa frecvent. Presupun ca
> dimm-ul e atit de stricat incit
> inregistreaza deseori coruptii dincolo de bitul corectat de paritate.
> Shit can happen, easily. BTW, de ce crezi ca sint masini care nu numai
> ca folosesc memorii ECC, dar au posibilitatea sa implementeze si
> mirroring de memorie ? Pentru ca uneori e nevoie de mai mult.
> http://h18000.www1.hp.com/products/servers/technology/memoryprotection.html
>
>
> >
> > nu stiu memoria cache din controller-ul raid, cel putin unele folosesc
> memorii simple de pc, dar la cele profi ma astept sa aiba si ele ecc
> >
> > pe ethernet avem si acolo checksum-uri
>
> --- Sigur. Dar sint sigur ca stii ca avem ecc in frame-ul ethernet dar
> avem si checksum (doar pt header,ce-i drept) in header-ul IP si mai avem
> si in TCP...Pentru ca e clar ca nu doar procesul de transmitere poate
> provoca erorile ci si eventual procesul de transmisie poate genera erori
> ci si softwareul prin care trece intre transmisii :)
>
>
> >
> > Si atunci, exceptind cazuri extreme
> >  - de coruptie intre doua medii de transfer (gen bug in fw la
> controllerul raid sau hdd care nu onoreaza un flush de cache)
> >  - modificari care trec de suma de control (ca nah orice algoritm de
> suma de control mai scurta decit datele respective va avea coliziuni ->
> cazuri de erori nedetectate)
> >
> > de unde naiba atitea silent data corruption?
>
> --- Sigur, nu zice nimeni ca sint asa frecvente - probabil ca cu cit ai
> hardware mai scump cu atit mai putine erori ai. Da' guess what, de multe
> ori hardwareul mai scump isi are rezilienta fix in mecanisme de detectie
> si corectie a erorilor suplimentare (vezi memory mirroring de mai sus).
> Am avut masini care erau rebootate normal (deci nu datorita unui crash!)
> dupa ~180 zile de uptime si fsck.ext3  full gasea mereu si corecta
> diverse erori minore, in ciuda faptului ca masina nu a avut intreruperi
> bruste, nu avea probleme cu memoriile etc.
> De unde ? Probabil ca si de la software bugs si alti factori, daca mai
> cauti online vei mai gasi diverse referinte.
> Cert e ca cu cit volumele de date pe care le avem sint mai mari, cu atit
> probabilitatea de a intilni aceste erori este mai mare.
>
>
>
> _______________________________________________
> RLUG mailing list
> [email protected]
> http://lists.lug.ro/mailman/listinfo/rlug
>
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui