On Fri, 2013-11-15 at 17:25 +0000, Dan Borlovan wrote:
> Io nu sint in clar cu o chestie
> 
> hdd-ul are ECC (si da il foloseste). Nu stiu daca memoria cache de pe hdd e 
> si ea macar cu bit de paritate, dar de pe platane erorile de citire sint 
> detectate (si in masura posibilitatilor corectate)

--- Prespunind ca ajunge corect acolo.Oricum, nu stim cit de bun este
acel ECC (16bit, 32 bit...ce algoritm...)
> 
> sata are si el ceva crc, ca si sirmele de firma pot avea probleme (asta ca sa 
> nu ma leg de ingeniosul care a proiectat mufele, care ies afara numai cind te 
> uiti la ele)
--- Da
> 
> memoria dintr-un server e ecc
 --- Mai exact, de obicei ai paritate, ceea ce inseamna ca-ti corecteaza
maxim un bit corect. Tocmai am o masina care logeaza erori de paritate
pe un anume bank de memorie si totusi crapa frecvent. Presupun ca
dimm-ul e atit de stricat incit
inregistreaza deseori coruptii dincolo de bitul corectat de paritate.
Shit can happen, easily. BTW, de ce crezi ca sint masini care nu numai
ca folosesc memorii ECC, dar au posibilitatea sa implementeze si
mirroring de memorie ? Pentru ca uneori e nevoie de mai mult.
http://h18000.www1.hp.com/products/servers/technology/memoryprotection.html 


> 
> nu stiu memoria cache din controller-ul raid, cel putin unele folosesc 
> memorii simple de pc, dar la cele profi ma astept sa aiba si ele ecc
> 
> pe ethernet avem si acolo checksum-uri

--- Sigur. Dar sint sigur ca stii ca avem ecc in frame-ul ethernet dar
avem si checksum (doar pt header,ce-i drept) in header-ul IP si mai avem
si in TCP...Pentru ca e clar ca nu doar procesul de transmitere poate
provoca erorile ci si eventual procesul de transmisie poate genera erori
ci si softwareul prin care trece intre transmisii :)


> 
> Si atunci, exceptind cazuri extreme 
>  - de coruptie intre doua medii de transfer (gen bug in fw la controllerul 
> raid sau hdd care nu onoreaza un flush de cache)
>  - modificari care trec de suma de control (ca nah orice algoritm de suma de 
> control mai scurta decit datele respective va avea coliziuni -> cazuri de 
> erori nedetectate)
> 
> de unde naiba atitea silent data corruption?

--- Sigur, nu zice nimeni ca sint asa frecvente - probabil ca cu cit ai
hardware mai scump cu atit mai putine erori ai. Da' guess what, de multe
ori hardwareul mai scump isi are rezilienta fix in mecanisme de detectie
si corectie a erorilor suplimentare (vezi memory mirroring de mai sus). 
Am avut masini care erau rebootate normal (deci nu datorita unui crash!)
dupa ~180 zile de uptime si fsck.ext3  full gasea mereu si corecta
diverse erori minore, in ciuda faptului ca masina nu a avut intreruperi
bruste, nu avea probleme cu memoriile etc.
De unde ? Probabil ca si de la software bugs si alti factori, daca mai
cauti online vei mai gasi diverse referinte.
Cert e ca cu cit volumele de date pe care le avem sint mai mari, cu atit
probabilitatea de a intilni aceste erori este mai mare.



_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui