On Fri, 2013-11-15 at 17:25 +0000, Dan Borlovan wrote: > Io nu sint in clar cu o chestie > > hdd-ul are ECC (si da il foloseste). Nu stiu daca memoria cache de pe hdd e > si ea macar cu bit de paritate, dar de pe platane erorile de citire sint > detectate (si in masura posibilitatilor corectate)
--- Prespunind ca ajunge corect acolo.Oricum, nu stim cit de bun este acel ECC (16bit, 32 bit...ce algoritm...) > > sata are si el ceva crc, ca si sirmele de firma pot avea probleme (asta ca sa > nu ma leg de ingeniosul care a proiectat mufele, care ies afara numai cind te > uiti la ele) --- Da > > memoria dintr-un server e ecc --- Mai exact, de obicei ai paritate, ceea ce inseamna ca-ti corecteaza maxim un bit corect. Tocmai am o masina care logeaza erori de paritate pe un anume bank de memorie si totusi crapa frecvent. Presupun ca dimm-ul e atit de stricat incit inregistreaza deseori coruptii dincolo de bitul corectat de paritate. Shit can happen, easily. BTW, de ce crezi ca sint masini care nu numai ca folosesc memorii ECC, dar au posibilitatea sa implementeze si mirroring de memorie ? Pentru ca uneori e nevoie de mai mult. http://h18000.www1.hp.com/products/servers/technology/memoryprotection.html > > nu stiu memoria cache din controller-ul raid, cel putin unele folosesc > memorii simple de pc, dar la cele profi ma astept sa aiba si ele ecc > > pe ethernet avem si acolo checksum-uri --- Sigur. Dar sint sigur ca stii ca avem ecc in frame-ul ethernet dar avem si checksum (doar pt header,ce-i drept) in header-ul IP si mai avem si in TCP...Pentru ca e clar ca nu doar procesul de transmitere poate provoca erorile ci si eventual procesul de transmisie poate genera erori ci si softwareul prin care trece intre transmisii :) > > Si atunci, exceptind cazuri extreme > - de coruptie intre doua medii de transfer (gen bug in fw la controllerul > raid sau hdd care nu onoreaza un flush de cache) > - modificari care trec de suma de control (ca nah orice algoritm de suma de > control mai scurta decit datele respective va avea coliziuni -> cazuri de > erori nedetectate) > > de unde naiba atitea silent data corruption? --- Sigur, nu zice nimeni ca sint asa frecvente - probabil ca cu cit ai hardware mai scump cu atit mai putine erori ai. Da' guess what, de multe ori hardwareul mai scump isi are rezilienta fix in mecanisme de detectie si corectie a erorilor suplimentare (vezi memory mirroring de mai sus). Am avut masini care erau rebootate normal (deci nu datorita unui crash!) dupa ~180 zile de uptime si fsck.ext3 full gasea mereu si corecta diverse erori minore, in ciuda faptului ca masina nu a avut intreruperi bruste, nu avea probleme cu memoriile etc. De unde ? Probabil ca si de la software bugs si alti factori, daca mai cauti online vei mai gasi diverse referinte. Cert e ca cu cit volumele de date pe care le avem sint mai mari, cu atit probabilitatea de a intilni aceste erori este mai mare. _______________________________________________ RLUG mailing list [email protected] http://lists.lug.ro/mailman/listinfo/rlug
