2013/11/15 Iulian Murgulet <[email protected]>

> Quoting Tarhon-Onu Victor <[email protected]>:
>
> > On Thu, 14 Nov 2013, Iulian Murgulet wrote:
> >
> >> Ma indoiesc ca aia de la CERN umbla cu "discuri varza", sau "green".
> >
> >       Tu crezi ce vrei, eu doar imi fac datoria sa-ti spun care-i
> > realitatea ca sa nu ramii cu impresia ca ce se intimpla intr-un sistem de
> > calcul e cumva magie neagra, sau ca justificarile oficiale ale unora
> > pentru niste erori timpite si greu de imaginat la fondurile pe care le au
> > si masurile pe care ar trebui sa le ia pentru prevenire sint deja baza de
> > studiu stiintific.
> >       Ai avut si tu un array software raid in 5 ani cu discuri de
> > 2ROL/bax care ti-a crapat si acum gata, ai acumulat experienta care-ti
> > spune ca software raid-ul e de cacat. Serios!
>
>    ... nu cred ca exprimarile "ne-elegante", ca sa fiu diplomat,
> intarasc argumentele! Mai cred ca respectul si bunul-simt ajuta mai
> mult!
>
>   Raid soft am folosit
> de mai bine de 10 ani, pe mai mult de o masina. Folosesc si acum md
> raid1 pe partitiile cu sistemul de operare. Eu am scris ca md raid1 nu
> e cea mai buna solutie pe partitiile de date, si am sugerat dupa
> parerea mea, o solutie mai
> buna, evident conform cu lipsa mea de experienta!
>

Să-ți spun că pe mașini de milioane $ care țin date de zeci/sute de
milioane $ se folosesc RAID 1 și/sau RAID 5 SOFTWARE în Linux cu filesystem
ext3... sau să nu-ți spun? Să-ți mai spun că în europa (NUMAI în Europa!)
sunt câteva mii de asemenea mașini, doar de la un vendor anume? Neah, mai
bine nu-ți spun.


>
>
> >
> >       Probabil ca nu intelegi nici despre ce relatezi aici. Ce legatura
> > are raid-ul software sau hardware sau mistiqueware daca datele de pe un
> > disc se duc in lumea lor?
>
> ... si ce ar trebui sa inteleg?
>
> >       Nu e job-ul partii de control si management a array-ului sa-si dea
> > seama ce se intimpla pe un disc cu datele atita timp cit ele nu trec prin
> > BUS/interfata. E treaba partii de management a discului sa-si dea seama
> ca
> > discul de 2ROL/bax e cu vaca iar tu sa folosesti un soft de monitorizare
> > periodica a semnalelor de la SMART care sa te atentioneze ca
> > cheap&reliable=FAIL.
>
>     ... cum am mai precizat anterior, altii au alta parere. Ei cred ca e
> treaba
> partii de control/management a array-ui sa detecteze erorile(in
> anumite conditii) si sa le si repare din informatiile de
> redundanta(daca exista date suficiente). Nu trebuie sa si fii de acord
> cu solutia asta. Si de ce ma rog nu
> as putea sa folosesc md raid pe discuri cheap? RAID tocmai asta
> insemna: redundant array of inexpensive disks. Tu te referi la
> RAE(xpensive)D, nu-i asa?
>

Controller-ul nu face writethrough pe disc, că merge pe ideea că discul e
de încredere. Dacă discul NU e de încredere, nici un controller n-o să
poată preveni coruperea datelor. AAAAAAA, dacă tu vrei să și citești
imediat după ce ai scris, să vedem ce impact are asta asupra următorului
paragraf:


>
> >
> >       Si pentru orice altceva exista md5sum/sha1sum. Daca ceva se duce
> > la vale vei vedea folosind astfel de utilitare indiferent de mediul pe
> > care sint datele.
>
>    Da. Ia sa vedem ce zici tu, poate iarasi nu inteleg eu si-mi scapa
> ceva. Caz
> concret: am 12 Tb de date, cu 'jde milioane de fisiere, si scriu cam
> 1Tb/24h.
> Cam cat ar dura sa fac verificari de md5sum/sha1sum? Si sa creez
> altele la fisierele modificate/adaugate? Dar tot nu ma ajuta cand
> citesc, pt. ca nu stiu
> daca ce citesc e asa cum a fost scris sau nu. Si daca in loc de 12 Tb,
> am 120Tb?
>

Deci tu aici propui ca controller-ul să și citească înapoi ceea ce a scris,
nu? Eu asta înțeleg.


>    Alt caz, cablu sATA prost: SMART zice OK, dar aleator
>
>
SMART nu mai apucă să zică nimic, că ți se umplu logurile sistem mult
înainte de SMART dacă ai un cablu prost. Dar, scuză-mă, parcă vorbeam de
sistem de producție (care în general trebuie să fie foarte fiabile), nu de
calculatoare făcute pe genunchi "să iasă eftin, că și-așa plătim
curentu'... ", sau greșesc? Deci ce caută un cablu PROST într-un sistem de
producție?!


>
> >       Si gindeste-te cite instalari de OS sint pe RAID, daca s-ar duce
> > ceva la vale iti dai seama ca intr-un final masinile alea ar boota cu
> > spatele, nu? Ah, dar stai, tu nu gindesti, doar crezi ce ai citit "pe
> > internet"!
> >
>
>    Oare asa sa fie? Toti bat campii? Si astia cu ZFS, BTRFS,
> ext4(metadata checksumming), XFS(metadata checksums)? Alt caz, cablu
> sATA defect la un moment dat: SMART zice OK, dar aleator ZFS scrub
> zice ca a detectat erori, si
> a corectat acele erori(4 din 8 teste, 2 teste/24 ore). Schimbat cablul
> eSATA,
> erorile au disparut de atunci. Si mai sunt si alte fenomene din astea
> ezoterice(controler disk/RAM/samd)! Aici m-ar fi ajutat cu ceva md-ul
> sau sumele de control md5sum/sha1sum calculate? Cand as fi aflat?
>
>    De fapt eu asta am vrut sa zic(poate nu m-am exprimat cum trebe):
> - md raid nu e prost;
> - md raid nu e cea mai buna solutie d.p.d.v. al detectiei/corectiei
> erorilor(erori care pot sa apara din N directii si care nu sunt
> imputabile
> lui MD: disk,RAM,echipamente,incompetenta,etc,etc);
>

E la fel de bună ca un software RAID.


> - ZFS este superior ca si capabilitatiti legate de detectie/corectie erori
> fata de MD;
>

...doar că ZFS e o combinație de volume management + filesystem, adică tot
la RAID ajungem.


> - ca e treaba lui MD sau nu, ca faca detectie de erori si sa le si
> corecteze(intr-un mod care sa nu presupuna eforturi deosebite, gen
> calcul de
> sume de control pe milioane de fisiere si/sau zeci de Tb de date),
> cred ca e un aspect pur filozofic, si in nici un caz nu e ceva
> pragmatic.
>
>
E foarte pragmatic: md / RAID-ul NU VĂD FIȘIERE ci doar blocuri de alocare
consituite din grupuri de sectoare pe discurile fizice. Niciodată
controller-ul RAID (HW sau SW) nu o să facă checksum la contentul unui
fișier.


> > P.S.: CERN is derutatii aia care au primit foarte multi bani sa faca cu
> > accelerator de particule dar aveau cabluri de retea ranforsate cu banda
> > izolatoare, cu mufe de 2ROL/camion, care faceau contact imperfect si
> peste
> > care foloseau nus' ce protocol proprietar cu un control mai putin strict
> > al erorilor de li s-au varzuit toate datele strinse la prima activare a
> > acceleratorului?
>
>   Am inteles, is incompetenti astia de la CERN. Dar mai exista si
> altii care au publicat rapoarte similare. Sa intelg ca absolut toti
> sunt incompetenti? Sa inteleg ca de fapt tu afirmi ca: in conditii
> NORMALE de exploatare, cu echipamante mai mult decat decente, cu
> personal nu competent, ci super-competent, hai sa zicem in ca avem o
> situatie ipotetica unde totul este si se face ca la carte, este EXCLUS
> 150% ca sa apara "sielent data coruption" ? Ca de
> fapt asta inteleg ca afirmi tu.
>

El afirmă că tu amesteci lucrurile, și nu poți face din rahat bici și să
mai și plesnească. Adică dacă pui discuri ieftine și cabluri proaste poți
tu avea și mama controller-ului hardware, că tot o să pierzi date.


>
> >       Vai "CERN"!, ce pompos suna, cred ca-si si competenti, nu? Vai,
> > sint in elvetia! Automat au IQ 450 si la citi bani au cred ca fac asta
> > doar din pasiune, din geniu, si nu au grija zilei de miine! Vai, sa-i
> > facem dumnezeii array-urilor RAID si sa credem orice spun ei ca sa-si
> > justifice pierderile financiare, faptul ca restul oamenilor sint
> > politicosi si lasa varzetul povestit de ei asa cum e si nu-l mai
> > corecteaza din politete si din simpla acordare a inca unei sanse face
> > totul si mai credibil si ne da motive in plus sa credem ce spun ei, ba
> > chiar sa facem o noua teorie a conspiratiei be baza afirmatiilor alora!
> > Vai, CERN! Brr!!!
> >       Bai du-te de aici...
> >
> > --
> > I'm a genuine network and sys admin.
> > I swear, I curse, I stick my dick into things in order to fix them.
> > So don't ack like you're having a bad day with me around,
> > 'cause I'll have fix to you and will not be able to fight it!
>
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui