On Fri, 15 Nov 2013, Iulian Murgulet wrote:

>   ... nu cred ca exprimarile "ne-elegante", ca sa fiu diplomat,
> intarasc argumentele! Mai cred ca respectul si bunul-simt ajuta mai
> mult!

        Imi pare rau dar peste un anumit threshold de batut cimpii nu ma 
mai pot abtine. Imi cer scuze pentru iesirile din trecut si respectiv 
anticipat pentru iesirile viitoare, pentru ca fiind moldovean...
http://www.youtube.com/watch?v=YUz5XDERIt8
(Ala din clip nu-s eu, era sa fiu eu insa l-a facut asta primul).

> Raid soft am folosit de mai bine de 10 ani, pe mai mult de o masina. 
> Folosesc si acum md raid1 pe partitiile cu sistemul de operare. Eu am 
> scris ca md raid1 nu e cea mai buna solutie pe partitiile de date, si am 
> sugerat dupa parerea mea, o solutie mai buna, evident conform cu lipsa 
> mea de experienta!

        Wow! pe 2 masini! Cu discuri luate de la acelasi chiosc in 
acelasi timp, scapate jos in aceeasi cutie la transport!
        Eu nu te-am contrazis cind ai spus ca raid nus' de care nu e cea 
mai buna pentru nus' ce partitii, ci te-am combatut cind ai inceput sa ai 
pretentii de la implementarea raid sa faca teste de memorie pe masina, sa 
verifice daca e sters praful si daca se aprind toate ledurile la masina 
de uscat miinile din WC.

>    ... cum am mai precizat anterior, altii au alta parere. Ei cred ca e treaba
> partii de control/management a array-ui sa detecteze erorile(in
> anumite conditii) si sa le si repare din informatiile de
> redundanta(daca exista date suficiente).

        Orice astfel de implentare va face detectie de erori pe datele CU 
CARE LUCREAZA. Datele odata ajunse pe disc, daca discul o ia razna in 
portiuni pe care kernelul nu le atinge din diverse motive.
        In momentul in care intr-o matrice raid cu redundanta se vor face 
citiri ale unui bloc de cate si nu corespund informatiile de pe discuri 
(mirror/normal, checksum, etc) atunci fii sigur ca raid-ul va sari in sus 
si va incepe sa zbiare ca a gasit ceva. Dar altfel, daca datele stau acolo 
si nu le scrie/citeste nimeni e ca si cum ai avea discurile in sertar si 
ai vrea sa-si dea cineva seama ca e ceva in neregula.

> Nu trebuie sa si fii de acord cu solutia asta. Si de ce ma rog nu as 
> putea sa folosesc md raid pe discuri cheap? RAID tocmai asta insemna: 
> redundant array of inexpensive disks. Tu te referi la RAE(xpensive)D, 
> nu-i asa?

        Cheap sau Expensive detectia si tratarea erorilor se face la 
nivele diferite in situatii diferite, sau in puncte similare pentru 
situatii similare. Poate sa difere doar cit de adinc se intra in structura 
matricii sau a discurilor pentru asa ceva.
        Vei vedea adaptoare RAID de la diversi vendori, in valoare de 
multe sute de dolari sau chiar trec mia, la care detectia erorilor pe disc 
se rezuma la monitorizari SMART (si uneori nici atit!!) cu exceptia 
cazurilor cind sint erori la scrieri/citiri. Restul cade in seama 
software-ului de SAN sau a sistemelor de fisiere de pe partitiile facute 
pe acele array-uri.
        Sau vei vedea adaptoare care cind apar erori (pentru ca stau mai 
bine la partea asta) o iau razna cind apare ceva mai nasol pentru ca stau 
sa rontaie ele si sa ia tot felul de decizii sa compenseze iar in camera 
alaturata vei vedea 5 sisadmini facind concurs de dat cu capul in zid ca 
nu pot opri procesul ca sa se termine 5 tranzactii bancare la timp intr-un 
cluster de 1M$.
        Deja nu mai vorbim de solutii cheap ci de solutii unde un singur 
sistem membru al unui cluster costa peste 10k$. Si nu exista implementare 
ideala din diverse motive, exista doar solutii care se preteaza mai bine 
pentru o situatie sau alta.

>   Da. Ia sa vedem ce zici tu, poate iarasi nu inteleg eu si-mi scapa ceva. Caz
> concret: am 12 Tb de date, cu 'jde milioane de fisiere, si scriu cam 1Tb/24h.
> Cam cat ar dura sa fac verificari de md5sum/sha1sum? Si sa creez
> altele la fisierele modificate/adaugate? Dar tot nu ma ajuta cand
> citesc, pt. ca nu stiu
> daca ce citesc e asa cum a fost scris sau nu. Si daca in loc de 12 Tb,
> am 120Tb?
>   Alt caz, cablu sATA prost: SMART zice OK, dar aleator

        Pai despre ce discutam? Pina acum te plingeai de detectia erorilor 
care apar pe disc in timp, eventual cu discurile oprite, dind exemplul 
ala cu CERN sau cu data anus rupturition.
        Ca detectie a erorilor in timp real face cam oricine pe toate 
nivelele, de la driver de controller raid, implementarea raid din formware 
(sau modul kernel unde e soft), pina la discul insusi.

>   Oare asa sa fie? Toti bat campii? Si astia cu ZFS, BTRFS,
> ext4(metadata checksumming), XFS(metadata checksums)? Alt caz, cablu
> sATA defect la un moment dat: SMART zice OK, dar aleator ZFS scrub
> zice ca a detectat erori, si

        Erorile din metadata sint mai usor de detectat, pentru ca partea 
aia a sistemului de fisiere este citita/scrisa mai des, si este mult mai 
mica (de obicei incape in RAM) si poate fi verificata in citeva secunde 
chiar daca FS-ul in sine are TB buni.
        Explica-mi cum vezi o eroare intr-un sector alocat blocurilor de 
date fara sa rulezi verificari ale acelor blocuri sector cu sector, fie 
din OS pentru FS, fie din BIOS-ul/driverul controllerului RAID acolo unde 
exista posibilitatea asta.
        Vezi la ce neintelegeri ajungem daca vorbesti neclar, te referi la 
un lucru si vrei sa spui altul, sau incurci termenii si layerele unui 
subansamblu? FAIL! Asta e real time data curruption.

>  Am inteles, is incompetenti astia de la CERN. Dar mai exista si
> altii care au publicat rapoarte similare. Sa intelg ca absolut toti
> sunt incompetenti? Sa inteleg ca de fapt tu afirmi ca: in conditii
> NORMALE de exploatare, cu echipamante mai mult decat decente, cu
> personal nu competent, ci super-competent, hai sa zicem in ca avem o
> situatie ipotetica unde totul este si se face ca la carte, este EXCLUS
> 150% ca sa apara "sielent data coruption" ? Ca de
> fapt asta inteleg ca afirmi tu.

        Silent data curruption apare oriunde, oricind. Insa nu cade in 
sarcina implementarii RAID sau a filesystemului sa scaneze activ si 
permanent dupa astfel de situatii. Si nu te gindi doar la metadata care 
fiind mic se poate verifica si corecta uneori in timp real, un sistem de 
fisiere activ nu se rezuma doar la atit.
        Este insa datoria lor sa reactioeze intr-un fel sau altul atunci 
cind detecteaza nereguli in structura de date pe care o intretin. Iar 
detectarea asta se poate intimpla in fix doua situatii mari, late si 
inalte:
        1. verificare activa in timpul unei mentenante ce are fix acest 
scop, detectia si luarea de masuri pentru corectia acestor erori;
        2. detectia erorilor/neregulilor in timpul unei operatii ce citire 
sau scriere.


        Err, signature FAIL follows...:

> ================================ ATENTIONARI =============================
>
> - pentru atasamente tip Office va rugam sa folositi format OFFICE 97;
> - nu trimiteti date personale (CNP, copii dupa acte de identitate etc).

        Ok, imi downgradez acum office-ul si-mi scot cnp-ul din semnatura.
        ...Done.

> O lista completa cu reguli de utilizare exista la:
>
> http://gw.casbv.ro/forum_smf/index.php?topic=2000.msg3106#msg3106

        M-am uitat acolo insa conform regulilor alora ar trebui sa 
dau dd pe toate discurile, sa inchid computerul si sa plec acasa. Abia la 
5 pot face asta, scuze.

-- 
I'm a genuine network and sys admin.
I swear, I curse, I stick my dick into things in order to fix them.
So don't ack like you're having a bad day with me around,
'cause I'll have fix to you and will not be able to fight it!
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui