On Fri, 15 Nov 2013, Iulian Murgulet wrote:
> ... nu cred ca exprimarile "ne-elegante", ca sa fiu diplomat,
> intarasc argumentele! Mai cred ca respectul si bunul-simt ajuta mai
> mult!
Imi pare rau dar peste un anumit threshold de batut cimpii nu ma
mai pot abtine. Imi cer scuze pentru iesirile din trecut si respectiv
anticipat pentru iesirile viitoare, pentru ca fiind moldovean...
http://www.youtube.com/watch?v=YUz5XDERIt8
(Ala din clip nu-s eu, era sa fiu eu insa l-a facut asta primul).
> Raid soft am folosit de mai bine de 10 ani, pe mai mult de o masina.
> Folosesc si acum md raid1 pe partitiile cu sistemul de operare. Eu am
> scris ca md raid1 nu e cea mai buna solutie pe partitiile de date, si am
> sugerat dupa parerea mea, o solutie mai buna, evident conform cu lipsa
> mea de experienta!
Wow! pe 2 masini! Cu discuri luate de la acelasi chiosc in
acelasi timp, scapate jos in aceeasi cutie la transport!
Eu nu te-am contrazis cind ai spus ca raid nus' de care nu e cea
mai buna pentru nus' ce partitii, ci te-am combatut cind ai inceput sa ai
pretentii de la implementarea raid sa faca teste de memorie pe masina, sa
verifice daca e sters praful si daca se aprind toate ledurile la masina
de uscat miinile din WC.
> ... cum am mai precizat anterior, altii au alta parere. Ei cred ca e treaba
> partii de control/management a array-ui sa detecteze erorile(in
> anumite conditii) si sa le si repare din informatiile de
> redundanta(daca exista date suficiente).
Orice astfel de implentare va face detectie de erori pe datele CU
CARE LUCREAZA. Datele odata ajunse pe disc, daca discul o ia razna in
portiuni pe care kernelul nu le atinge din diverse motive.
In momentul in care intr-o matrice raid cu redundanta se vor face
citiri ale unui bloc de cate si nu corespund informatiile de pe discuri
(mirror/normal, checksum, etc) atunci fii sigur ca raid-ul va sari in sus
si va incepe sa zbiare ca a gasit ceva. Dar altfel, daca datele stau acolo
si nu le scrie/citeste nimeni e ca si cum ai avea discurile in sertar si
ai vrea sa-si dea cineva seama ca e ceva in neregula.
> Nu trebuie sa si fii de acord cu solutia asta. Si de ce ma rog nu as
> putea sa folosesc md raid pe discuri cheap? RAID tocmai asta insemna:
> redundant array of inexpensive disks. Tu te referi la RAE(xpensive)D,
> nu-i asa?
Cheap sau Expensive detectia si tratarea erorilor se face la
nivele diferite in situatii diferite, sau in puncte similare pentru
situatii similare. Poate sa difere doar cit de adinc se intra in structura
matricii sau a discurilor pentru asa ceva.
Vei vedea adaptoare RAID de la diversi vendori, in valoare de
multe sute de dolari sau chiar trec mia, la care detectia erorilor pe disc
se rezuma la monitorizari SMART (si uneori nici atit!!) cu exceptia
cazurilor cind sint erori la scrieri/citiri. Restul cade in seama
software-ului de SAN sau a sistemelor de fisiere de pe partitiile facute
pe acele array-uri.
Sau vei vedea adaptoare care cind apar erori (pentru ca stau mai
bine la partea asta) o iau razna cind apare ceva mai nasol pentru ca stau
sa rontaie ele si sa ia tot felul de decizii sa compenseze iar in camera
alaturata vei vedea 5 sisadmini facind concurs de dat cu capul in zid ca
nu pot opri procesul ca sa se termine 5 tranzactii bancare la timp intr-un
cluster de 1M$.
Deja nu mai vorbim de solutii cheap ci de solutii unde un singur
sistem membru al unui cluster costa peste 10k$. Si nu exista implementare
ideala din diverse motive, exista doar solutii care se preteaza mai bine
pentru o situatie sau alta.
> Da. Ia sa vedem ce zici tu, poate iarasi nu inteleg eu si-mi scapa ceva. Caz
> concret: am 12 Tb de date, cu 'jde milioane de fisiere, si scriu cam 1Tb/24h.
> Cam cat ar dura sa fac verificari de md5sum/sha1sum? Si sa creez
> altele la fisierele modificate/adaugate? Dar tot nu ma ajuta cand
> citesc, pt. ca nu stiu
> daca ce citesc e asa cum a fost scris sau nu. Si daca in loc de 12 Tb,
> am 120Tb?
> Alt caz, cablu sATA prost: SMART zice OK, dar aleator
Pai despre ce discutam? Pina acum te plingeai de detectia erorilor
care apar pe disc in timp, eventual cu discurile oprite, dind exemplul
ala cu CERN sau cu data anus rupturition.
Ca detectie a erorilor in timp real face cam oricine pe toate
nivelele, de la driver de controller raid, implementarea raid din formware
(sau modul kernel unde e soft), pina la discul insusi.
> Oare asa sa fie? Toti bat campii? Si astia cu ZFS, BTRFS,
> ext4(metadata checksumming), XFS(metadata checksums)? Alt caz, cablu
> sATA defect la un moment dat: SMART zice OK, dar aleator ZFS scrub
> zice ca a detectat erori, si
Erorile din metadata sint mai usor de detectat, pentru ca partea
aia a sistemului de fisiere este citita/scrisa mai des, si este mult mai
mica (de obicei incape in RAM) si poate fi verificata in citeva secunde
chiar daca FS-ul in sine are TB buni.
Explica-mi cum vezi o eroare intr-un sector alocat blocurilor de
date fara sa rulezi verificari ale acelor blocuri sector cu sector, fie
din OS pentru FS, fie din BIOS-ul/driverul controllerului RAID acolo unde
exista posibilitatea asta.
Vezi la ce neintelegeri ajungem daca vorbesti neclar, te referi la
un lucru si vrei sa spui altul, sau incurci termenii si layerele unui
subansamblu? FAIL! Asta e real time data curruption.
> Am inteles, is incompetenti astia de la CERN. Dar mai exista si
> altii care au publicat rapoarte similare. Sa intelg ca absolut toti
> sunt incompetenti? Sa inteleg ca de fapt tu afirmi ca: in conditii
> NORMALE de exploatare, cu echipamante mai mult decat decente, cu
> personal nu competent, ci super-competent, hai sa zicem in ca avem o
> situatie ipotetica unde totul este si se face ca la carte, este EXCLUS
> 150% ca sa apara "sielent data coruption" ? Ca de
> fapt asta inteleg ca afirmi tu.
Silent data curruption apare oriunde, oricind. Insa nu cade in
sarcina implementarii RAID sau a filesystemului sa scaneze activ si
permanent dupa astfel de situatii. Si nu te gindi doar la metadata care
fiind mic se poate verifica si corecta uneori in timp real, un sistem de
fisiere activ nu se rezuma doar la atit.
Este insa datoria lor sa reactioeze intr-un fel sau altul atunci
cind detecteaza nereguli in structura de date pe care o intretin. Iar
detectarea asta se poate intimpla in fix doua situatii mari, late si
inalte:
1. verificare activa in timpul unei mentenante ce are fix acest
scop, detectia si luarea de masuri pentru corectia acestor erori;
2. detectia erorilor/neregulilor in timpul unei operatii ce citire
sau scriere.
Err, signature FAIL follows...:
> ================================ ATENTIONARI =============================
>
> - pentru atasamente tip Office va rugam sa folositi format OFFICE 97;
> - nu trimiteti date personale (CNP, copii dupa acte de identitate etc).
Ok, imi downgradez acum office-ul si-mi scot cnp-ul din semnatura.
...Done.
> O lista completa cu reguli de utilizare exista la:
>
> http://gw.casbv.ro/forum_smf/index.php?topic=2000.msg3106#msg3106
M-am uitat acolo insa conform regulilor alora ar trebui sa
dau dd pe toate discurile, sa inchid computerul si sa plec acasa. Abia la
5 pot face asta, scuze.
--
I'm a genuine network and sys admin.
I swear, I curse, I stick my dick into things in order to fix them.
So don't ack like you're having a bad day with me around,
'cause I'll have fix to you and will not be able to fight it!
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug