Marian Cerny napsal/wrote, On 12/03/09 16:36:
poprosil by som o radu ohladne problemu s diskom na jednom serveri. Zda sa, ze problem nie je priamo s diskom, ale s nejakou inou komponentou (radic, kable, system?).

logoch sa opakovane objavovali zaznamy DMA TIMEOUT

Po restarte serveru komunikacia s diskom fungovala opet v poriadku

Az podsud to znam, stalo se mi to tento tyden. Az na to, ze nepomahal ani restart stroje. Pomohlo az fyzicke odpojeni napajeni a pripojeni zpet.

U sebe jsem to vyhodnotil jako vaznou interni chybu firmware disku.

Akorat mam trochu odlisny typ nez ty (a zejmena verzi firmware) - WD5000AAKS-00TMA0 12.01C01 - takze to asi bude nahodna koincidence a tvuj problem bude spis jiny.

Navic je se dvema disky souacsne, coz by naznacovalo problem nejake spolecne komponenty. Disky jsou SATA, takze kazdy ma svuj kabel. Takze v uvahu pripada: a) elektricke ruseni (bud' zcela vnejsi nakmitane do obou kabelu, nebo vnitrni - prorazeny nektery z filtracnich kondenzatoru spis ve zdroji nez na MB)
b) vada radice (a tedy zakladni desky)

Muzes zkusit prerovnat kabely uvnitr tak, aby oba nevedly spolu - pokud by to situaci zmenilo, pak jde o vnejsi ruseni nakmitane do kabelu. Muzes zkusit kabely i vymenit, ale to je spis pro lacino pocit, ze se neco udelalo - pravdepodobnost, ze soucasne odesly dva nezavisle kabely je mala.

No a pak uz je to o tom zacit pomalu menit komponenty a hledat vadnou. Pro zacatek bych proveril, ze vada neni ve skutecnosti zpusobena prehratim. Disky mas sice chladne, ale o teplote zbytku nevime nic. Prizadreny vetracek na procesoru se muze projevovat i takhle. Pak bych se vrhnul na zdroj. Problemem muze byt nejen vnitrni zavada, ale treba i to, ze neni dostatecne dimenzovany na to, aby utahl vsechno co v bedne je.

Nicmene, z popisu se zda, ze zatim je to nahodne se projevujici chyba. To se bude hledat spatne ...

Jako workaround muzes zkusit zakazat DMA. Ale zazrak bych si od toho nesliboval. Nektere hranicni pripady by to mohlo zamaskovat (posunout hranici, kdy se zacnou projevovat jako pozorovatelna chyba, takze se navenek neprojevi).


Co se tyce toho, ze jeden disk vyrvava i po odpojeni - nemame od tebe vypis
swapctl -l
takze nevime, kde swap mas.

Mimochodem, ja bych swap na softwarovy RAID nedaval, nicmene, dovedu si predstavit situace, kdy to ma smysl.

                                        Dan


P.S.
Obecne se v posledni prislo na to, ze rada disku neni vhodna pro provoz v RAIDu. A to proto, ze nekdy jim odpoved trva prilis dlouho (rec je o zejmena pripadech, kdy disk pouziva L2 samoopravny algoritmus, ktery je vypocetne narocnejsi) a RAID management je ma tendenci vyhodnotit jako vadne a vyradi je.

Jak Seagate tak WD na problem reagovalo uvolnenim novych firmware pro nektere typy svych disku. Ten tvuj ale mezi ne nepatri, coz by mohlo znamenat, ze je v tomto ohledu v poradku.


--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l

Odpovedet emailem