Skocz do zawartości


 

Zdjęcie

Sprawdzenie stanu SSD za sprzętowym RAID-em

Sprawdzenie stanu SSD za sprzętowym RAID-em ssd raid hp proliant smartarray p420i

  • Proszę się zalogować aby odpowiedzieć
18 odpowiedzi na ten temat

Sprawdzenie stanu SSD za sprzętowym RAID-em

#1 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 13 marzec 2014 - 20:09

Witam,

 

Mam serwer HP Proliant DL360p Gen8 z macierzą Raid HP SmartArray p420i.

W macierzy są 4 dyski SSD w konfiguracji RAID 10.

Chciałbym sprawdzić "stan zdrowia" SSD-ków poleceniem smartctl, ale niestety nie bardzo chce to działać.

Próbowałem różne opcje, ale za każdym razem polecenie nie może się skomunikować z dyskiem.

Sprawdzałem też hpacucli - ale ono nie zwraca informacji o stanie zdrowia dysków.

 

Jeżeli ktoś wie jak to zrobić - to byłbym wdzięczny.


  • 0

#2 Miłosz

Miłosz

    Weteran WHT

  • Moderatorzy
  • PipPipPipPipPipPipPipPip
  • 4022 postów
  • Skąd:Tuchola
  • Firma:Sys-Com / M-Networks Sp. z o.o.
  • Imię:Miłosz
  • Nazwisko:Oller

Napisany 13 marzec 2014 - 20:48

Na HPkach działało kiedyś coś w rodzaju

 

smartctl -a -d cciss,0 /dev/cciss/c1dXXX


  • 7

#3 Gość_patrys_*

Gość_patrys_*
  • Goście

Napisany 13 marzec 2014 - 20:53

Spróbuj: smartctl -a -d cciss,0 /dev/sg0


  • 6

#4 Miłosz

Miłosz

    Weteran WHT

  • Moderatorzy
  • PipPipPipPipPipPipPipPip
  • 4022 postów
  • Skąd:Tuchola
  • Firma:Sys-Com / M-Networks Sp. z o.o.
  • Imię:Miłosz
  • Nazwisko:Oller

Napisany 13 marzec 2014 - 20:55

Właśnie chciałem dodać żeby sprawdził z sg_utils, cciss to chyba z hpków serii g5 o ile dobrze pamietam.

 

Dopieszczając:

 

smartctl -a -d cciss,X /dev/sg0

 

gdzie X to kolejne dyski liczone od 0

 

Na G7 działa.


  • 6

#5 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 13 marzec 2014 - 21:30

Miłosz, Patryk - dzięki za Waszą pomoc.

Niestety polecenie:

smartctl -a -d cciss,0 /dev/sg0

Nie pokazuje informacji o które mi chodzi, oto wynik:

Serial number: CVCV...
Device type: disk
Local Time is: Thu Mar 13 21:16:39 2014 CET
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
SMART Health Status: OK

Current Drive Temperature:     <not available>
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
Device does not support Self Test logging

Dyski o których mowa to Intele serii SSD 520.

Próbowałem też z różnymi wartościami cciss,X oraz z różnymi /dev/sgX - rezultat taki sam.

Generalnie to widzę że w katalogu /dev mam m.in. trzy węzły: sg0, sg1, sg2 - natomiast cciss żadnego.

Jakieś propozycje jeszcze macie ?


@Update:

Z tego co widzę to polecenie:

smartctl -a -d cciss,0 /dev/sg0

Niby działa, gdyż jak podaje cciss od 0 do 3 to wypisuje wynik j/w, natomiast jak dam jakiś większy indeks to otrzymuję błąd:

>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Tak więc komunikacja z dyskiem teoretycznie zachodzi, ale nie zwraca danych na których mi zależy.


Edytowany przez ritchey, 13 marzec 2014 - 21:32.

  • 0

#6 theONE

theONE

    Weteran WHT

  • Firma Bronze
  • PipPipPipPipPipPipPipPip
  • 1253 postów
  • Skąd:Warszawa
  • Firma:Dataspace.pl

Napisany 13 marzec 2014 - 21:34

W HP dysk kupiles? 


  • 0

#7 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 13 marzec 2014 - 21:41

W HP dysk kupiles?


Nie wiem gdzie był kupiony - gdyż osobiście go nie kupywałem.
Serwer dzieżawię w serwerowni.
A czy ma to jakieś znaczenie gdzie był on kupowany ?
Model dysku to Intel SSD 520.


Edytowany przez ritchey, 13 marzec 2014 - 21:42.

  • 0

#8 malu

malu

    Linux administrator

  • Firma Bronze
  • PipPipPipPipPipPipPipPip
  • 1753 postów
  • Skąd:Leszno
  • Firma:NODEA
  • Imię:Mateusz
  • Nazwisko:Adach

Napisany 13 marzec 2014 - 21:49

Powiem tak, mi na G8 na P420i bez problemu czyta informacje o intelach 520.

Więc to dość ciekawa przypadłość.


  • 0

#9 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 13 marzec 2014 - 22:35

Powiem tak, mi na G8 na P420i bez problemu czyta informacje o intelach 520.

Więc to dość ciekawa przypadłość.

 

To ja tylko powiem że serwer jest hostowany właśnie w Waszej firmie :)  /ViPower/

 

Przed chwilą próbowałem używać polecenia hpacucli diag

Jest jakiś postęp - gdyż zwraca mi obszerny raport - ale wciąż brak tam informacji o stanie zdrowia SSD.


@Update

Ok udało mi się teoretycznie uzyskać informację za pomocą polecenia:

hpacucli ctrl all diag file=raid-info.zip ris=on

Generuje obszerny raport (ok 1 MB). Są tam informacje dot. wszystkich dysków macierzy i wartości wielu parametrów, m.in:

Percent Endurance Used   0x0000

Power On Hours                 0x0000
Niestety wygląda na to że te informacje są nieprawidłowe, gdyż dyski są bardzo ciężko "orane" od ponad roku, a "endurance used" jest wciąż zero. Natomiast "Power on Hours" powinno mieć wartość conajmniej 24*365 (godziny w roku) - a jest wciąż zero.
 
Jakieś pomysły ?

@Mateusz, a możesz podać jakiego polecenia dokładnie używasz ?


  • 0

#10 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 14 marzec 2014 - 01:28

@Update

Chyba już rozwiązałem problem.

Pierwotnie korzystałem z dość starej wersji smartctl-a 5.40 z 2010r. (wersja domyślnie instalowana apt-get em).

Natomiast teraz pobrałem najnowszą wersję 6.2 - która wydaje się działać już prawidłowo z tą macierzą HP.

 

Tak więc komendy podane przez Miłosza i Patryka działają w porządku - dzięki.

smartctl -a -d cciss,X /dev/sg0

 

Dyski mają wskaźnik Media_Wearout_Indicator na poziomie 99% (czyli dopiero 1% zużycia). To mnie trochę dziwi - ponieważ od ponad roku jest na nich zapisywane bardzo duża ilość danych. Przed chwilą sprawdzałem iostat-em statystyki z ostatniego m-ca - wychodzi że średnio na minutę jest zapisywane 360 MB, co daje 518 GB/dzień i ponad 15 TB/m-c. Czy to możliwe że przy tak dużej orce było takie małe zużycie dysku ? Chyba że iostat jakoś przekłamuje te wartości ?

 

 

 


  • 0

#11 elcct

elcct

    Weteran WHT

  • WHT Pro
  • PipPipPipPipPipPipPipPip
  • 1180 postów
  • Skąd:UK

Napisany 14 marzec 2014 - 13:48

@Update

 

Dyski mają wskaźnik Media_Wearout_Indicator na poziomie 99% (czyli dopiero 1% zużycia). To mnie trochę dziwi - ponieważ od ponad roku jest na nich zapisywane bardzo duża ilość danych. Przed chwilą sprawdzałem iostat-em statystyki z ostatniego m-ca - wychodzi że średnio na minutę jest zapisywane 360 MB, co daje 518 GB/dzień i ponad 15 TB/m-c. Czy to możliwe że przy tak dużej orce było takie małe zużycie dysku ? Chyba że iostat jakoś przekłamuje te wartości ?

 

 

 

 

Ja to tak rozumiem, że jeżeli jest napisane, że dysk powinien wytrzymać 100k zapisów, to chodzi o zapisanie go do pełna tyle razy. W Twoim przypadku jeżeli powiedzmy dysk ma pojemność 240GB to przez dzień by dawało ok. 2,5 takich zapisów, to by znaczyło, że dysk powinien wytrzymać 40000 dni - jakieś 109 lat. Czyli jeśli używałeś go w ten sposób przez rok, to zużycie 1% wydaje się być poprawne.


  • 0

#12 malu

malu

    Linux administrator

  • Firma Bronze
  • PipPipPipPipPipPipPipPip
  • 1753 postów
  • Skąd:Leszno
  • Firma:NODEA
  • Imię:Mateusz
  • Nazwisko:Adach

Napisany 14 marzec 2014 - 15:41

Właśnie chciałem Ci zasugerować kompilację najnowszego smartmontools'a.

Odnośnie wykorzystania dysku to jeżeli używasz ext4 to pokaż:
tune2fs -l /dev/$orana-partycja

Wartość: "Lifetime writes:"


  • 0

#13 theONE

theONE

    Weteran WHT

  • Firma Bronze
  • PipPipPipPipPipPipPipPip
  • 1253 postów
  • Skąd:Warszawa
  • Firma:Dataspace.pl

Napisany 14 marzec 2014 - 18:50

A takie pytanie z innej beczki, kontroler masz aktualny? 


  • 0

#14 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 14 marzec 2014 - 19:36

Właśnie chciałem Ci zasugerować kompilację najnowszego smartmontools'a.

Odnośnie wykorzystania dysku to jeżeli używasz ext4 to pokaż:
tune2fs -l /dev/$orana-partycja

Wartość: "Lifetime writes:"

 

Dzięki Mateusz,

tune2fs podaje 176 TB.

To by się zgadzało z iostat-em (12 m-cy razy ok 15TB/m-c).

Z tego co widzę to Intel SSD 520 ma żywotność 5000 cykli zapisu dla komórki pamięci.

To by oznaczało że max. żywotność dysku to 1 TB (taka jest łączna pojemność macierzy) * 5000 = czyli 5000TB.

Ale to jest dla idealnego przypadku przy równomiernym rozkładzie. W praktyce wartość tą należy kilkukrotnie zmniejszyć - powiedzmy do ok 1000 TB. To by oznaczało że dysk powinien mieć ok 15-20% zużycia.

A ma tylko 1%.

Trochę pomyślałem z czego to może wynikać i już chyba wiem.

Ta macierz ma 1 GB cache-u (Battery Backed Write Cache). Natomiast specyfika aplikacji na serwerze jest taka - że te 500 GB dziennego zapisu dotyczy mniej więcej przestrzeni dysku o rozmiarze mniejszym niż 1 GB (tylko że jest ona kilkusetkrotnie modyfikowana i zapisywana na nowo). To powoduje że ten cache w dużym stopniu eliminuje większość zapisów na dysku SSD. Po prostu wielokrotne zapisy dot. tego samego obszaru dysku scala w jeden zapis. I jak widać całkiem nieźle mu to wychodzi :)


A takie pytanie z innej beczki, kontroler masz aktualny? 

 

Czy mógłbyś wyjaśnić co znaczy "aktualny kontroler" ?


Edytowany przez ritchey, 14 marzec 2014 - 19:35.

  • 0

#15 theONE

theONE

    Weteran WHT

  • Firma Bronze
  • PipPipPipPipPipPipPipPip
  • 1253 postów
  • Skąd:Warszawa
  • Firma:Dataspace.pl

Napisany 14 marzec 2014 - 19:59

Aktualny firmware

Pewność że kontroler umie współpracować z tym dyskiem i zarządzać ich zużyciem


  • 0

#16 malu

malu

    Linux administrator

  • Firma Bronze
  • PipPipPipPipPipPipPipPip
  • 1753 postów
  • Skąd:Leszno
  • Firma:NODEA
  • Imię:Mateusz
  • Nazwisko:Adach

Napisany 14 marzec 2014 - 20:09

To znaczy w HP standardowo ddwc masz wyłączone, a więc wyjaśnienie z 1GB cache nie do końca się pokrywa. No chyba, że z poziomu hpacucli włączałeś ddwc.


  • 0

#17 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 14 marzec 2014 - 20:48

Hmm rzeczywiście Disk Write Cache jest Disabled:

   Cache Board Present: True
   Cache Status: OK
   Cache Ratio: 10% Read / 90% Write
   Drive Write Cache: Disabled
   Total Cache Size: 1024 MB
   Total Cache Memory Available: 816 MB
   No-Battery Write Cache: Disabled
   Cache Backup Power Source: Capacitors
   Battery/Capacitor Count: 1
   Battery/Capacitor Status: OK

Więc teraz  już nic nie rozumiem.

A dlaczego HP domyślnie wyłącza cache ? Czy może on powodować jakieś problemy ?

Wersja firmaware macierzy to 3.22.


Edytowany przez ritchey, 14 marzec 2014 - 20:48.

  • 0

#18 theONE

theONE

    Weteran WHT

  • Firma Bronze
  • PipPipPipPipPipPipPipPip
  • 1253 postów
  • Skąd:Warszawa
  • Firma:Dataspace.pl

Napisany 14 marzec 2014 - 21:53

Na tych intelach z tego co pamiętam nie ma podtrzymania zasilania do cache wiec można stracić dane w przypadku utraty zasilania. 


  • 0

#19 ritchey

ritchey

    Stały użytkownik

  • Użytkownicy
  • PipPipPipPipPip
  • 101 postów
  • Skąd:Koszalin
  • Imię:Mateusz

Napisany 14 marzec 2014 - 22:10

Na tych intelach z tego co pamiętam nie ma podtrzymania zasilania do cache wiec można stracić dane w przypadku utraty zasilania. 

 

Na Intelach nie, podobnie zresztą na innych dyskach SSD - ale mam na myśli macierz RAID HP SmartArray - ona ma podtrzymywanie bateryjne.

 

Mam jeszcze takie wytłumazcenie, że O/S zapisuje na dysk całe bloki/sektory i to w nich liczy ilość zapisanych danych. Natomiast przeważnie jest tak że na zapisywanym bloku faktycznej zmianie ulega tylko jego niewielki fragment. Może firmware w SSD - porównuje zapisywane bloki z dotychczasowym stanem i modyfikuje jedynie te komórki, które rzeczywiście uległy zmianie. Tym samym ilość zapisywanych komórek znacznie się zmniejsza ? 


  • 0






Także otagowane jednym lub więcej z tych słów kluczowych: ssd, raid, hp, proliant, smartarray, p420i

0 użytkowników czyta ten temat

0 użytkowników, 0 gości, 0 anonimowych użytkowników