Skocz do zawartości
Emil

[debian 4.0]read Only File Syetem

Polecane posty

Witam

 

Od pewnego czasu codziennie dzieje sie taki błąd 'Read-Only file system". Wtedy serwer na nic nie odpowiada. Działa tylko ręczny reset w serwerowni.

 

Jak serwer wstanie po resecie jest juz dobrze. Tylko ze mam juz dosyć resetowania go codziennie. Ten błąd dzieje się w nocy i sam nie wiem z jakiego powodu.

 

Na serwerze mam zainstalowany Direct Admin.

 

Wiem ze to "jakiś" błąd dysku? Pierwszy raz mi sie cos takiego dzieje, wczesniej mialem dedyka w innej firmie i bylo wszystko dobrze.

 

Mam zainstalowane takie coś:

/dev/sda2 -dysk

tmpfs na /lib/init/rw - sam nie wiem co to jest (na starym dedyku tego nie bylo)

tmpfs na /dev/shm

udev na /dev

 

co moge zrobic aby ten błąd nie występował?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Sadze, ze w systemie plikow jest blad, co w przypadku jego wykrycia powoduje przemontowanie do trybu read-only. Prawdopodobnie moze to byc blad dysku. Mozesz sprobowac zrobic dokladne testy systemu plikow z naprawianiem - w przypadku drobniejszych problemow pomoze, ale sadze, ze moze byc konieczna wymiana dysku. Jesli testy spowoduja wykrycie bad sectorow to proponowalbym sie dluzej nad wymiana nie zastanawiac.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Tak, jest to błąd w systemie plików, pewnie posiadasz Journal'a? :)

 

Przeglądnij logi kern.log/message, odszukaj wpisów tego typu:

EXT3-fs error (device sda/hda) ext3_readdir: bad entry in directory/files #2525025

Aborting journal on device ...

Remounting filesystem read-only

gdzie w tym momencie nastąpił remont partycji na read-only

Pierw wykonaj fsck /dev/sda1 (sda1 - oczywiście partycja gdzie wystąpił błąd)

Możliwe, że wywali Ci trochę katalogów/plików do lost+found

 

Możesz też spróbować odszukać katalogi/pliki które spowodowały błąd:

find . -inum 2525025
gdzie 2525025 to numer z komunikatu powyżej.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

w pliku kern.log znalazlem cos takiego

 

Jan  6 12:37:28 host kernel: EXT3 FS on sdb, internal journal
Jan  6 12:37:28 host kernel: EXT3-fs: recovery complete.
Jan  6 12:37:28 host kernel: EXT3-fs: mounted filesystem with ordered data mode.

Jan  7 11:29:09 host kernel: EXT3-fs: INFO: recovery required on readonly filesystem.
Jan  7 11:29:09 host kernel: EXT3-fs: write access will be enabled during recovery.
Jan  7 11:29:09 host kernel: kjournald starting.  Commit interval 5 seconds
Jan  7 11:29:09 host kernel: EXT3-fs warning (device sda2): ext3_clear_journal_err: Filesystem error recorded from previous mount: IO failure
Jan  7 11:29:09 host kernel: EXT3-fs warning (device sda2): ext3_clear_journal_err: Marking fs in need of filesystem check.
Jan  7 11:29:09 host kernel: EXT3-fs: recovery complete.
Jan  7 11:29:09 host kernel: EXT3-fs: mounted filesystem with ordered data mode.


Jan  9 12:23:51 host kernel: EXT3-fs warning (device sda2): ext3_unlink: Deleting nonexistent file (8110319), 0
Jan  9 12:23:51 host kernel: EXT3-fs warning (device sda2): ext3_unlink: Deleting nonexistent file (8110300), 0
Jan  9 12:23:51 host kernel: EXT3-fs warning (device sda2): ext3_unlink: Deleting nonexistent file (8110247), 0
Jan  9 12:23:51 host kernel: EXT3-fs warning (device sda2): ext3_unlink: Deleting nonexistent file (8110297), 0

 

 

Tego polecenie fsck nie próbowalem bo boje się że mi system siądzie? Jest to mozliwe?

 

Pozdrawiam

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Emil: żeby fsck nie wyrządził szkód odpalaj go w momencie gdy system jest readonly lub w trybie rescue serwera, uruchamianie go w momencie gdy na sewerze działają usługi i non-stop dokonywane są operacje odczytu i zapisu jest raczej słabym pomysłem.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

a czy ktos juz probowal tak naprawiac serwer?

 

jezeli jutro będzie tez readonly zrobie tak jak mowi Partyk ale boje się ze serwer padnie i będę musiał od nowa wszystko wgrywać

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
a czy ktos juz probowal tak naprawiac serwer?

Próbował gdyż między innymi do tego służy to polecenie.

 

jezeli jutro będzie tez readonly zrobie tak jak mowi Partyk ale boje się ze serwer padnie i będę musiał od nowa wszystko wgrywać
To nic nie rób - coraz częściej będziesz miał takie sytuacje aż w końcu padnie.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

A ja się wyłamię i powiem, że to może być walnięty RAM albo dysk twardy a uszkodzony tylko filesystem to raczej bym obstawiał na samym końcu.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

włączyłem sobie tryb resuce tak dla zapoznania się z nim. A więc na pocątku co zobaczyłem:

 

Hardware data:

 

CPU Athlon 64 X2 Dual Core 5600+

CPU Athlon 64 X2 Dual Core 5600+

RAM 4023 MB

Disk /dev/sdb doesn't contain a valid partition table

Disk /dev/sda: 400.0 GB

Disk /dev/sdb: 400.0 GB

 

Widac jakiś błąd drugiego dysku tak jakby 2 razy został podpięty? Ale to nie koniec problemow

 

Nie wiem czy dobrze zrobilem ale wpisalem mount /dev/sda2/ /

 

Chcialem sobie zaparkowac 1 dysk na resuce ale niestety nie udało się

 

Wpisałem to polecenie fsck /dev/sda2 tez nic nie poszło.

 

 

Na koniec wpisuje reboot. OK niby poszło a teraz czekam 3-6 min a tu nic. Ping nie działa ani nic.

 

Więc znowu musiałem zlecic ręczny reset i dopiero wstał...

 

 

co o tym myslicie?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

nie mam pojecia czy mam hardware RAid to serwer z Hetzner DS5000.

 

Wlasnie 2 min temu znowu Read Only się włączylo i zlecilem znowu ręczny reset

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
A ja się wyłamię i powiem, że to może być walnięty RAM albo dysk twardy a uszkodzony tylko filesystem to raczej bym obstawiał na samym końcu.

 

Nie musisz sie wylamywac, ja tez obstawialem uszkodzenie dysku :-).

RAM tez mozliwy, ale zdecydowanie mniej prawdopodobny.

 

@Emil Nie restartuj tylko bierz sie do dzialania.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

no i się wziąłem bo mialem juz dosyc:)

 

Wpisałem to polecenie co mówił pan Adrian Szczepanik.

 

Zadziałało i powiem ze było full błędów naprawiało mi chyba z godzine plikow mi wywalilo okolo 4GB i sam nie wiem co za pliki :/

 

Teraz tylko pozostało wieżyć ze nie będzie juz Read Only :/

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Nie chcę krakać ale jeśli nawet objawy znikną to pozostanie pytanie czy wyeliminowałeś przyczynę czy tylko skutek problemu.. W normalnej sytuacji system plików nie powinien się uszkodzić a już na pewno nie 4GB danych na nim.. Tak więc obserwuj swój serwer i kiedy objawy wrócą to możesz być już prawie pewny, że są tylko skutkiem innego problemu a nie przyczyną problemu same z siebie..

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Logi... przeglądaj logi

Te 4GB to wcale nie muszą być plikami poważnie uszkodzonymi.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Ponownie zgadzam sie z pleple. Nie ufalbym juz dyskowi. Ponadto (to do Emil) - zrob test na bad sectory - wiele czestych awarii objawiac sie bedzie bad sectorami, szczegolnie przy testach read/write. Jesli znajdzie choc jeden bad sector lub problem zapisu/odczytu to dysk do wymiany (bo na bank w szybkim tempie bedzie przybywac kolejnych).

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Sprawdz tez czy dysk fizycznie jest sprawny:

smartctl -d ata -a /dev/sda

 

w wyniku komendy zwróć uwage szczególnie na:

 

5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0

194 Temperature_Celsius 0x0022 038 066 000 Old_age Always - 38 (Lifetime Min/Max 0/23)

197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0

198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0

 

Poza temperaturą pozostałe powinny wynosić 0 lub blisko. Temp koło 40 stopnie bedzie idealna, ponad 65 to juz niedobrze. Jak dysk łapie bad sektory - to juz jest powód do zmartwienia - ja doradzam wymiane dysku w serwerach produkcyjnych już po pierwszym bad-sektorze. Taki dysk moze dobrze sluzyc jeszcze dlugi czas - ale lepiej go przeniesc do zadań mniej istotnych.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

@bold Co do bad sectorow, taki dysk raczej nie bedzie sluzyc, chyba, ze przez sluzenie rozumiesz to, ze bady statystycznie moga trafic na niezajete sektory. Dyski posiadaja nadmiarowosc na wypadek badow (bo generalnie pojawiania sie bad sectorow na dysku jako takich jest stanem calkowicie normalnym - po to jest nadmiarowe miejsce, aby przenosic tam alokacje niepoprawnego sektora). Jezeli bady staja sie odczuwalne to znaczy, ze jest ich juz tak duzo, ze wyczerpano "zapas". To oznacza juz powazny problem z dyskiem. A kolejne bady beda sie pojawiac. Moga co najwyzej nic szczegolnego nie popsuc. Do czasu ;-).

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Sprawdz tez czy dysk fizycznie jest sprawny:

smartctl -d ata -a /dev/sda

 

Chciałem sprawdzic ale niestety polecenie nie działa

 

 

-bash: smartctl: command not found

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Instalacja nie powiodła się

 

 apt-get install smartmontools
Reading package lists... Done
Building dependency tree... Done
Recommended packages:
 mailx mailutils
The following NEW packages will be installed:
 smartmontools
0 upgraded, 1 newly installed, 0 to remove and 1 not upgraded.
Need to get 262kB of archives.
After unpacking 557kB of additional disk space will be used.
Get:1 http://ftp.freenet.de etch/main smartmontools 5.36-8 [262kB]
Fetched 262kB in 0s (1403kB/s)
Selecting previously deselected package smartmontools.
(Reading database ... dpkg: error processing /var/cache/apt/archives/smartmontools_5.36-8_i386.deb (--unpack):
unable to open files list file for package `m4': No such device or address
Errors were encountered while processing:
/var/cache/apt/archives/smartmontools_5.36-8_i386.deb
Processing was halted because there were too many errors.
E: Sub-process /usr/bin/dpkg returned an error code (1)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto

Zarejestruj nowe konto, to proste!

Zarejestruj nowe konto

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się


×