Skocz do zawartości
Zaloguj się, aby obserwować  
damianoos

Dziwny problem z serwerem

Polecane posty

Witam,

 

Posiadam serwer dedykowany w LeaseWeb (Celeron DC, 2GBRam). Mam na nim kilka prostych serwisów (łączna ilość online nie przekracza w sumie 100). Wcześniej owe serwisy hostowałem na VPSie w innej serwerowni i serwer chodził szybciutko i idealnie.

 

Mój problem jest następujący:

- za pierwszym razem miałem serwer może z tydzień po czym load i IOwait zaczął bardzo skakać... Po kilku dniach walki nic nie wskórałem, okazało się że dysk padł - został wymieniony

- za drugim razem, na czystym serwerze z nowym dyskiem wgrałem tylko stronki i nie starałem się nawet nic konfigurować (ponieważ ruch jest na tyle mały, że maszyna nic nie jest wykorzystywana). Serwer pykał idealnie z jakieś 3-4 dni (load około 0.2) po czym znów zaczął skakać IOwait jak i load (load czasami powyżej 60). Po optymalizacji konfigów nic się nie poprawiło, zgłosiłem to pracownikom, którzy stwierdzli "Kernel Panic" - system znów został na nowo wgrany

- teraz serwer mam po "remoncie" po raz trzeci, czysty system, same stronki, nic nie konfigurowane.. Kilka dni znów chodził idealnie (load poniżej 0.5), po czym znów zaczynają dziać się jaja... Load aktualnie mam już 5-10...

 

Czy ktoś może mi powiedzieć co się dzieje? Ja już nie wiem co mam robić, ten serwer zaczyna mnie wykańczać... Zaznaczam, że nic nie modyfikuje w samym systemie, nie ruszałem nawet teraz konfigów - sam od siebie po kilku dniach zaczyna mulić...

 

Sam ruch jest bardzo mały i najważniejsze, na o wiele słabszym VPS nic podobnego się nie działo..

 

Proszę o pomoc..

 

P.S System to CentOS, dodatkowo wgrany jest PLESK

 

Z góry dziękuje i pozdrawiam

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Jednak tym razem, gdy wpisuje komendy sprawdzające dysk, nic niepokojącego się nie pojawia... Wtedy, za pierwszym razem, wyświetlały się komunikaty awarii sektorów i monity o jak najszybszym zrobieniu backupu..

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Jednak tym razem, gdy wpisuje komendy sprawdzające dysk, nic niepokojącego się nie pojawia... Wtedy, za pierwszym razem, wyświetlały się komunikaty awarii sektorów i monity o jak najszybszym zrobieniu backupu..

 

co pokazuje iostat -kx 5 ?

 

moze jest cos w smarcie ? (smartctl -d ata -a /dev/sdX)

 

w wyniku ps axu ktore procesy sa w stanie D ?

 

jesli jest tam softraid to moze cos ciekawego jest w /proc/mdstat

 

a moze cos w dmesg ?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

A czy probowaleś takich prozaicznych rzeczy jak np..restart httpd? Czy to pomaga?

 

Sprawdz tez:

- czy nic nie zapycha Ci kolejki maili (może jakaś dziura w skrypcie i ktoś wysyła z serwera spam)

- czy logi Apacha sie rotuja (bo równie dobrze mogły nabrać kilka gigabajtow i stad ten iowait)

itd, itp.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Nasuwają mi się 3 rzeczy.

 

1. Problem z raidem software.

2. To o czym wspomniał Patryk.

3. Nie wyjaśnione zagadki czeluści systemu ;]

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Proszę:

 

- iostat -kx 5

 

avg-cpu: %user %nice %system %iowait %steal %idle

0.60 0.00 0.30 13.39 0.00 85.71

 

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.00 8.80 0.00 4.60 0.00 53.60 23.30 0.28 61.83 58.48 26.90

 

avg-cpu: %user %nice %system %iowait %steal %idle

1.10 0.00 0.40 6.39 0.00 92.11

 

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.00 6.40 0.00 2.80 0.00 36.80 26.29 0.13 47.64 46.36 12.98

 

avg-cpu: %user %nice %system %iowait %steal %idle

0.80 0.00 0.20 6.30 0.00 92.70

 

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.00 7.60 0.00 2.80 0.00 42.40 30.29 0.13 46.57 45.14 12.64

 

avg-cpu: %user %nice %system %iowait %steal %idle

0.80 0.00 0.50 8.50 0.00 90.20

 

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.00 13.77 0.00 3.39 0.00 69.46 40.94 0.17 51.12 50.24 17.05

 

avg-cpu: %user %nice %system %iowait %steal %idle

0.30 0.00 0.30 6.69 0.00 92.71

 

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.00 21.20 0.00 17.60 0.00 128.80 14.64 8.36 72.38 10.43 18.36

 

- Hmm natomiast smartctl -d ata -a /dev/sda daje takie errory (wycięte z całego sprawozdania). Co to oznacza dokładnie?

 

Error 3744 occurred at disk power-on lifetime: 1053 hours (43 days + 21 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:02:16.586 READ DMA

27 00 00 00 00 00 e0 00 15:02:16.586 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:02:16.583 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:02:16.579 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:02:16.575 READ NATIVE MAX ADDRESS EXT

 

Error 3743 occurred at disk power-on lifetime: 1054 hours (43 days + 22 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:47:08.214 READ DMA

27 00 00 00 00 00 e0 00 15:47:08.214 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:47:08.211 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:47:08.208 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:47:08.204 READ NATIVE MAX ADDRESS EXT

 

Error 3742 occurred at disk power-on lifetime: 1048 hours (43 days + 16 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 f0 06 87 e0 Error: UNC 7 sectors at LBA = 0x008706f0 = 8849136

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 ef 06 87 e0 00 00:04:25.897 READ DMA

27 00 00 00 00 00 e0 00 00:04:25.897 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 00:04:25.893 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 00:04:25.893 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 00:04:25.893 READ NATIVE MAX ADDRESS EXT

 

Error 3741 occurred at disk power-on lifetime: 1054 hours (43 days + 22 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:46:59.461 READ DMA

27 00 00 00 00 00 e0 00 15:46:59.461 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:46:59.458 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:46:59.454 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:46:59.450 READ NATIVE MAX ADDRESS EXT

 

Error 3740 occurred at disk power-on lifetime: 1054 hours (43 days + 22 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:46:55.281 READ DMA

27 00 00 00 00 00 e0 00 15:46:55.281 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:46:55.277 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:46:55.277 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:46:55.273 READ NATIVE MAX ADDRESS EXT

 

 

- ps aux nie daje żadnych procesów w tanie D

 

- soft raid chyba to nie posiada, polecenie /proc/mdstat nie istnieje

 

- w dmesg nic niepokojącego nie znajduję...

 

 

A czy probowaleś takich prozaicznych rzeczy jak np..restart httpd? Czy to pomaga?

 

Sprawdz tez:

- czy nic nie zapycha Ci kolejki maili (może jakaś dziura w skrypcie i ktoś wysyła z serwera spam)

- czy logi Apacha sie rotuja (bo równie dobrze mogły nabrać kilka gigabajtow i stad ten iowait)

itd, itp.

 

Podczas drugiej mojej awarii, wyłączenie httpd i mysqld nie dawało nic - system w stanie wolnym (bez tych działających usług) miał load około 10 i iowait na poziomie >50%. Tym razem jest lepiej, load spada po wyłaczeniu tych usług, można by było powiedzieć, że coś jest źle skonfigurowane, ale dlaczego się to dzieje dopiero po kilku dniach, ruch jest ten sam (dodatkowo same konfigi wydają się być OK)

 

Kolejka maili jest pusta, a logi apache są małe i dodatkowo rotują się. Może plesk coś robi nie tak? On też generuje logi dla każdego konta (które są o wiele bardziej pojemne) ale niestety nikt nie zna przepisu na wyłączenie tego. Więc skoro u nikogo przy plesku nic takiego się nie dzieje, więc wątpię że tylko u mnie by tak było..

 

 

Czy ma ktoś pomysłu co z tym robić? Aktualnie load jest na poziomie 3, a jakieś 2-3 dni temu o tej samej porze i tym samym ruchu był około 0.2. Więc różnica jest znacząca..

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Proszę:

 

- iostat -kx 5

 

 

 

- Hmm natomiast smartctl -d ata -a /dev/sda daje takie errory (wycięte z całego sprawozdania). Co to oznacza dokładnie?

 

mozesz przytoczyc calosc ze smarta ?

 

mozna tez dysk przetestowac komenda

smartctl -d ata -t short /dev/sda

 

dysk rzeczywiscie jakos wolno dziala

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Podaje całość ze smarta:

 

smartctl version 5.36 [i686-redhat-linux-gnu] Copyright ? 2002-6 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

 

=== START OF INFORMATION SECTION ===

Device Model: TOSHIBA MK1637GSX

Serial Number: 375KF2N7S

Firmware Version: DL021A

User Capacity: 160,041,885,696 bytes

Device is: Not in smartctl database [for details use: -P showall]

ATA Version is: 7

ATA Standard is: Exact ATA specification draft version not indicated

Local Time is: Sun Aug 3 11:28:52 2008 CEST

SMART support is: Available - device has SMART capability.

SMART support is: Enabled

 

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

 

General SMART Values:

Offline data collection status: (0x00) Offline data collection activity

was never started.

Auto Offline Data Collection: Disabled.

Self-test execution status: ( 248) Self-test routine in progress...

80% of test remaining.

Total time to complete Offline

data collection: ( 120) seconds.

Offline data collection

capabilities: (0x5b) SMART execute Offline immediate.

Auto Offline data collection on/off support.

Suspend Offline collection upon new

command.

Offline surface scan supported.

Self-test supported.

No Conveyance Self-test supported.

Selective Self-test supported.

SMART capabilities: (0x0003) Saves SMART data before entering

power-saving mode.

Supports SMART auto save timer.

Error logging capability: (0x01) Error logging supported.

General Purpose Logging supported.

Short self-test routine

recommended polling time: ( 2) minutes.

Extended self-test routine

recommended polling time: ( 92) minutes.

 

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0

2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0

3 Spin_Up_Time 0x0027 100 100 001 Pre-fail Always - 1727

4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 24

5 Reallocated_Sector_Ct 0x0033 100 100 050 Pre-fail Always - 10

7 Seek_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0

8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0

9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1155

10 Spin_Retry_Count 0x0033 100 100 030 Pre-fail Always - 0

12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 24

192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 5

193 Load_Cycle_Count 0x0032 098 098 000 Old_age Always - 29159

194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 30 (Lifetime Min/Max 16/43)

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 10

197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 11

198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0

199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 581

220 Disk_Shift 0x0002 100 100 000 Old_age Always - 100

222 Loaded_Hours 0x0032 100 100 000 Old_age Always - 358

223 Load_Retry_Count 0x0032 100 100 000 Old_age Always - 0

224 Load_Friction 0x0022 100 100 000 Old_age Always - 0

226 Load-in_Time 0x0026 100 100 000 Old_age Always - 307

240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Offline - 0

 

SMART Error Log Version: 1

ATA Error Count: 3744 (device log contains only the most recent five errors)

CR = Command Register [HEX]

FR = Features Register [HEX]

SC = Sector Count Register [HEX]

SN = Sector Number Register [HEX]

CL = Cylinder Low Register [HEX]

CH = Cylinder High Register [HEX]

DH = Device/Head Register [HEX]

DC = Device Command Register [HEX]

ER = Error register [HEX]

ST = Status register [HEX]

Powered_Up_Time is measured from power on, and printed as

DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,

SS=sec, and sss=millisec. It "wraps" after 49.710 days.

 

Error 3744 occurred at disk power-on lifetime: 1053 hours (43 days + 21 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:02:16.586 READ DMA

27 00 00 00 00 00 e0 00 15:02:16.586 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:02:16.583 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:02:16.579 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:02:16.575 READ NATIVE MAX ADDRESS EXT

 

Error 3743 occurred at disk power-on lifetime: 1054 hours (43 days + 22 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:47:08.214 READ DMA

27 00 00 00 00 00 e0 00 15:47:08.214 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:47:08.211 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:47:08.208 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:47:08.204 READ NATIVE MAX ADDRESS EXT

 

Error 3742 occurred at disk power-on lifetime: 1048 hours (43 days + 16 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 f0 06 87 e0 Error: UNC 7 sectors at LBA = 0x008706f0 = 8849136

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 ef 06 87 e0 00 00:04:25.897 READ DMA

27 00 00 00 00 00 e0 00 00:04:25.897 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 00:04:25.893 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 00:04:25.893 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 00:04:25.893 READ NATIVE MAX ADDRESS EXT

 

Error 3741 occurred at disk power-on lifetime: 1054 hours (43 days + 22 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:46:59.461 READ DMA

27 00 00 00 00 00 e0 00 15:46:59.461 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:46:59.458 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:46:59.454 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:46:59.450 READ NATIVE MAX ADDRESS EXT

 

Error 3740 occurred at disk power-on lifetime: 1054 hours (43 days + 22 hours)

When the command that caused the error occurred, the device was active or idle.

 

After command completion occurred, registers were:

ER ST SC SN CL CH DH

-- -- -- -- -- -- --

40 51 07 58 6f 9d e0 Error: UNC 7 sectors at LBA = 0x009d6f58 = 10317656

 

Commands leading to the command that caused the error were:

CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name

-- -- -- -- -- -- -- -- ---------------- --------------------

c8 00 08 57 6f 9d e0 00 15:46:55.281 READ DMA

27 00 00 00 00 00 e0 00 15:46:55.281 READ NATIVE MAX ADDRESS EXT

ec 00 00 00 00 00 a0 00 15:46:55.277 IDENTIFY DEVICE

ef 03 45 00 00 00 a0 00 15:46:55.277 SET FEATURES [set transfer mode]

27 00 00 00 00 00 e0 00 15:46:55.273 READ NATIVE MAX ADDRESS EXT

 

SMART Self-test log structure revision number 1

Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error

# 1 Short offline Completed without error 00% 1155 -

 

SMART Selective self-test log data structure revision number 1

SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS

1 0 0 Not_testing

2 0 0 Not_testing

3 0 0 Not_testing

4 0 0 Not_testing

5 0 0 Not_testing

Selective self-test flags (0x0):

After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.

 

Kurcze zbytnio nie znam się na tych parametrach... Czy może to zostać zgłoszone jako awaria dysku? Czy w ogóle dysk jest uszkodzony?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Podaje całość ze smarta:

 

 

 

Kurcze zbytnio nie znam się na tych parametrach... Czy może to zostać zgłoszone jako awaria dysku? Czy w ogóle dysk jest uszkodzony?

tak,

 

5 Reallocated_Sector_Ct 0x0033 100 100 050 Pre-fail Always - 10

 

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 10

197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 11

 

dysk sie sypie

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Ok, dziękuje :)

 

Wyślę im te informacje i zapytam czy to normalne. Zobaczymy co odpiszą. Trochę mi głupio już do nich pisać - 3 raz coś nawala w przeciągu dwóch tygodni :/

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Ok, dziękuje :)

 

Wyślę im te informacje i zapytam czy to normalne. Zobaczymy co odpiszą. Trochę mi głupio już do nich pisać - 3 raz coś nawala w przeciągu dwóch tygodni :/

 

imho to im powinno byc glupio a nie tobie :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Wymienili, bo miałem w pewnym momencie podłączone dwa (abym mógł spróbować backup zrobić), ale nic to nie dało.. Był na tyle uszkodzony że już nic nie dało się zrobić..

Po wymianie to tak jak mówię, max kilka dni serwer chodzi idealnie.. Później tylko format pomaga.. Ech meczy mnie już to :/

Zgłosiłem już im usterkę, zobaczymy co odpowiedzą. Przytoczyłem im te logi. Dobrze, że oni chociaż nawet w niedziele wieczór pracują :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Zrób apt-get install hddtemp

 

a następnie:

 

hddtemp /dev/sda

 

I podaj wynik, może dyski Ci się przegrzewają.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Zrób apt-get install hddtemp

 

a następnie:

 

hddtemp /dev/sda

 

I podaj wynik, może dyski Ci się przegrzewają.

 

194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 30 (Lifetime Min/Max 16/43)

max 43 obecnie 30 stopnie wiec nie jest zle z temperatura

 

--

Lazy

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Dziękuje wszystkim za pomoc :D

 

Dysk został już wymieniony, ale zanim w pełni będę szczęśliwy musi upłynąć minimum tydzień bez awarii.. :P

 

Ale już widać różnicę w prędkości działania dysku:

 

avg-cpu: %user %nice %system %iowait %steal %idle

1.70 1.22 1.00 1.39 0.00 94.68

 

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 72.52 63.71 7.93 10.99 387.88 300.05 72.72 0.99 52.29 1.67 3.16

 

 

avg-cpu: %user %nice %system %iowait %steal %idle

1.00 0.00 0.30 0.00 0.00 98.70

 

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util

sda 0.00 68.20 0.00 4.80 0.00 292.00 121.67 0.02 4.42 1.83 0.88

 

 

Smart nie wyświetla żadnych uszkodzonych sektorów. Dziękuje raz jeszcze za zaoszczędzony czas, bo pewnie bym teraz kombinował z konfigami...

 

Pozdrawiam

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto

Zarejestruj nowe konto, to proste!

Zarejestruj nowe konto

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się

Zaloguj się, aby obserwować  

×