Discussioni sul sistema operativo Linux
 

problema sincronizzazione raid sw

Roberto Tagliaferri 8 Giu 2015 08:24
Hola, ho un vecchio server che ha avuto un problema ad un disco (raid 1 sw)
Ho messo un altro HD, dato l'add e.. sono 3 giorni che arriva ad un certo punto
e mi da un errore di lettura sul disco rimasto:
raid1: sda: unrecoverable I/O read error for block 708843520
sd 0:0:0:0: [sda] 976773168 512-byte *****ware sectors (500108 MB)
sd 0:0:0:0: [sda] Write Protect is off
sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO
or FUA
md: md2: recovery done.

a questo punto riparte col sync
Se però provo a leggere il settore incriminato non ci sono problemi:
root@virtual.tosnet.it/usr/src/hdparm-9.45# ./hdparm --read-sector 708843520
/dev/sda

/dev/sda:
reading sector 708843520: succeeded


quindi perché da errore?


in syslog trovo questo:
Jun 8 07:35:46 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1ffff SErr
0x0 action 0x0
Jun 8 07:35:46 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:35:46 virtual kernel: ata1.00: cmd 60/80:38:66:bc:34/00:00:2b:00:00/40
tag 7 cdb 0x0 data 65536 in
Jun 8 07:35:46 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:35:48 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1e7f1 SErr
0x0 action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/80:48:66:bc:34/00:00:2b:00:00/40
tag 9 cdb 0x0 data 65536 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0xfff SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/80:28:66:bc:34/00:00:2b:00:00/40
tag 5 cdb 0x0 data 65536 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0xfff SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/80:30:66:bc:34/00:00:2b:00:00/40
tag 6 cdb 0x0 data 65536 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0xfff SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/80:28:66:bc:34/00:00:2b:00:00/40
tag 5 cdb 0x0 data 65536 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0xfff SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/80:30:66:bc:34/00:00:2b:00:00/40
tag 6 cdb 0x0 data 65536 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: Descriptor sense data with sense descriptors (in
hex):
Jun 8 07:36:11 virtual kernel: end_request: I/O error, dev sda, sector
724876390
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/08:00:ae:bc:34/00:00:2b:00:00/40
tag 0 cdb 0x0 data 4096 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/08:00:ae:bc:34/00:00:2b:00:00/40
tag 0 cdb 0x0 data 4096 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/08:00:ae:bc:34/00:00:2b:00:00/40
tag 0 cdb 0x0 data 4096 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/08:00:ae:bc:34/00:00:2b:00:00/40
tag 0 cdb 0x0 data 4096 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/08:00:ae:bc:34/00:00:2b:00:00/40
tag 0 cdb 0x0 data 4096 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0
action 0x0
Jun 8 07:36:11 virtual kernel: ata1.00: (irq_stat 0x40000008)
Jun 8 07:36:11 virtual kernel: ata1.00: cmd 60/08:00:ae:bc:34/00:00:2b:00:00/40
tag 0 cdb 0x0 data 4096 in
Jun 8 07:36:11 virtual kernel: res 41/40:00:b4:bc:34/80:00:2b:00:00/40
Emask 0x9 (media error)
Jun 8 07:36:11 virtual kernel: Descriptor sense data with sense descriptors (in
hex):
Jun 8 07:36:11 virtual kernel: end_request: I/O error, dev sda, sector
724876462
Jun 8 07:36:11 virtual kernel: raid1: sda: unrecoverable I/O read error for
block 708843520
Jun 8 07:36:12 virtual kernel: RAID1 conf printout:
Jun 8 07:36:12 virtual kernel: --- wd:1 rd:2
Jun 8 07:36:12 virtual kernel: disk 0, wo:0, o:1, dev:sda3
Jun 8 07:36:12 virtual kernel: disk 1, wo:1, o:1, dev:sdc3
Jun 8 07:36:12 virtual kernel: RAID1 conf printout:
Jun 8 07:36:12 virtual kernel: --- wd:1 rd:2
Jun 8 07:36:12 virtual kernel: disk 0, wo:0, o:1, dev:sda3
Jun 8 07:36:12 virtual kernel: RAID1 conf printout:
Jun 8 07:36:12 virtual kernel: --- wd:1 rd:2
Jun 8 07:36:12 virtual kernel: disk 0, wo:0, o:1, dev:sda3
Jun 8 07:36:12 virtual kernel: disk 1, wo:1, o:1, dev:sdc3


ma come prima se provo a leggere i settori incriminati ottengo un bel reading..
succeeded
Non c'è un modo per dire al kernel di ignorare tali errori? I settori sono
tutti altissimi, quando li leggo sono vuoti e quindi se tirasse a diritto
probabilmente sarebbe tutto a posto.

--
Roberto Tagliaferri-Linux user #30785 <-> r.tagliaferri@(forse)tosnet.it
www.robyt.eu
Leonardo Serni 8 Giu 2015 09:15
On Mon, 08 Jun 2015 08:24:22 +0200, Roberto Tagliaferri
<tagliaferri@bofhland.org> wrote:

>Hola, ho un vecchio server che ha avuto un problema ad un disco (raid 1 sw)
>Ho messo un altro HD, dato l'add e.. sono 3 giorni che arriva ad un certo punto
e mi da un errore di lettura sul disco rimasto:
>raid1: sda: unrecoverable I/O read error for block 708843520
>sd 0:0:0:0: [sda] 976773168 512-byte *****ware sectors (500108 MB)
>sd 0:0:0:0: [sda] Write Protect is off
>sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
>sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support
DPO or FUA
>md: md2: recovery done.

>a questo punto riparte col sync
>Se però provo a leggere il settore incriminato non ci sono problemi:
>root@virtual.tosnet.it/usr/src/hdparm-9.45# ./hdparm --read-sector 708843520
/dev/sda
>
>/dev/sda:
>reading sector 708843520: succeeded

>quindi perché da errore?

Forse perche' il blocco del FS non corrisponde al settore del device. Prova
con i settori 724876390 e 724876462?

>ma come prima se provo a leggere i settori incriminati ottengo un bel reading..
succeeded
>Non c'è un modo per dire al kernel di ignorare tali errori? I settori sono
tutti altissimi, quando li leggo sono vuoti e quindi se tirasse a diritto
probabilmente sarebbe tutto a posto.

In a pinch, fai un dump di sda su un altro disco sano di dimensioni uguali,
o superiori, e synca il RAID con quello. Comunque se il settore fallisce, e
non viene neanche rimappato, vuole dire che anche sda e' piu' di la' che di
qua.

Leonardo

--
A stultis ex omnibus gentium varie pictis
A sanctae fidei adeptis, ab eorum odore;
AB insanis Iacobinis, ab eorum ardore
AB idolatris et martyribus odii et terroris;
A paradisi fautoribus dicentibus "est pro amore",
A manichaeis ululantibus "Nisi nobiscum prodes";
LIBERA, libera, libera, libera nos, Domine.
Roberto Tagliaferri 8 Giu 2015 09:46
Leonardo Serni wrote:

> On Mon, 08 Jun 2015 08:24:22 +0200, Roberto Tagliaferri
> <tagliaferri@bofhland.org> wrote:
>
>>Hola, ho un vecchio server che ha avuto un problema ad un disco (raid 1
>>sw) Ho messo un altro HD, dato l'add e.. sono 3 giorni che arriva ad un
>>certo punto e mi da un errore di lettura sul disco rimasto: raid1: sda:
>>unrecoverable I/O read error for block 708843520 sd 0:0:0:0: [sda]
>>976773168 512-byte *****ware sectors (500108 MB) sd 0:0:0:0: [sda] Write
>>Protect is off sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
>>sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't
>>support DPO or FUA md: md2: recovery done.
>
>>a questo punto riparte col sync
>>Se però provo a leggere il settore incriminato non ci sono problemi:
>>root@virtual.tosnet.it/usr/src/hdparm-9.45# ./hdparm --read-sector
>>708843520 /dev/sda
>>
>>/dev/sda:
>>reading sector 708843520: succeeded
>
>>quindi perché da errore?
>
> Forse perche' il blocco del FS non corrisponde al settore del device.
> Prova con i settori 724876390 e 724876462?
li legge senza battere ciglio.

>
>>ma come prima se provo a leggere i settori incriminati ottengo un bel
>>reading.. succeeded Non c'è un modo per dire al kernel di ignorare tali
>>errori? I settori sono tutti altissimi, quando li leggo sono vuoti e
>>quindi se tirasse a diritto probabilmente sarebbe tutto a posto.
>
> In a pinch, fai un dump di sda su un altro disco sano di dimensioni
> uguali, o superiori, e synca il RAID con quello. Comunque se il settore
> fallisce, e non viene neanche rimappato, vuole dire che anche sda e' piu'
> di la' che di qua.

mi toccherà (mi scocciava spegnere un server con 1300 giorni di uptime).
Però mi fa specie non capire dove trova l'errore.
Posso provare con una passata di badblock in lettura però..


>
> Leonardo
>
--
Roberto Tagliaferri-Linux user #30785 <-> r.tagliaferri@(forse)tosnet.it
www.robyt.eu
Roberto Tagliaferri 8 Giu 2015 13:41
Roberto Tagliaferri wrote:


> mi toccherà (mi scocciava spegnere un server con 1300 giorni di uptime).
> Però mi fa specie non capire dove trova l'errore.
> Posso provare con una passata di badblock in lettura però..
Provato con badblocks ed effettivamente trova qualcosa
354421804
354421805
354421806
354421807
354421808
354421809
354421810
354421811
354421812
354421813
354421814
354421815
354421816
354421817
354421818
354421819
354421820
354421821
354421822
354421823
354421824
354421825
354421826
354421827
354421828
354421829
354421830
354421831

con i corrispondenti errori in syslog
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843602
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843603
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843604
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843605
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843606
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843603
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843604
Jun 8 11:30:49 virtual kernel: Buffer I/O error on device sda3, logical block
708843605

Altrettanto ovviamente se provo a leggere quei settori direttamente non ho alcun
errore...
Questo sinceramente non me lo spiego molto.
Provare un badclocks in rw non distruttivo?
Non dovrebbe rilocare i blocchi?

--
Roberto Tagliaferri-Linux user #30785 <-> r.tagliaferri@(forse)tosnet.it
www.robyt.eu
enoquick 8 Giu 2015 14:49
Il 08/06/2015 01:24, Roberto Tagliaferri ha scritto:
> Hola, ho un vecchio server che ha avuto un problema ad un disco (raid 1 sw)
> Ho messo un altro HD, dato l'add e.. sono 3 giorni che arriva ad un certo
punto e mi da un errore di lettura sul disco rimasto:
> raid1: sda: unrecoverable I/O read error for block 708843520
> s

A me ultimamente è successo qualcosa di simile
Due HD andati e sostituiti
Ma per un altro,che dava lo stesso problema ed era nuovo di zecca, era
un problema di piastra madre,sostituita anche questa nessun problema
Non so se è anche il tuo caso, ma è comunque un indizio in piu
Max_Adamo 8 Giu 2015 20:30
Il Mon, 08 Jun 2015 09:46:32 +0200, Roberto Tagliaferri ha scritto:

> mi toccherà (mi scocciava spegnere un server con 1300 giorni di uptime).

https://bugzilla.redhat.com/show_bug.cgi?id=479765

Quale migliore occasione? :) Tra 20 giorni, se non lo fai tu, potrebbe
decidere di farlo da solo.

--

Massimiliano Adamo
Roberto Tagliaferri 12 Giu 2015 17:49
Leonardo Serni wrote:


> In a pinch, fai un dump di sda su un altro disco sano di dimensioni
> uguali, o superiori, e synca il RAID con quello. Comunque se il settore
> fallisce, e non viene neanche rimappato, vuole dire che anche sda e' piu'
> di la' che di qua.
>
> Leonardo
>
e mi sta anche bene.
ma perché mi trovo in syslog
Jun 12 16:54:08 virtual kernel: end_request: I/O error, dev sda, sector
724876462
Jun 12 16:54:08 virtual kernel: raid1: sda: unrecoverable I/O read error for
block 708843520

ma se do
hdparm --read-sector 724876462 /dev/sda

/dev/sda:
reading sector 724876462: succeeded

funziona?
Che differenza c'è fra leggere il settore con hdparm e direttamente dal kernel?
In teoria nessuna..
anche con
hdparm --read-sector 708843520 /dev/sda

/dev/sda:
reading sector 708843520: succeeded

quindi dove è il settore difettoso?

--
Roberto Tagliaferri-Linux user #30785 <-> r.tagliaferri@(forse)tosnet.it
www.robyt.eu

Links
Giochi online
Dizionario sinonimi
Leggi e codici
Ricette
Testi
Webmatica
Hosting gratis
   
 

Discussioni sul sistema operativo Linux | Tutti i gruppi | it.comp.os.linux.sys | Notizie e discussioni linux | Linux Mobile | Servizio di consultazione news.