For the archives...

On Oct 2, 2009, at 12:41 AM, Maurilio Longo wrote:

Hi,

I have a pc with a MARVELL AOC-SAT2-MV8 controller and a pool made up of a six disks in a raid-z pool with a hot spare.

<pre>
-bash-3.2$ /sbin/zpool status
 pool: nas
stato: ONLINE
scrub: scrub in progress for 9h4m, 81,59% done, 2h2m to go
config:

       NAME        STATE     READ WRITE CKSUM
       nas         ONLINE       0     0     0
         raidz1    ONLINE       0     0     0
           c2t1d0  ONLINE       0     0     0
           c2t4d0  ONLINE       0     0     0
           c2t5d0  ONLINE       0     0     0
           c2t3d0  ONLINE       0     0     0
           c2t2d0  ONLINE       0     0     0
           c2t0d0  ONLINE       0     0     0
       dischi di riserva
         c2t7d0    AVAIL

errori: nessun errore di dati rilevato
</pre>

Now, the problem is that issuing an

iostat -Cmnx 10

or any other time intervall, I've seen, sometimes, a complete stall of disk I/O due to a disk in the pool (not always the same) being 100% busy.

<pre>

$ iostat -Cmnx 10

  r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,0    0,3    0,0    2,0  0,0  0,0    0,0    0,1   0   0 c1
   0,0    0,3    0,0    2,0  0,0  0,0    0,0    0,1   0   0 c1t0d0
1852,1  297,0 13014,9 4558,4  9,2  1,6    4,3    0,7   2 158 c2
 311,8   61,3 2185,3  750,7  2,0  0,3    5,5    0,7  17  25 c2t0d0
 309,5   34,7 2207,2  769,5  1,6  0,5    4,7    1,4  41  47 c2t1d0
 309,3   36,3 2173,0  770,0  1,0  0,3    2,9    0,7  18  26 c2t2d0
 296,0   65,5 2057,3  749,2  2,1  0,2    5,9    0,6  16  23 c2t3d0
 313,3   64,1 2187,3  748,8  1,7  0,2    4,6    0,5  15  21 c2t4d0
 311,9   35,1 2204,8  770,1  0,7  0,2    2,1    0,5  11  17 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
                   extended device statistics
   r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,4   14,7    3,2   30,4  0,0  0,2    0,0   13,2   0   2 c1
   0,4   14,7    3,2   30,4  0,0  0,2    0,0   13,2   0   2 c1t0d0
   1,7    0,0   58,9    0,0  3,0  1,0 1766,4  593,1   2 101 c2
   0,3    0,0    7,7    0,0  0,0  0,0    0,3    0,4   0   0 c2t0d0
   0,3    0,0   11,5    0,0  0,0  0,0    4,4    8,4   0   0 c2t1d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0 100 100 c2t2d0

This is a symptom of an I/O getting dropped in the data path.
You can clearly see 1 IOP in actv queue (which is the queue
between the interface card and target).  The %busy is calculated
by counting the percentage of time that at least one IOP is in
the actv queue.  The higher level device drivers have timeouts
and will try to reset and re-issue IOPs as needed.
 -- richard


   0,4    0,0   14,1    0,0  0,0  0,0    0,4    6,6   0   0 c2t3d0
   0,4    0,0   14,1    0,0  0,0  0,0    0,3    2,5   0   0 c2t4d0
   0,3    0,0   11,5    0,0  0,0  0,0    3,6    6,9   0   0 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
                   extended device statistics
   r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,0    3,1    0,0    3,1  0,0  0,0    0,0    0,7   0   0 c1
   0,0    3,1    0,0    3,1  0,0  0,0    0,0    0,7   0   0 c1t0d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0   2 100 c2
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t0d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t1d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0 100 100 c2t2d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t3d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t4d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
                   extended device statistics
   r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,0    0,1    0,0    0,4  0,0  0,0    0,0    1,2   0   0 c1
   0,0    0,1    0,0    0,4  0,0  0,0    0,0    1,2   0   0 c1t0d0
   0,0   29,5    0,0  320,2  3,4  1,0  113,9   34,6   2 102 c2
   0,0    6,9    0,0   63,3  0,1  0,0   12,6    0,7   0   0 c2t0d0
   0,0    4,4    0,0   65,5  0,0  0,0    8,7    0,8   0   0 c2t1d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0 100 100 c2t2d0
   0,0    7,4    0,0   62,7  0,1  0,0   15,4    0,8   1   1 c2t3d0
   0,0    6,8    0,0   63,6  0,1  0,0   13,2    0,7   0   0 c2t4d0
   0,0    4,0    0,0   65,1  0,0  0,0    7,9    0,7   0   0 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
                   extended device statistics
   r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,0    0,3    0,0    2,4  0,0  0,0    0,0    0,1   0   0 c1
   0,0    0,3    0,0    2,4  0,0  0,0    0,0    0,1   0   0 c1t0d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0   2 100 c2
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t0d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t1d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0 100 100 c2t2d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t3d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t4d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
                   extended device statistics
   r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,5    3,5    3,8   17,0  0,0  0,0    0,0    0,9   0   0 c1
   0,5    3,5    3,8   17,0  0,0  0,0    0,0    0,9   0   0 c1t0d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0   2 100 c2
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t0d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t1d0
   0,0    0,0    0,0    0,0  3,0  1,0    0,0    0,0 100 100 c2t2d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t3d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t4d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
                   extended device statistics
   r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,1    4,2    0,8    6,5  0,0  0,0    0,0    1,2   0   0 c1
   0,1    4,2    0,8    6,5  0,0  0,0    0,0    1,2   0   0 c1t0d0
  93,2   84,7 1630,3  439,2  4,5  1,3   25,5    7,1   3 127 c2
  15,0   15,5  247,8   60,5  0,3  0,1    9,5    2,1   5   7 c2t0d0
  14,5   10,7  281,3   63,8  0,3  0,1   12,2    2,7   6   7 c2t1d0
  16,8   16,6  321,0  129,1  3,1  0,9   92,7   28,4  96  95 c2t2d0
  17,2   15,5  262,7   60,8  0,3  0,1    9,6    2,1   6   7 c2t3d0
  16,5   15,1  237,1   61,0  0,3  0,1    8,8    1,9   6   6 c2t4d0
  13,3   11,4  280,5   64,1  0,3  0,1   10,7    2,6   6   7 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
                   extended device statistics
   r/s    w/s   kr/s   kw/s wait actv wsvc_t asvc_t  %w  %b device
   0,0    3,9    0,0   30,3  0,0  0,0    0,0    0,1   0   0 c1
   0,0    3,9    0,0   30,3  0,0  0,0    0,0    0,1   0   0 c1t0d0
2941,0  561,1 22458,3 5278,8 11,4  2,4    3,3    0,7   4 235 c2
 499,2  118,7 3773,8  859,2  2,7  0,4    4,3    0,7  35  44 c2t0d0
 503,7   69,8 3916,4  898,9  1,4  0,4    2,4    0,7  31  38 c2t1d0
 473,3   70,7 3800,4  899,3  1,2  0,4    2,1    0,7  28  35 c2t2d0
 500,9  113,8 3725,2  861,9  2,6  0,4    4,2    0,7  33  41 c2t3d0
 485,3  119,5 3537,0  861,0  2,4  0,4    4,0    0,7  32  40 c2t4d0
 478,7   68,7 3705,4  898,5  1,2  0,4    2,2    0,7  28  37 c2t5d0
   0,0    0,0    0,0    0,0  0,0  0,0    0,0    0,0   0   0 c2t7d0
</pre>

In this case it was c2t2d0 and it blocked the pool for 30 or 40 seconds.

/var/adm/messages does not contain anything related to the pool.

What can it be?

Thanks.

Maurilio.
--
This message posted from opensolaris.org
_______________________________________________
zfs-discuss mailing list
zfs-discuss@opensolaris.org
http://mail.opensolaris.org/mailman/listinfo/zfs-discuss

_______________________________________________
zfs-discuss mailing list
zfs-discuss@opensolaris.org
http://mail.opensolaris.org/mailman/listinfo/zfs-discuss

Reply via email to