<div dir="ltr">Good morning,<div><br></div><div>We have experienced one more failure like the ones originally described.  I am assuming the <span style="font-size:12.8000001907349px">vm.min_free_kbytes at 256 MB helped (only one hit, OSD went down but the rest of the cluster stayed up unlike the previous massive storms).  So I went ahead and increased the </span><span style="font-size:12.8000001907349px">vm.min_free_kbytes to 1 GB.  </span></div><div><span style="font-size:12.8000001907349px"><br></span></div><div><span style="font-size:12.8000001907349px">I do not know of any way to reproduce the problem, or what causes it.  There is no unusual IO pattern at the time that we are aware of.</span></div><div><span style="font-size:12.8000001907349px"><br></span></div><div><span style="font-size:12.8000001907349px">Thanks,</span></div><div><span style="font-size:12.8000001907349px">Alex</span></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jul 22, 2015 at 8:23 AM, Alex Gorbachev <span dir="ltr"><<a href="mailto:ag@iss-integration.com" target="_blank">ag@iss-integration.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi Dave,<div class="gmail_extra"><br><div class="gmail_quote"><div><div class="h5">On Mon, Jul 6, 2015 at 8:35 PM, Dave Chinner <span dir="ltr"><<a href="mailto:david@fromorbit.com" target="_blank">david@fromorbit.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">On Mon, Jul 06, 2015 at 03:20:19PM -0400, Alex Gorbachev wrote:<br>
<span>> On Sun, Jul 5, 2015 at 7:24 PM, Dave Chinner <<a href="mailto:david@fromorbit.com" target="_blank">david@fromorbit.com</a>> wrote:<br>
> > On Sun, Jul 05, 2015 at 12:25:47AM -0400, Alex Gorbachev wrote:<br>
> > > > > sysctl vm.swappiness=20 (can probably be 1 as per article)<br>
> > > > ><br>
> > > > > sysctl vm.min_free_kbytes=262144<br>
> > > ><br>
> > [...]<br>
> > ><br>
> > > We have experienced the problem in various guises with kernels 3.14,<br>
> > 3.19,<br>
> > > 4.1-rc2 and now 4.1, so it's not new to us, just different error stack.<br>
> > > Below are some other stack dumps of what manifested as the same error.<br>
> > ><br>
> > >  [<ffffffff817cf4b9>] schedule+0x29/0x70<br>
> > >  [<ffffffffc07caee7>] _xfs_log_force+0x187/0x280 [xfs]<br>
> > >  [<ffffffff810a4150>] ? try_to_wake_up+0x2a0/0x2a0<br>
> > >  [<ffffffffc07cb019>] xfs_log_force+0x39/0xc0 [xfs]<br>
> > >  [<ffffffffc07d6542>] xfsaild_push+0x552/0x5a0 [xfs]<br>
> > >  [<ffffffff817d2264>] ? schedule_timeout+0x124/0x210<br>
> > >  [<ffffffffc07d662f>] xfsaild+0x9f/0x140 [xfs]<br>
> > >  [<ffffffffc07d6590>] ? xfsaild_push+0x5a0/0x5a0 [xfs]<br>
> > >  [<ffffffff81095e29>] kthread+0xc9/0xe0<br>
> > >  [<ffffffff81095d60>] ? flush_kthread_worker+0x90/0x90<br>
> > >  [<ffffffff817d3718>] ret_from_fork+0x58/0x90<br>
> > >  [<ffffffff81095d60>] ? flush_kthread_worker+0x90/0x90<br>
> > >  INFO: task xfsaild/sdg1:2606 blocked for more than 120 seconds.<br>
</span>> > >        Not tainted <a href="tel:3.19.4-031904" value="+13194031904" target="_blank">3.19.4-031904</a>-generic #201504131440<br>
<span>> > >  "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this<br>
> > message.<br>
> ><br>
> > That's indicative of IO completion problems, but not a crash.<br>
> ><br>
> > >  BUG: unable to handle kernel NULL pointer dereference at<br>
> >  (null)<br>
> > >  IP: [<ffffffffc04be80f>] xfs_count_page_state+0x3f/0x70 [xfs]<br>
> > ....<br>
> > >   [<ffffffffc04be880>] xfs_vm_releasepage+0x40/0x120 [xfs]<br>
> > >   [<ffffffff8118a7d2>] try_to_release_page+0x32/0x50<br>
> > >   [<ffffffff8119fe6d>] shrink_page_list+0x69d/0x720<br>
> > >   [<ffffffff811a058d>] shrink_inactive_list+0x1dd/0x5d0<br>
> > ....<br>
> ><br>
> > Again, this is indicative of a page cache issue: a page without<br>
> > buffers has been passed to xfs_vm_releasepage(), which implies the<br>
> > page flags are not correct. i.e PAGE_FLAGS_PRIVATE is set but<br>
> > page->private is null...<br>
> ><br>
> > Again, this is unlikely to be an XFS issue.<br>
> ><br>
><br>
> Sorry for my ignorance, but would this likely come from Ceph code or a<br>
> hardware issue of some kind, such as a disk drive?  I have reached out to<br>
> RedHat and Ceph community on that as well.<br>
<br>
</span>More likely a kernel bug somewhere in the page cache or memory<br>
reclaim paths. The issue is that we only notice the problem long<br>
after it has occurred. i.e. when XFS goes to tear down the page it has<br>
been handed, the page is already in a bad state and so it doesn't<br>
really tell us anything about the cause of the problem.<br>
<br>
Realisticaly, we need a script that reproduces the problem (that<br>
doesn't require a Ceph cluster) to be able to isolate the cause.<br>
In the mean time, you can always try running  CONFIG_XFS_WARN=y to<br>
see if that catches problems earlier, and you might also want to do<br>
things like turn on memory poisoning and other kernel debugging<br>
options to try to isolate the cause of the issue....<br></blockquote><div><br></div></div></div><div>We have been error free for almost 3 weeks now with these changes:</div><div><br></div><div><div style="font-size:12.8000001907349px">vm.swappiness=1</div><div style="font-size:12.8000001907349px">vm.min_free_kbytes=262144</div></div><div style="font-size:12.8000001907349px"><br></div><div style="font-size:12.8000001907349px">I wonder if this is related to us using high speed Areca HBAs with RAM writeback cache and having had vm.swappiness=0 previously.  POssibly the HBA handing down a large chunk of IO very fast and page cache not being to handle it with swappiness=0.  I will keep monitoring, but thank you very much for the analysis and info.</div><span class="HOEnZb"><font color="#888888"><div style="font-size:12.8000001907349px"><br></div><div style="font-size:12.8000001907349px">Alex</div></font></span><span class=""><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<span><br>
Cheers,<br>
<br>
Dave.<br>
--<br>
Dave Chinner<br>
</span><a href="mailto:david@fromorbit.com" target="_blank">david@fromorbit.com</a><br>
</blockquote></span></div><br></div></div>
</blockquote></div><br></div>