<div dir="ltr">Sorry, all, I was a little out-of-it on Friday afternoon, of course I had kicked off xfs_repair actually in the background with all output sent to a file, and I was just doing 'tail -f' on that file.<div>
<br></div><div>So I kill the 'tail -f' and jump back to the command line, it appears that xfs_repair segfaulted and died.</div><div><br></div><div>That line of text:</div><div><br></div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px">disconnected inode 1109099673,</span><br>
</div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px"><br></span></div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px">was indeed the last thing that it printed before it crashed.</span></div>
<div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px"><br></span></div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px">If I look in dmesg, I just see -</span></div>
<div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px"><br></span></div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px">xfs_repair[6770]: segfault at 28 ip 000000000042307b sp 00007fffef61bad0 error 4 in xfs_repair[400000+72000]</span></div>
<div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px"><br></span></div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px">and that's it.</span></div>
<div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px"><br></span></div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px">I checked with 'df' and there's plenty of space everywhere; I don't see why it would have faulted out trying to connect something to lost+found.</span></div>
<div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px"><br></span></div><div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px">Underlying storage should be good; this is basically a RAID 60 built on top of a bunch of JBODs with LSI SAS9200 cards. MD sees all strings as started and running OK; no problems getting the array assembled at all.</span></div>
<div><span style="color:rgb(80,0,80);font-family:arial,sans-serif;font-size:13.333333969116211px"><br></span></div><div><font color="#500050" face="arial, sans-serif">Since Dave is saying it's OK to try re-running xfs_repair; it'll just pick up where it left off; let me give it another pass and see if it manages to complete, or if it segfaults out again. I guess it it poops out a second time, maybe we'll just want to consider rebuilding the filesystem and restoring from our copies?</font></div>
<div><br></div><div><font color="#500050" face="arial, sans-serif">Thanks for the feedback,</font></div><div><font color="#500050" face="arial, sans-serif"><br></font></div><div><font color="#500050" face="arial, sans-serif">Sean</font></div>
<div><font color="#500050" face="arial, sans-serif"><br></font></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, May 30, 2014 at 8:01 PM, Dave Chinner <span dir="ltr"><<a href="mailto:david@fromorbit.com" target="_blank">david@fromorbit.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">On Fri, May 30, 2014 at 03:49:13PM -0400, Sean Caron wrote:<br>
</div><div class="">> Hi all,<br>
><br>
> Long story short, we have a big array formatted as XFS, we had a machine go<br>
> down hard maybe a month, month and a half ago... when it came back up, XFS<br>
> faulted out when we attempted to mount the filesystem; it complained the<br>
> log was bad or something... I did a dry run of xfs_repair (-L) and it<br>
> looked pretty bad, so we mounted up the filesystem read-only, ran a<br>
> backup... I think we got pretty much everything out OK except maybe files<br>
> that were open at the time of the crash.<br>
><br>
> Now with a backup in hand, we kicked off xfs_repair "for real"... it ran<br>
> for a while and did its thing, but now it appears to be stuck at the stage -<br>
><br>
> - agno = 436<br>
> rebuilding directory inode ...<br>
> rebuilding directory inode ...<br>
> rebuilding directory inode ...<br>
> ...<br>
> - traversal finished ...<br>
> - moving disconected inodes to lost+found ...<br>
> disconnected inode 1109099673,<br>
><br>
> and then it just stops. I don't know how long its been sitting like that,<br>
> but it hasn't moved in the last hour or two. I assume that's not good...<br>
<br>
</div>Is that the total of the last line of output? If so, it's likely<br>
stuck creating the lost+found directory. It's possible there's a<br>
corruption in the inode AVL tree (e.g. endless loop) that is causing<br>
it to spin doing an inode record lookup, but otherwise I can't see<br>
any reason for it getting stuck here.<br>
<br>
The information that Brian asked for will be a good start in<br>
tracking this down, as will the complete output of xfs_repair...<br>
<div class=""><br>
> Interestingly when we ran a dry run of xfs_repair (-L) it got all the way<br>
> through; it never hung up at any point. Not sure why it would start to hang<br>
> up, once it gets run "for real".<br>
<br>
</div>That's because a dry-run skips the "move to lost_found" phase.<br>
<div class=""><br>
> This machine is in single-user-mode, I have exactly 24 lines of console<br>
> with no scrollback buffer, no other tty available besides that which I'm<br>
> running xfs_repair on, the system console.<br>
<br>
</div>$ man script<br>
<br>
or<br>
<br>
$ man tee<br>
<div class=""><br>
> Running Linux kernel 3.4.61, Ubuntu 12.04 LTS 64-bit with whatever their<br>
> current xfsprogs is.<br>
<br>
</div>Upgrading xfsprogs to 3.2.0 would be a good idea.<br>
<div class=""><br>
> This is a bit of an exceptional situation for me; I've never seen<br>
> xfs_repair just hang outright. I hoped I could maybe get some feedback from<br>
> the experts here... what should I do?<br>
><br>
> Try to Control-C out of the xfs_repair and ... re-run it?<br>
<br>
</div>That's fine - the next time repair runs it will start again and<br>
repair anything that wasn't repaired in the last run.<br>
<br>
Cheers,<br>
<br>
Dave.<br>
<span class="HOEnZb"><font color="#888888">--<br>
Dave Chinner<br>
<a href="mailto:david@fromorbit.com">david@fromorbit.com</a><br>
</font></span></blockquote></div><br></div>