<div dir="ltr">hey bernd, long time no chat.  it turns out you don't have to know what swift is because I've been able to demonstrate this behavior with a very simple python script that simply creates files in a 3-tier hierarchy.  the third level directories each contain a single file which for my testing are all 1K.<div><br></div><div>I have played wiht cache_pressure and it doesn't seem to make a difference, though that was awhlle ago and perhaps it is worth revisiting. one thing you may get a hoot out of, being a collectl user, is I have an xfs plugin that lets you look at a ton of xfs stats either in realtime or after the fact just like any other collectl stat.  I just havent' added it to the kit yet.</div><div><br></div><div>-mark</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jan 25, 2016 at 1:24 PM, Bernd Schubert <span dir="ltr"><<a href="mailto:bschubert@ddn.com" target="_blank">bschubert@ddn.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Mark!<br>
<span class=""><br>
On 01/06/2016 04:15 PM, Mark Seger wrote:<br>
> I've recently found the performance our development swift system is<br>
> degrading over time as the number of objects/files increases.  This is a<br>
> relatively small system, each server has 3 400GB disks.  The system I'm<br>
> currently looking at has about 70GB tied up in slabs alone, close to 55GB<br>
> in xfs inodes and ili, and about 2GB free.  The kernel<br>
> is 3.14.57-1-amd64-hlinux.<br>
><br>
> Here's the way the filesystems are mounted:<br>
><br>
> /dev/sdb1 on /srv/node/disk0 type xfs<br>
> (rw,noatime,nodiratime,attr2,nobarrier,inode64,logbufs=8,logbsize=256k,sunit=512,swidth=1536,noquota)<br>
><br>
> I can do about 2000 1K file creates/sec when running 2 minute PUT tests at<br>
> 100 threads.  If I repeat that tests for multiple hours, I see the number<br>
> of IOPS steadily decreasing to about 770 and the very next run it drops to<br>
> 260 and continues to fall from there.  This happens at about 12M files.<br>
><br>
> The directory structure is 2 tiered, with 1000 directories per tier so we<br>
> can have about 1M of them, though they don't currently all exist.<br>
<br>
</span>This sounds pretty much like hash directories as used by some parallel<br>
file systems (Lustre and in the past BeeGFS). For us the file create<br>
slow down was due to lookup in directories if a file with the same name<br>
already exists. At least for ext4 it was rather easy to demonstrate that<br>
simply caching directory blocks would eliminate that issue.<br>
We then considered working on a better kernel cache, but in the end<br>
simply found a way to get rid of such a simple directory structure in<br>
BeeGFS and changed it to a more complex layout, but with less random<br>
access and so we could eliminate the main reason for the slow down.<br>
<br>
Now I have no idea what a "swift system" is and in which order it<br>
creates and accesses those files and if it would be possible to change<br>
the access pattern. One thing you might try and which should work much<br>
better since 3.11 is the vfs_cache_pressure setting. The lower it is the<br>
less dentries/inodes are dropped from cache when pages are needed for<br>
file data.<br>
<br>
<br>
<br>
Cheers,<br>
Bernd</blockquote></div><br></div>