<div dir="ltr">Hi {James, Patrizio},<div><br></div><div>Be careful with using cephfs in production before ceph Luminous though (RC now).</div><div><br></div><div>Although cephfs was declared stable in Jewel,</div><div><br></div><div><div><a href="http://ceph.com/releases/v10-2-0-jewel-released/">http://ceph.com/releases/v10-2-0-jewel-released/</a></div><div>"CephFS:</div><div>This is the first release in which CephFS is declared stable! Several features are disabled by default, including snapshots and multiple active MDS servers"</div></div><div><br></div><div>having multiple active MDS servers is considered experimental for anything prior to Luminous (12.2.x) and running in 1 active/multiple standby mode has certain issues (scalability & performance, availability)</div><div><br></div><div><a href="http://lists.ceph.com/pipermail/ceph-users-ceph.com/2016-June/010728.html">http://lists.ceph.com/pipermail/ceph-users-ceph.com/2016-June/010728.html</a><br></div><div><br></div><div><a href="http://docs.ceph.com/docs/kraken/cephfs/best-practices/">http://docs.ceph.com/docs/kraken/cephfs/best-practices/</a><br></div><div>"For the best chance of a happy healthy filesystem, use a single active MDS and do not use snapshots. Both of these are the default. Note that creating multiple MDS daemons is fine, as these will simply be used as standbys. However, for best stability you should avoid adjusting max_mds upwards, as this would cause multiple daemons to be active at once."</div><div><br></div><div><div><a href="http://docs.ceph.com/docs/master/cephfs/experimental-features/#multiple-active-metadata-servers">http://docs.ceph.com/docs/master/cephfs/experimental-features/#multiple-active-metadata-servers</a><br></div><div>"Prior to the Luminous (12.2.x) release, running multiple active metadata servers within a single filesystem was considered experimental. Creating multiple active metadata servers is now permitted by default on new filesystems..."</div><div><br></div><div><a href="http://ceph.com/releases/v12-1-0-luminous-rc-released/">http://ceph.com/releases/v12-1-0-luminous-rc-released/</a><br></div><div>"Multiple active MDS daemons is now considered stable. The number</div><div>of active MDS servers may be adjusted up or down on an active CephFS file</div><div>system."</div><div><br></div><div><a href="http://docs.ceph.com/docs/master/cephfs/multimds/">http://docs.ceph.com/docs/master/cephfs/multimds/</a><br></div><div>"Even with multiple active MDS daemons, a highly available system still requires standby daemons to take over if any of the servers running an active daemon fail."</div><div><br></div><div>As far as I can see, a ceph filesystem metadata will be sharded across multiple MDS servers if configured. So having a multi-mds setup does not alleviate the need for standby servers and failover - this setup provides more parallelism but MDS high-availability is still needed for individual shards.</div><div><br></div><div><a href="http://docs.ceph.com/docs/master/cephfs/standby/">http://docs.ceph.com/docs/master/cephfs/standby/</a><br></div><div>"Each CephFS filesystem has a number of ranks, one by default, which start at zero. A rank may be thought of as a metadata shard. Controlling the number of ranks in a filesystem is described in Configuring multiple active MDS daemons</div><div>...</div><div>Each file system may specify a number of standby daemons to be considered healthy. This number includes daemons in standby-replay waiting for a rank to fail (remember that a standby-replay daemon will not be assigned to take over a failure for another rank or a failure in a another CephFS file system)."</div><div><br></div><div>Also, if you need multiple cephfs file systems, it looks like you will need this amount of MDS instances: <num_shards> * <num_standby_per_shard> * <num_file_systems></div><div><br></div><div>"Each CephFS ceph-mds process (a daemon) initially starts up without a rank. It may be assigned one by the monitor cluster. A daemon may only hold one rank at a time. Daemons only give up a rank when the ceph-mds process stops."</div><div><br></div><div>It is interesting how rank assignment is performed by the monitor cluster - I would very much like to avoid cases where you have multiple or all ranks of a single file system stored on one machine with multiple active MDS daemons.</div><div><br></div><div>--</div><div><br></div><div>I think the scope of work in charm-cephfs would be to:</div><div><br></div><div><ul><li>implement standby MDS configuration;</li><li>implement multi-active MDS configuration.</li></ul></div><div><br></div><div><br></div></div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div dir="ltr">Best Regards,<div>Dmitrii Shcherbakov</div><div><br></div><div><div style="color:rgb(136,136,136);font-size:12.8px"><span style="color:rgb(68,68,68);font-size:12.8px">Field Software Engineer</span><br style="color:rgb(68,68,68);font-size:12.8px"><span style="font-size:12.8px">IRC (freenode): Dmitrii-Sh</span><br></div></div></div></div></div></div></div></div></div></div>
<br><div class="gmail_quote">On Wed, Jul 26, 2017 at 9:14 AM, Patrizio Bassi <span dir="ltr"><<a href="mailto:patrizio.bassi@gmail.com" target="_blank">patrizio.bassi@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div dir="auto"><br></div><div class="gmail_quote"><div><div class="h5"><div>Il giorno mer 26 lug 2017 alle 06:28 James Beedy <<a href="mailto:jamesbeedy@gmail.com" target="_blank">jamesbeedy@gmail.com</a>> ha scritto:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>Hello all,<div><br></div><div>I will be evaluating CephFS as a backend for Hadoop over the next few weeks, probably start investigating how this can be delivered via the charms in the morning. If anyone has ventured to this realm, or has an idea on what the best way to deliver this might be, I would love to hear from you.</div><div><br></div><div>Thanks,</div><div><br></div><div>James</div><div><br></div><div> </div></div></blockquote><div dir="auto"><br></div></div></div><div dir="auto">I do!</div><div dir="auto"><br></div><div dir="auto">Probably i won't be able to test before end of the year but i plan to host hadoop clusters in openstack tenants and i would like to share the same ceph osd providing infrastructural storage to openstack nova/cinder.</div><div dir="auto"><br></div><div>Deploying hadoop via juju in an openstack tenant requires a separate model (as far as i could design it).</div><div>So we may use the new juju 2.2 cross model relation to relate the hadoop charms to the openstack ceph units.</div><div><br></div><div>does it sound feasible?</div><div><br></div><div>regards</div><span class="HOEnZb"><font color="#888888"><div dir="auto"><br></div><div>Patrizio</div><div> </div><div> </div></font></span></div></div>
<br>--<br>
Juju mailing list<br>
<a href="mailto:Juju@lists.ubuntu.com">Juju@lists.ubuntu.com</a><br>
Modify settings or unsubscribe at: <a href="https://lists.ubuntu.com/mailman/listinfo/juju" rel="noreferrer" target="_blank">https://lists.ubuntu.com/<wbr>mailman/listinfo/juju</a><br>
<br></blockquote></div><br></div>