[ubuntu-jp:3971] 「too many files open in system」で困っております。
take_tk
ggb03124 @ nifty.com
2011年 12月 26日 (月) 16:36:09 UTC
「too many files open in system」で困っております。
ubuntu 11.04 で Samba 3.5.8 のサーバにしているホストで、リブートしてから
一日程度でおかしくなり、コンソールからログインしようとしても、他のホスト
からsshでログインしようとしても「too many files open in system」と出てロ
グインを拒否されるという状態になるようになってしまいました。
当初は電源永押しでリブートするほかなかったのですが、webminだと「others」
→「commnand shell」でrebootできることが分かったので、多少、気が楽になり
ました。
原因、対策、調査のヒントについてアドバイスいただけないでしょうか?
* nfs で他のホストと連絡しあっているので、それも問題かもしれません。あ
とはシステムメールを飛ばすためのメールサーバも入っています。
ーーー
調査して分かった現象は下記の通りです。
date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr で、どのタイミングで
ファイルのハンドルを消費しているのかを調べた。
(1)リブートの直後からしばらくは
「lsof | wc -l」 > 「cat /proc/sys/fs/file-nr」で正常。
[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:08:48 JST
1754 ← 1754:「lsof | wc -l」
1024 0 100106 ← 1024:「cat /proc/sys/fs/file-nr」
(2)30分ほど経つと「lsof | wc -l」 < 「cat /proc/sys/fs/file-nr」と
逆転してしまう。その後はどんどん増えていく。
[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:29:05 JST
1936
1056 0 100106
[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:40:04 JST
1938 ← 1938:「lsof | wc -l」
5728 0 100106 ← 5728:「cat /proc/sys/fs/file-nr」
[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:47:03 JST
2114
10048 0 100106
[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 23:25:13 JST
2217
29280 0 100106
(3)逆転が始まった(20:29:05 〜 20:40:04)あたりの syslog を見ても、よ
く分からない。
Dec 26 20:22:02 EeePC-35 dovecot: pop3-login: Login: user=<tk>, method=PLAIN, rip=192.168.1.12, lip=192.168.1.135, TLS
Dec 26 20:22:02 EeePC-35 dovecot: POP3(tk): Disconnected: Logged out top=0/0, retr=0/0, del=0/607, size=1459761
Dec 26 20:25:01 EeePC-35 CRON[1622]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Dec 26 20:26:57 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain' ← ★何?
Dec 26 20:26:57 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'
Dec 26 20:35:01 EeePC-35 CRON[1723]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Dec 26 20:40:04 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'
Dec 26 20:40:04 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'
参考にしたサイト
http://javadave.blogspot.com/2005_06_01_archive.html
http://www.mjmwired.net/kernel/Documentation/sysctl/fs.txt
take_tk = kumagai hidetake
ubuntu-jp メーリングリストの案内