[ubuntu-jp:3971] 「too many files open in system」で困っております。

take_tk ggb03124 @ nifty.com
2011年 12月 26日 (月) 16:36:09 UTC


「too many files open in system」で困っております。

ubuntu 11.04 で Samba 3.5.8 のサーバにしているホストで、リブートしてから
一日程度でおかしくなり、コンソールからログインしようとしても、他のホスト
からsshでログインしようとしても「too many files open in system」と出てロ
グインを拒否されるという状態になるようになってしまいました。

当初は電源永押しでリブートするほかなかったのですが、webminだと「others」
→「commnand shell」でrebootできることが分かったので、多少、気が楽になり
ました。

原因、対策、調査のヒントについてアドバイスいただけないでしょうか?

* nfs で他のホストと連絡しあっているので、それも問題かもしれません。あ
とはシステムメールを飛ばすためのメールサーバも入っています。

ーーー

調査して分かった現象は下記の通りです。

date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr で、どのタイミングで
ファイルのハンドルを消費しているのかを調べた。

(1)リブートの直後からしばらくは
「lsof | wc -l」 > 「cat /proc/sys/fs/file-nr」で正常。

[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:08:48 JST
1754                               ← 1754:「lsof | wc -l」
1024    0       100106      ← 1024:「cat /proc/sys/fs/file-nr」

(2)30分ほど経つと「lsof | wc -l」 < 「cat /proc/sys/fs/file-nr」と
逆転してしまう。その後はどんどん増えていく。

[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:29:05 JST
1936
1056    0       100106

[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:40:04 JST
1938                               ← 1938:「lsof | wc -l」
5728    0       100106      ← 5728:「cat /proc/sys/fs/file-nr」

[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:47:03 JST
2114
10048   0       100106

[tk at EeePC-35 ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 23:25:13 JST
2217
29280   0       100106

(3)逆転が始まった(20:29:05 〜 20:40:04)あたりの syslog を見ても、よ
く分からない。

Dec 26 20:22:02 EeePC-35 dovecot: pop3-login: Login: user=<tk>, method=PLAIN, rip=192.168.1.12, lip=192.168.1.135, TLS
Dec 26 20:22:02 EeePC-35 dovecot: POP3(tk): Disconnected: Logged out top=0/0, retr=0/0, del=0/607, size=1459761
Dec 26 20:25:01 EeePC-35 CRON[1622]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Dec 26 20:26:57 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'  ← ★何?
Dec 26 20:26:57 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'
Dec 26 20:35:01 EeePC-35 CRON[1723]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Dec 26 20:40:04 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'
Dec 26 20:40:04 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'

参考にしたサイト

http://javadave.blogspot.com/2005_06_01_archive.html

http://www.mjmwired.net/kernel/Documentation/sysctl/fs.txt

take_tk = kumagai hidetake




ubuntu-jp メーリングリストの案内