У меня был случай с Интеловской матерью (платформа 1325) - тоже самопроизвольно перегружалась машина. Никаких сообщений ни в логах, ни на экране не было. Причём повторялось это на разных операционных системах - и Линукс красная шапка 9 и Windows 2000 (проверял на этих системах специально т.к. производетелем заявлялось что на этих операционках эта платформа прошла стресс-тесты). Иногда сервер работал неделями до такой перезагрузки, иногда через день перегружался а иногда за час несколько раз. В конце концов, перепробовав почти всё из /usr/ports/benchmarks я нашёл-таки программу, использование которой гарантированно вызывала ребут (/usr/ports/benchmarks/netio) и показал это продавцу сервера - только тогда он признал проблему в железе (сказал, что проблема в материнке) и по нашему требованию заменил полностью весь сервер. После этого никаких проблем нет.<br>
<br><br><div><span class="gmail_quote">22.03.08, <b class="gmail_sendername">Михаил Монашёв</b> <<a href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a>> написал(а):</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Здравствуйте,<br> <br> Осенью я настроил сервер на обслуживание большого числа соединений по<br> презентации Игоря:<br> <br> FreeBSD 6.3-PRERELEASE<br> <br> >cat /boot/loader.conf<br> autoboot_delay="1"<br> userconfig_script_load="YES"<br>
beastie_disable="YES"<br> <br> net.inet.tcp.syncache.hashsize="1024"<br> net.inet.tcp.syncache.bucketlimit="100"<br> net.inet.tcp.tcbhashsize="4096"<br> <br> vm.kmem_size="1G"<br>
kern.ipc.nmbclusters="262144"<br> <br> net.inet.tcp.hostcache.hashsize="4096"<br> net.inet.tcp.hostcache.bucketlimit="100"<br> <br> <br> >cat /etc/sysctl.conf<br> net.inet.tcp.msl=7500<br>
net.inet.tcp.delayed_ack=0<br> <br> net.inet.ip.random_id=1<br> <br> net.inet.ip.fw.dyn_buckets=32768<br> net.inet.ip.fw.dyn_max=32768<br> net.inet.ip.fw.dyn_ack_lifetime=120<br> net.inet.ip.fw.dyn_syn_lifetime=10<br> net.inet.ip.fw.dyn_fin_lifetime=2<br>
net.inet.ip.fw.dyn_short_lifetime=10<br> <br> net.inet.tcp.keepidle=40000<br> net.inet.tcp.keepintvl=40000<br> net.inet.tcp.keepinit=40000<br> <br> net.inet.tcp.sendspace=65536<br> net.inet.tcp.recvspace=16384<br> <br> net.inet.tcp.blackhole=2<br>
net.inet.udp.blackhole=1<br> <br> net.inet.tcp.maxtcptw=40960<br> <br> net.inet.ip.portrange.randomized=0<br> <br> # bugly<br> # net.inet.tcp.nolocaltimewait=1<br> <br> net.inet.tcp.syncookies=1<br> <br> kern.ipc.maxsockets=204800<br>
<br> kern.maxfiles=204800<br> kern.maxfilesperproc=32768<br> <br> kern.ipc.somaxconn=4096<br> <br> <br> Сейчас периодически начались самостоятельные ребуты сервера. В логах<br> FreeBSD пусто. В логах жизнедеятельности железа тоже всё нормально (на<br>
интеловской матери есть одна хрень, которая собирает данные с разных<br> компонентов сервера и пишет её в свою флэ-память.) Такое ощущение, что<br> питание просто вытаскивают из сервера на секунду. Происходит такой<br>
ребут раз в 1-2 дня. Мучаюсь уже неделю. Сейчас FreeBSD поднимем до<br> нормальной версии 6.3, но не уверен, что поможет.<br> <br> Так вот вопрос: могут ли эти ребуты быть причиной моего кривого<br> тюнинга FreeBSD. Или же грешить на железо, которое вдруг почему-то<br>
начало глючить...<br> <br> >vmstat -z<br> ITEM SIZE LIMIT USED FREE REQUESTS FAILURES<br> <br> UMA Kegs: 240, 0, 67, 8, 67, 0<br> UMA Zones: 280, 0, 67, 11, 67, 0<br>
UMA Slabs: 128, 0, 1760, 763, 147183, 0<br> UMA RCntSlabs: 128, 0, 2328, 340, 130792, 0<br> UMA Hash: 256, 0, 3, 12, 6, 0<br>
16 Bucket: 152, 0, 69, 56, 118, 0<br> 32 Bucket: 280, 0, 27, 57, 91, 0<br> 64 Bucket: 536, 0, 38, 74, 127, 65<br>
128 Bucket: 1048, 0, 755, 103, 2924, 617837<br> VM OBJECT: 224, 0, 28720, 42714, 10236642, 0<br> MAP: 352, 0, 7, 15, 7, 0<br>
KMAP ENTRY: 112, 98406, 21, 276, 164359, 0<br> MAP ENTRY: 112, 0, 9491, 2356, 36019655, 0<br> PV ENTRY: 48, 5706864, 2002569, 162039, 2086499412, 0<br>
DP fakepg: 120, 0, 0, 0, 0, 0<br> mt_zone: 1024, 0, 134, 10, 134, 0<br> 16: 16, 0, 2291, 901, 53841173, 0<br>
32: 32, 0, 5163, 1604, 14835282, 0<br> 64: 64, 0, 2717, 2099, 48217270, 0<br> 128: 128, 0, 4994, 922, 31667804, 0<br>
256: 256, 0, 882, 603, 9527058, 0<br> 512: 512, 0, 1384, 660, 1634008, 0<br> 1024: 1024, 0, 587, 413, 346743, 0<br>
2048: 2048, 0, 57, 329, 404452, 0<br> 4096: 4096, 0, 262, 305, 2182521, 0<br> Files: 120, 0, 8245, 1458, 37445260, 0<br>
TURNSTILE: 104, 0, 961, 128, 1237, 0<br> PROC: 856, 0, 149, 331, 371712, 0<br> THREAD: 608, 0, 676, 284, 9502, 0<br>
KSEGRP: 136, 0, 676, 260, 3008, 0<br> UPCALL: 88, 0, 0, 0, 5, 0<br> SLEEPQUEUE: 64, 0, 961, 159, 1237, 0<br>
VMSPACE: 544, 0, 111, 428, 371674, 0<br> mbuf_packet: 256, 0, 3787, 301, 415797233, 0<br> mbuf: 256, 0, 556, 1296, 593199194, 0<br>
mbuf_cluster: 2048, 262144, 4088, 568, 148587055, 0<br> mbuf_jumbo_pagesize: 4096, 0, 0, 0, 0, 0<br> mbuf_jumbo_9k: 9216, 0, 0, 0, 0, 0<br>
mbuf_jumbo_16k: 16384, 0, 0, 0, 0, 0<br> ACL UMA zone: 388, 0, 0, 0, 0, 0<br> g_bio: 216, 0, 4, 9860, 50455273, 0<br>
VNODE: 496, 0, 45795, 44749, 1905792, 0<br> VNODEPOLL: 152, 0, 0, 0, 0, 0<br> NAMEI: 1024, 0, 0, 580, 43832293, 0<br>
S VFS Cache: 104, 0, 45784, 26684, 1416847, 0<br> L VFS Cache: 327, 0, 2908, 4052, 302194, 0<br> DIRHASH: 1024, 0, 1856, 180, 12081, 0<br>
PIPE: 768, 0, 8, 457, 244287, 0<br> KNOTE: 120, 0, 7335, 911, 156090348, 0<br> socket: 616, 204804, 7357, 3611, 17920375, 0<br>
unpcb: 200, 204801, 95, 665, 39511, 0<br> ipq: 56, 8253, 0, 63, 46, 0<br> udpcb: 304, 204804, 6, 366, 80825, 0<br>
inpcb: 304, 204804, 11690, 4450, 17799979, 0<br> tcpcb: 752, 204800, 7246, 3644, 17799979, 0<br> tcptw: 80, 40995, 4444, 5726, 11187304, 0<br>
syncache: 128, 15370, 51, 355, 6486053, 0<br> hostcache: 136, 15372, 11163, 289, 60523, 0<br> tcpreass: 40, 16464, 2, 670, 349949, 0<br>
sackhole: 32, 0, 39, 668, 1124926, 0<br> ripcb: 304, 204804, 2, 58, 53, 0<br> rtentry: 264, 0, 38, 32, 41, 0<br>
divcb: 304, 204804, 1, 23, 1, 0<br> IPFW dynamic rule: 120, 0, 11231, 425, 5436107, 0<br> SWAPMETA: 288, 116519, 898, 129, 1861, 0<br>
Mountpoints: 792, 0, 12, 18, 12, 0<br> FFS inode: 192, 0, 45745, 28435, 1905620, 0<br> FFS1 dinode: 128, 0, 0, 0, 0, 0<br>
FFS2 dinode: 256, 0, 45745, 23480, 1905620, 0<br> <br> <br> >netstat -s -p tcp<br> tcp:<br> 388830540 packets sent<br> 127026230 data packets (130426602571 bytes)<br>
2547241 data packets (3184142700 bytes) retransmitted<br> 90608 data packets unnecessarily retransmitted<br> 208 resends initiated by MTU discovery<br> 212916641 ack-only packets (0 delayed)<br>
0 URG only packets<br> 19541 window probe packets<br> 19085752 window update packets<br> 27279475 control packets<br> 347853681 packets received<br> 137363681 acks (for 129899106763 bytes)<br>
16041798 duplicate acks<br> 1610 acks for unsent data<br> 192313042 packets (179744150693 bytes) received in-sequence<br> 1131583 completely duplicate packets (97511822 bytes)<br>
23860 old duplicate packets<br> 7144 packets with some dup. data (4380337 bytes duped)<br> 350145 out-of-order packets (433368103 bytes)<br> 2878 packets (717212 bytes) of data after window<br>
359 window probes<br> 8980292 window update packets<br> 6014 packets received after close<br> 2241 discarded for bad checksums<br> 0 discarded for bad header offset fields<br>
0 discarded because packet too short<br> 11350776 connection requests<br> 6474009 connection accepts<br> 541002 bad connection attempts<br> 0 listen queue overflows<br> 1925 ignored RSTs in the windows<br>
17757687 connections established (including accepts)<br> 17813031 connections closed (including 565736 drops)<br> 2445514 connections updated cached RTT on close<br> 2467782 connections updated cached RTT variance on close<br>
2058318 connections updated cached ssthresh on close<br> 55688 embryonic connections dropped<br> 121980133 segments updated rtt (of 93433055 attempts)<br> 1939824 retransmit timeouts<br>
15977 connections dropped by rexmit timeout<br> 31239 persist timeouts<br> 15 connections dropped by persist timeout<br> 2817074 keepalive timeouts<br> 958555 keepalive probes sent<br>
67906 connections dropped by keepalive<br> 3602212 correct ACK header predictions<br> 140392129 correct data packet header predictions<br> 6494799 syncache entries added<br> 73149 retransmitted<br>
73443 dupsyn<br> 18 dropped<br> 6474009 completed<br> 0 bucket overflow<br> 0 cache overflow<br> 9429 reset<br> 11181 stale<br>
0 aborted<br> 0 badack<br> 87 unreach<br> 0 zone failures<br> 6494817 cookies sent<br> 0 cookies received<br> 389309 SACK recovery episodes<br>
611350 segment rexmits in SACK recovery episodes<br> 861610061 byte rexmits in SACK recovery episodes<br> 2877534 SACK options (SACK blocks) received<br> 303214 SACK options (SACK blocks) sent<br>
0 SACK scoreboard overflow<br> <br> >netstat -m<br> 4147/1688/5835 mbufs in use (current/cache/total)<br> 3597/1301/4898/262144 mbuf clusters in use (current/cache/total/max)<br> 3597/415 mbuf+clusters out of packet secondary zone in use (current/cache)<br>
0/0/0/0 4k (page size) jumbo clusters in use (current/cache/total/max)<br> 0/0/0/0 9k jumbo clusters in use (current/cache/total/max)<br> 0/0/0/0 16k jumbo clusters in use (current/cache/total/max)<br> 8230K/3024K/11254K bytes allocated to network (current/cache/total)<br>
0/0/0 requests for mbufs denied (mbufs/clusters/mbuf+clusters)<br> 0/0/0 requests for jumbo clusters denied (4k/9k/16k)<br> 0/0/0 sfbufs in use (current/peak/max)<br> 0 requests for sfbufs denied<br> 0 requests for sfbufs delayed<br>
48518 requests for I/O initiated by sendfile<br> 626 calls to protocol drain routines<br> <br> <br> P.S.<br> Как исправить вот это:<br> >vmstat -z<br> ITEM SIZE LIMIT USED FREE REQUESTS FAILURES<br>
64 Bucket: 536, 0, 38, 74, 127, 65<br> ^^<br> 128 Bucket: 1048, 0, 755, 103, 2924, 617837<br>
^^^^^^<br> и надо ли это исправлять?<br> <br><br> --<br> <br> С уважением,<br> Михаил Монашёв, SoftSearch.ru<br> mailto:<a href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a><br>
ICQ# 166233339<br> <a href="http://michael.mindmix.ru/">http://michael.mindmix.ru/</a><br> Без бэкапа по жизни.<br> <br> <br> </blockquote></div><br><br clear="all"><br>-- <br>Regards,<br>Slava