Skocz do zawartości
Miłosz

Wysypywanie się sieciówki

Polecane posty

Rzućcie na to okiem.. Bo ja już nie wiem o co chodzi...

Przeorałem router na czysto. Bond1 to bonding typu LACP z enp10s0f0 i enp10s0f1 do Dlinka DGS-3120. Na switchu założony LAG z dwóch portów z typem LACP. Sterownik tg3 w wersji 3.133d, karta BCM5719. Kernel 3.10.30.

mode_bond1="802.3ad"
miimon_bond1="100"
lacp_rate_bond1="1"
downdelay_bond1="200"
updelay_bond1="200"

dmesg: http://wklej.org/hash/4659df1f6ab/

Dodam, że tylko na jednym vlanie pojawiają się straty w mtr. Np z vlanu 10 idzie ok, a na vlanie 14 jest 50% strat na bramce. Takie WTF troche..

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

(istotne czy ma lecieć w mac czy w ip)

A jakby było lepiej? Na switchu jest ustawione IP Source o ile dobrze pamiętam.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

to nie jest kwestia lepiej gorzej, ma być właściwie ;) nie znam topologii Twojej sieci, ale warto byś zadał sobie pytanie co chcesz agregować i wtedy to skonfigurował

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Ruch przechodzi tam głównie na natownice do lanu. Wykminiłem, że na dlinku ustawie algorytm IP Source Destination, a na linuxie xmit_hash_policy na layer3+4.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Dzisiaj będę zmieniał polityke hashowania. Sprawdziłem iptrafem i z/do lanów jest ok 22-25k pps. Zauważyłem, że straty pakietów przeniosły się na inny vlan. Tak jakby coś nie dawało rady..

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

nie wiem czy juz sobie poradziles, ale maly hint nigdy nie zaszkodzi

util % na sw? , nie masz czasem jakichs flowow i innych wynalazkow ? generalnie basicy maja problem z wieloma rzeczami, czego pieknym przykladem sa procurvy (<5k)..

jedyne co moge doradzic to szukanie w klasyku, od samej sieciowki (benche,smp,aff,phys..) po test z innym sw (lub chociaz jakies nowsze fw ?)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Przy normalnym ruchu %si na corach od 0.0 do 0.7, czasem jakiś wyskoczy na 1%. Dell dał upgrady do firmwarów sieciówek. Teraz jeszcze będę sprawdzał inny kernel. SMP aff rozłożone po corach. Na routerze nie ma żadnych wynalazków dodatkowo obciążających procka, pure-routing. Switch już zmieniłem na inny. Dzisiaj odpale z innym kernelem i zobaczymy.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Na przełączniku też nie ma żadnych cudów

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

No nic.. Dalej to samo. Ubuntu Server 12.04.4 LTS, 3.5.0-46-generic, tg3 w wersji 3.133d

[29339.275497] WARNING: at /build/buildd/linux-lts-quantal-3.5.0/net/sched/sch_generic.c:255 dev_watchdog+0x272/0x280()
[29339.275499] Hardware name: PowerEdge R320
[29339.275501] NETDEV WATCHDOG: eth2 (tg3): transmit queue 0 timed out
[29339.275503] Modules linked in: ip6table_filter ip6_tables ebtable_nat ebtables ipt_MASQUERADE iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 xt_state ipt_REJECT xt_CHECKSUM iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables ip_vs nf_conntrack libcrc32c coretemp kvm_intel kvm ghash_clmulni_intel aesni_intel cryptd aes_x86_64 bridge shpchp bonding gpio_ich 8021q garp stp joydev llc sb_edac mei wmi lp dcdbas parport edac_core microcode mac_hid acpi_power_meter lpc_ich ses enclosure hid_generic usbhid hid ahci libahci tg3(O) e1000e megaraid_sas
[29339.275545] Pid: 0, comm: swapper/0 Tainted: G        W  O 3.5.0-46-generic #70~precise1-Ubuntu
[29339.275546] Call Trace:
[29339.275548]  <IRQ>  [<ffffffff81052e9f>] warn_slowpath_common+0x7f/0xc0
[29339.275557]  [<ffffffff81052f96>] warn_slowpath_fmt+0x46/0x50
[29339.275562]  [<ffffffff815a0d02>] dev_watchdog+0x272/0x280
[29339.275565]  [<ffffffff815a0a90>] ? pfifo_fast_dequeue+0xe0/0xe0
[29339.275568]  [<ffffffff815a0a90>] ? pfifo_fast_dequeue+0xe0/0xe0
[29339.275573]  [<ffffffff81062f4b>] call_timer_fn+0x3b/0x150
[29339.275576]  [<ffffffff815a0a90>] ? pfifo_fast_dequeue+0xe0/0xe0
[29339.275580]  [<ffffffff81064892>] run_timer_softirq+0x132/0x2a0
[29339.275585]  [<ffffffff810a45a5>] ? ktime_get+0x65/0xe0
[29339.275589]  [<ffffffff8105bcc8>] __do_softirq+0xa8/0x210
[29339.275593]  [<ffffffff810ab7d4>] ? tick_program_event+0x24/0x30
[29339.275597]  [<ffffffff816a981c>] call_softirq+0x1c/0x30
[29339.275603]  [<ffffffff81016235>] do_softirq+0x65/0xa0
[29339.275606]  [<ffffffff8105c0ae>] irq_exit+0x8e/0xb0
[29339.275610]  [<ffffffff816aa17e>] smp_apic_timer_interrupt+0x6e/0x99
[29339.275615]  [<ffffffff816a8eca>] apic_timer_interrupt+0x6a/0x70
[29339.275616]  <EOI>  [<ffffffff8103ff46>] ? native_safe_halt+0x6/0x10
[29339.275623]  [<ffffffff8101c933>] default_idle+0x53/0x1f0
[29339.275626]  [<ffffffff8101d849>] cpu_idle+0xd9/0x120
[29339.275631]  [<ffffffff8166361e>] rest_init+0x72/0x74
[29339.275636]  [<ffffffff81cf3c4d>] start_kernel+0x3cf/0x3dc
[29339.275640]  [<ffffffff81cf37ff>] ? pass_bootoption.constprop.3+0xd3/0xd3
[29339.275644]  [<ffffffff81cf3397>] x86_64_start_reservations+0x131/0x135
[29339.275648]  [<ffffffff81cf3120>] ? early_idt_handlers+0x120/0x120
[29339.275652]  [<ffffffff81cf3468>] x86_64_start_kernel+0xcd/0xdc
[29339.275654] ---[ end trace 6f8224a6f41a8039 ]---
[29340.573205] bonding: bond1: link status down for interface eth2, disabling it in 200 ms.
[29340.664892] tg3 0000:0a:00.0: tg3_stop_block timed out, ofs=1400 enable_bit=2
[29340.765748] tg3 0000:0a:00.0: tg3_stop_block timed out, ofs=c00 enable_bit=2
[29340.772853] bonding: bond1: link status definitely down for interface eth2, disabling it
[29340.833982] pcieport 0000:00:1c.0: eth2: Link is down
[29345.451839] pcieport 0000:00:1c.0: eth2: Link is up at 1000 Mbps, full duplex
[29345.451844] pcieport 0000:00:1c.0: eth2: Flow control is off for TX and off for RX
[29345.451846] pcieport 0000:00:1c.0: eth2: EEE is disabled
[29345.476567] bonding: bond1: link status up for interface eth2, enabling it in 200 ms.
[29345.676235] bonding: bond1: link status definitely up for interface eth2, 1000 Mbps full duplex.
Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)

Bonding Mode: IEEE 802.3ad Dynamic link aggregation
Transmit Hash Policy: layer3+4 (1)
MII Status: up
MII Polling Interval (ms): 100
Up Delay (ms): 200
Down Delay (ms): 200

802.3ad info
LACP rate: fast
Min links: 0
Aggregator selection policy (ad_select): stable
Active Aggregator Info:
        Aggregator ID: 1
        Number of ports: 2
        Actor Key: 17
        Partner Key: 1
        Partner Mac Address: d8:fe:e3:95:c5:c0

Slave Interface: eth3
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 2
Permanent HW addr: 00:10:18:f4:c1:45
Aggregator ID: 1
Slave queue ID: 0

Slave Interface: eth2
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 3
Permanent HW addr: 00:10:18:f4:c1:44
Aggregator ID: 1
Slave queue ID: 0
root@r01:~#

 

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

jak masz zdalny/lokalny dostep do biosu/maszyny , przeladuj tablice przerwan i wywal do testow msi z jajca, ewentualnie jak masz dostep fizyczny i nie jest to klasyczny czips1u z 1x extensionem, to przezuc karte w inny fizyczny najlepiej ten ktory nie shareduje z z jakimis internalami z mobo... troche to wyglada na bardzo "dziwny" konflikt przerwa ktory moze byc spowodowany bledna obsluga vectorow co w boradcomach nowoscia nie jest

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Narazie się zastanawiam nad rozwaleniem tego bondingu i puszczeniem tego na jednej sieciówce.

 

No i tak to właśnie wygląda jakby broadcom nie ogarniał.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

w zasadzie z tego co widze to same edge, na sharedzie przy takiej ilosci kart + internal nie ciezko o missy przy ciaglej zmiani sygnalu w tranzycje h/l, stad pewnie ktoras predzej czy pozniej zdycha przy wiekszym obciazeniu, jedyna droga ratunku to albo inne sieciowy(ale jesli masz malo lini i dodatkowo bios "zle" (bo i tak inaczej nie umie, ulubiona przypadlosc budzetowek supermicro itp) sklada apica to i tak wuj z tego bedzie)... reset tablicy, msi wywalic(tylko do testow, wydajnosc moze byc oplakana), zobacz jak sie bedzie zachowywac... ale jesli nie masz jakiegos ilo/ipmi/ikvm to zdalnie lepiej nie grzeb :)

co to w ogole za mobo ?

 

Edytowano przez m0t (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Dell R320.

 

Nie przypominam sobie z nim takich problemów, przez prawie rok działał ok. W okolicach późnej jesieni się takie cuda zaczeły. Ale chyba ruch na lanach wzrósł prawie 2x od tamtego czasu. W szczycie ok 30-32k pps leci. Być może karta nie wyrabia, bo to jest karta 4port z jednym prockiem.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

To może być jakiś problem z driverem (w tg3 już pare bugów widziałem) albo z kartą. Używam inteli (budżetowe 82574L) i zdarza się że oba porty pchają z max prędkością i nie ma problemów. Tyle, że nie mam vlanów i nie używam kernela 3.x. :)

 

pzdr,

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Ściągam już Intela I350-T4, zobaczymy jak bedzie działać.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Wyłączyłem TSO na portach i wygląda jakby się nieco poprawiło. Ale IMO to nie rozwiązanie :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto

Zarejestruj nowe konto, to proste!

Zarejestruj nowe konto

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się


×