Bonsoir à tous, 

As tu essayé de désactiver les différents offloading hardware que fait la 
carte, par exemple avec du : 

ethtool --offload eth2 sg off
ethtool -K eth2 tso off

(Il doit y en avoir d'autres. )

J'ai déjà vu ca en jessie sur un firewall qui au bout de 5 min faisait du yoyo 
Link Down / Link Up.  
Si cette piste peut aider ... 

A+ 

Nico. 

PS : @Fabien : tu viens plus aux soirées ? :-) 


20 janvier 2017 20:22 "Fabien Germain" <fab...@klipz.fr> a écrit:
> Bonsoir,
> 
> On 19/01/2017 10:13, Landry Minoza wrote:
> 
>> J’ai eu le même problème il y a quelques années (squeeze) avec une «
>> Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection (rev
>> 01) », la carte arrêtait soudainement de transférer les paquets (link up
>> sur la machine et le switch en face, rien dans dmesg, mais plus aucun
>> transfert), pas d’améliorations avec le kernel bpo, ni le driver made in
>> Intel. Un ip l down / ip l up de l’interface permettait de la relancer
>> pour quelques To.
>> On avait créé un bond avec une des interfaces Giga en failover pour ne
>> pas perdre la machine, et de mémoire, on avait réussi à le stabiliser en
>> supprimant quelques options d’offloading (avec ethtool).
> 
> (tristement) amusant de voir que plusieurs années après, c'est
> exactement le même comportement que l'on observe sur nos X710 : Avec un
> kernel 4.8.0-0.bpo.2-amd64, ça fonctionne niquel pendant environ 15 ou
> 16h, et puis d'un coup plus rien, le réseau fait grève.
> 
> Les logs juste avant le plantage du réseau (mais la machine est toujours
> up, on a l'accès en console dessus) :
> 
> Jan 18 09:40:26 int-rt1 kernel: [62284.961173] i40e 0000:01:00.0: TX
> driver issue detected, PF reset issued
> Jan 18 09:40:27 int-rt1 kernel: [62285.442664] bond0: link status down
> for interface eth2, disabling it in 200 ms
> Jan 18 09:40:27 int-rt1 kernel: [62285.650320] i40e 0000:01:00.0: Error
> I40E_AQ_RC_EINVAL adding RX filters on PF, promiscuous mode forced on
> Jan 18 09:40:27 int-rt1 kernel: [62285.650627] bond0: link status up
> again after 200 ms for interface eth2
> 
> C'est un bonding sur 4 interfaces 10G : même si eth2 avait un soucis et
> lâchait, ça ne devrait pas avoir trop d'impact. Et pourtant...
> 
> On va tenter la semaine prochaine avec un kernel tout frais et pas
> encore bien sec (4.10-rc4), pour voir ce que ça donne. Puis on se
> résoudra à tester avec une CentOS.
> 
> Merci à tous pour vos retours !
> 
> Fabien
> _______________________________________________
> Liste de diffusion du FRsAG
> http://www.frsag.org

Nicolas S.
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à