Ankündigungen von Wartungsarbeiten und Meldungen von Ausfällen

Am heutigen 07.01.2019 gab es Probleme mit dem Routing für 2a02:60:100::/40, dem alten Prefix für OLSR (OLSRv1+IPv6). Durch einen Dokumentationsmangel war nicht erkennbar, dass der Tunnelserver 6 (tunnel6) der letzte Uplink für diesen Netzbereich zu den Core-Routern war.
Tunnel6 galt als obsolet und wurde in Vorbereitung der Migrationen von virtuellen Maschinen auf den Host „Ford“ abgeschaltet. Dadurch wurde das Problem einer für den neuen Tunnelserver (ts2018) fehlenden statischen Route von den Core- bzw Roofnode-Routern schlagend.
@pocki hat unter eifriger Mithilfe des Backbone-Teams nun die Route mittels OSPF auf ts2018 angekündigt.

Es wird den verbleibenden Teilnehmern des OLSRv1+IPv6-Dienstes dennoch empfohlen, eine Migration auf IPv6+OLSRv2 ( Projekt v642 ) anzustreben, um über die bessere Redundanz, die für den Prefix 2a02:61::/32 gegeben ist, zu verfügen.

IPv6 am OZW geht wieder.

In der Core Mailing Liste stand zu lesen, dass der Adressbereich 2a02:60:100::/40 nun wieder als freigegeben markiert wurde. Dass dies falsch ist und hier nach wie vor Nodes aktiv sind, ist hoffentlich schon klar !!!

Grüße
Gottfried

Gottfried, du hast hier vollkommen Recht!

Durch den Ausfall wurde augenscheinlich, dass im Adressbereich 2a02:60:100::/40 noch Leben herrscht. Daher haben wir diesen Prefix auf Suidao via OSPF (bird6) gegenüber den Coreroutern angekündigt. Der Prefix 2a02:60:100::/40 wird also von r01krypta und r01nessus direkt zu Suidao gesendet. Dort übernimmt der olsrd6 (olsr-v1) das weitere Routing in Richtung OpenVPN-Tunnel-Clients.

Noch vorhandene Routen von olsrd6:
http://tunnel.funkfeuer.at/olsrd6_route.php

Am heutigen 9. Jänner 2019 zwischen 21 und 23 Uhr wird im Zuge von Wartungsarbeiten ein Reboot des Tunnelservers durchgeführt werden. Es ist mit einer bis zu fünf Minuten dauernden Unterbrechung der Tunneldienste zu rechnen.

Am heutigen 6. Februar 2019 kommt es um ca. 01:55 zu einer kurzen Unterbrechung bei den Diensten des Tunnelservers.

Es kommt jetzt zu einem Reboot der Tunnelserver-VM. Grund sind dringend notwendige Optimierungen im Zusammenhang mit OLSR-Abstürzen in der jüngeren Vergangenheit.

Könnt ihr euch noch zu Matrix / Riot / in den Funkfeuer Chat einloggen? Mein Client meldet nur mehr:

Connectivity to the server has been lost.

https://riot.im/

Down for Emergency Maintenance

See https://twitter.com/matrixdotorg for more information.


https://twitter.com/matrixdotorg

Matrix ‏ @ matrixdotorg 3 Std.vor 3 Stunden

More details to follow, but the security maintenance is to address issues with http://Matrix.org 's production infrastructure. This is not a Synapse issue.


Matrix ‏ @ matrixdotorg 3 Std.Vor 3 Stunden

We’ve taken down the servers which host http://Matrix.org and http://Riot.im for emergency security maintenance - estimated downtime is several hours. More updates as we have them.

1 Like

ah, thx. stimmt, auf die Idee hätt’ ich auch kommen können einfach mal auf die Website zu schaun :wink:

scheinbar was wirklich kritisches, sonst hätte man das geplant… meine verbindung vom online client war auch ganz plötzlich weg.

Matrix ‏ @ matrixdotorg 8 Min.vor 8 Minuten

We are currently rebuilding our production infrastructure; work is in progress - please bear with us!

Matrix ‏ @ matrixdotorg 34 Min.Vor 34 Minuten

In terms of the incident itself, we will publish an update shortly. Summary is: an attacker accessed the production infra that runs http://matrix.org , hence the rebuild. Source code & packages are unaffected. We do not think user data was targeted, but are playing it safe.


Matrix ‏ @ matrixdotorg 48 Min.Vor 48 Minuten

We’ve been hitting problems whilst rebuilding production from scratch; there’s still several hours before we get back online - many apologies for the downtime, but we have to play it safe.

Matrix ‏ @ matrixdotorg 2 Std.Vor 2 Stunden

We are almost at the point of getting things turned back on; websites, databases, synapse, LBs, etc are ready to go. Just sorting final networking issues between them. Thank you for your patience, and apologies for the massive disruption…

Das Hostsystem unseres Tunnelservers hängt momentan - somit haben wir einen Ausfall aller Tunnel. Die Störung betrifft auch IPv6 im Prefix 2a02:60:100::. Behebung der Störung erfordert Krypta-Zugang.

Update: System läuft seit 2019-05-15 03:43:33 (host) 2019-05-15 03:44:06 (vm) wieder. Danke!
Update: Ursache - Ein Systemdienst (swap) auf der VM hat sich beim außerplanmäßigen Reboot (Dringende Updates auf dem Wirtsystem) bis zum Systemd-Timeout von 30 Minuten aufgehängt und Host und VM so in einem 30 Minuten dauernden Zustand ohne Netzwerkanbindung und sonstige Prozesse gehalten. Danach lief der Bootprozess wieder normal durch.

Aktuell gibt es einen Ausfall des Knotens OZW auf der Südseite des Gebäudes. Sämtliche Antennenrouter sind nicht mehr am Netz, der Tunnelrouter und oe1xrw, oe1xrw2 und 1130wuerz36 hingegen sind noch erreichbar.

Stromausfall? Kabeldefekt? Vlan ausgefallen? Keine Ahnung.

Das war am 14.6.so ab 10:00, jetzt scheint der gesamte OZW offline zu sein. Leider bin ich erst wieder morgen in Wien. Macht es einen Sinn (für mich und meinen Uplink neighbor) einen Backup Link zum FFH zu setzen? Hatte ganz gute SNR Werte, irgend was von 24 mBit/s, allerdings 7,3 km Entfernung, also nur eine Schönwetter-Verbindung für eine lite beam M5 (so eine hätte ich nämlich noch übrig).

Also die Devices 130deg und 170deg laufen wieder und haben zum Tunnelclient eine Verbindung. Vermutlich ist die Stromversorgung auf der Nordseite ausgefallen, denn weiterhin sind die Devices 40deg, 110deg, 220deg und 320deg weg.

@josef.semler, @Gottfried: ich würde einen ER-X-SFP aus meinem Node-Setup bei sba54 reissen und Euch zur Verfügung stellen, wenn das gewünscht ist und helfen würde - @vchrizz würde bei der Einrichtung assistieren. Damit kämen wir auch gleich vom deprecated IPv6-Prefix 2a02:60:100::/40 weg, dessen Abschaltung geplant ist.

Und, wenn wir schon dabei sind: Für die Dachantennen könnte ich angepasste, neue Firmwareimages auf OpenWRT-Basis erstellen. Interesse?

hab morgen einen neuen MultiPoE mit.
Alles gut. Vielleicht nehm ich dann gleich auch ungenutzte ruchtungen vom netz.

Tunnelserver und Hostsystem rebooten wegen kritischer Kernel-Updates. Jetzt!

Nachdem Stefan heute bereits einigen Core-Router mit einer neuen Version von bird ausgestattet hat, läuft auch der Tunnelserver jetzt mit der neuen Version.
Zum Abschluss der Arbeiten wird es einen Reboot in ca. 5 Minuten geben.