Ankündigungen von Wartungsarbeiten und Meldungen von Ausfällen

Gottfried, du hast hier vollkommen Recht!

Durch den Ausfall wurde augenscheinlich, dass im Adressbereich 2a02:60:100::/40 noch Leben herrscht. Daher haben wir diesen Prefix auf Suidao via OSPF (bird6) gegenüber den Coreroutern angekündigt. Der Prefix 2a02:60:100::/40 wird also von r01krypta und r01nessus direkt zu Suidao gesendet. Dort übernimmt der olsrd6 (olsr-v1) das weitere Routing in Richtung OpenVPN-Tunnel-Clients.

Noch vorhandene Routen von olsrd6:
http://tunnel.funkfeuer.at/olsrd6_route.php

Am heutigen 9. Jänner 2019 zwischen 21 und 23 Uhr wird im Zuge von Wartungsarbeiten ein Reboot des Tunnelservers durchgeführt werden. Es ist mit einer bis zu fünf Minuten dauernden Unterbrechung der Tunneldienste zu rechnen.

Am heutigen 6. Februar 2019 kommt es um ca. 01:55 zu einer kurzen Unterbrechung bei den Diensten des Tunnelservers.

Es kommt jetzt zu einem Reboot der Tunnelserver-VM. Grund sind dringend notwendige Optimierungen im Zusammenhang mit OLSR-Abstürzen in der jüngeren Vergangenheit.

Könnt ihr euch noch zu Matrix / Riot / in den Funkfeuer Chat einloggen? Mein Client meldet nur mehr:

Connectivity to the server has been lost.

https://riot.im/

Down for Emergency Maintenance

See https://twitter.com/matrixdotorg for more information.


https://twitter.com/matrixdotorg

Matrix ‏ @ matrixdotorg 3 Std.vor 3 Stunden

More details to follow, but the security maintenance is to address issues with http://Matrix.org 's production infrastructure. This is not a Synapse issue.


Matrix ‏ @ matrixdotorg 3 Std.Vor 3 Stunden

We’ve taken down the servers which host http://Matrix.org and http://Riot.im for emergency security maintenance - estimated downtime is several hours. More updates as we have them.

1 Like

ah, thx. stimmt, auf die Idee hätt’ ich auch kommen können einfach mal auf die Website zu schaun :wink:

scheinbar was wirklich kritisches, sonst hätte man das geplant… meine verbindung vom online client war auch ganz plötzlich weg.

Matrix ‏ @ matrixdotorg 8 Min.vor 8 Minuten

We are currently rebuilding our production infrastructure; work is in progress - please bear with us!

Matrix ‏ @ matrixdotorg 34 Min.Vor 34 Minuten

In terms of the incident itself, we will publish an update shortly. Summary is: an attacker accessed the production infra that runs http://matrix.org , hence the rebuild. Source code & packages are unaffected. We do not think user data was targeted, but are playing it safe.


Matrix ‏ @ matrixdotorg 48 Min.Vor 48 Minuten

We’ve been hitting problems whilst rebuilding production from scratch; there’s still several hours before we get back online - many apologies for the downtime, but we have to play it safe.

Matrix ‏ @ matrixdotorg 2 Std.Vor 2 Stunden

We are almost at the point of getting things turned back on; websites, databases, synapse, LBs, etc are ready to go. Just sorting final networking issues between them. Thank you for your patience, and apologies for the massive disruption…

Das Hostsystem unseres Tunnelservers hängt momentan - somit haben wir einen Ausfall aller Tunnel. Die Störung betrifft auch IPv6 im Prefix 2a02:60:100::. Behebung der Störung erfordert Krypta-Zugang.

Update: System läuft seit 2019-05-15 03:43:33 (host) 2019-05-15 03:44:06 (vm) wieder. Danke!
Update: Ursache - Ein Systemdienst (swap) auf der VM hat sich beim außerplanmäßigen Reboot (Dringende Updates auf dem Wirtsystem) bis zum Systemd-Timeout von 30 Minuten aufgehängt und Host und VM so in einem 30 Minuten dauernden Zustand ohne Netzwerkanbindung und sonstige Prozesse gehalten. Danach lief der Bootprozess wieder normal durch.

Aktuell gibt es einen Ausfall des Knotens OZW auf der Südseite des Gebäudes. Sämtliche Antennenrouter sind nicht mehr am Netz, der Tunnelrouter und oe1xrw, oe1xrw2 und 1130wuerz36 hingegen sind noch erreichbar.

Stromausfall? Kabeldefekt? Vlan ausgefallen? Keine Ahnung.

Das war am 14.6.so ab 10:00, jetzt scheint der gesamte OZW offline zu sein. Leider bin ich erst wieder morgen in Wien. Macht es einen Sinn (für mich und meinen Uplink neighbor) einen Backup Link zum FFH zu setzen? Hatte ganz gute SNR Werte, irgend was von 24 mBit/s, allerdings 7,3 km Entfernung, also nur eine Schönwetter-Verbindung für eine lite beam M5 (so eine hätte ich nämlich noch übrig).

Also die Devices 130deg und 170deg laufen wieder und haben zum Tunnelclient eine Verbindung. Vermutlich ist die Stromversorgung auf der Nordseite ausgefallen, denn weiterhin sind die Devices 40deg, 110deg, 220deg und 320deg weg.

@josef.semler, @Gottfried: ich würde einen ER-X-SFP aus meinem Node-Setup bei sba54 reissen und Euch zur Verfügung stellen, wenn das gewünscht ist und helfen würde - @vchrizz würde bei der Einrichtung assistieren. Damit kämen wir auch gleich vom deprecated IPv6-Prefix 2a02:60:100::/40 weg, dessen Abschaltung geplant ist.

Und, wenn wir schon dabei sind: Für die Dachantennen könnte ich angepasste, neue Firmwareimages auf OpenWRT-Basis erstellen. Interesse?

hab morgen einen neuen MultiPoE mit.
Alles gut. Vielleicht nehm ich dann gleich auch ungenutzte ruchtungen vom netz.

Tunnelserver und Hostsystem rebooten wegen kritischer Kernel-Updates. Jetzt!

Nachdem Stefan heute bereits einigen Core-Router mit einer neuen Version von bird ausgestattet hat, läuft auch der Tunnelserver jetzt mit der neuen Version.
Zum Abschluss der Arbeiten wird es einen Reboot in ca. 5 Minuten geben.

Vor etwa einer Stunde hat eine unangekündigte Wartung (Updates und bei dieser Gelegenheit eine Umstellung an den VLANs auf Empfehlung des BB-Teams hin) samt Reboot von Host und Tunnel-VM stattgefunden.

Der Server hat jetzt neben OSPF-Links zu krypta und nessus eine OLSR-Verbindung zu rn01nessus. VLAN33 (Mesh) wurde ja aufgelassen. Wir arbeiten daran, noch ein weiteres dediziertes VLAN zu einem der anderen Roofnodes zu erhalten.

Die zuletzt nicht mehr benutzte Bridge br-64a wurde aufgelassen.
Deren IP wurde für ein dediziertes Interface zum Brenner anstelle eines Bridgeports verwendet.

Darüber hinaus konnte eine obsolet gewordene IP zur Freigabe vorgemerkt werden.

Damit wurde nach der Übersiedlung der Maschine wegen des Krypta-Umzugs zu nessus vor 14 Tagen ein weitere Meilenstein für ein schlankeres und stabileres VPN-Service erreicht.

Für das Fehlen der Vorankündigung wegen der Dringlichkeit einerseits und beruflicher Auslastung andererseits möchte ich mich hiermit entschuldigen.

Bitte um Rückmeldung, falls die Qualität des Dienstes nicht Euren Erwartungen entsprechen sollte.

3 Like

Tunnelserver-Reboot 14.02.2020 21:18
Neues Roofnode-VLAN hinzugefügt. OLSR-Test.

Entschuldigung für die Down-Time von 10 Minuten. Systemd und das IPv6-only Interface wollten nicht so recht miteinander… Neue Interface-Config.