Moin
Wir haben am Samstag zwei neue SG430 mit Fullgurad und Sandstorm aufgebaut und live geschaltet, um unsere alten BareMetal Installationen abzulösen.
Nun scheinen wir jedoch ein recht erhebliches Problem zu haben.
Denn etwa eine halbe Stunde nachdem wir die Maschinen live geschaltet hatten ist offensichtlich die E-Mail Protection ausgefallen. Zumindest stammt der letzte Log Eintrag von 10:32 gestern früh.
Ich wurde heute darauf aufmerksam gemacht und habe in der UTM in der E-Mail Protection nachschauen wollen. Jedoch wurde mir dort überhaupt nichts angezeigt. alle Graphen weg. Keine Statistiken - nichts.
Also dachte ich, ich boote beide Systeme einmal durch. Habe erst den HA Master neu gestartet. Nach einigen Sekunden kam ich dann auch wieder auf die Weboberfläche.
Dort stellte ich fest, dass sehr viele E-Mails in der Warteschlange sind. Aber nicht, weil sie nicht weiterkommen, sondern weil der Mail-Server die Daten-Dateien für diese E-Mails niche mehr finden kann.
Daraufhin habe ich in die HA-Cluster Konfig geschaut und festgestellt, dass die neu gestartete Node nach über 6 Stunden immer noch auf Sync steht.
Das HA-Live Log zeigte mir dann dieses debakel:
postgres 4846 0.0 0.0 14516 9700 ? Ss 20:27 0:00 /usr/local/bin/repctl
100 17234 0.0 0.0 5672 748 pts/0 S+ 21:06 0:00 grep postgres
2017:10:22-13:14:13 dialin-2 postgres[19268]: [5-1] LOG: could not open file "pg_xlog/0000000100000001000000FE" (log file 1, segment 254): No such file or directory
2017:10:22-13:14:13 dialin-2 postgres[19268]: [6-1] LOG: invalid secondary checkpoint record
2017:10:22-13:14:13 dialin-2 postgres[19268]: [7-1] PANIC: could not locate a valid checkpoint record
2017:10:22-13:14:13 dialin-1 postgres[20097]: [3-1] FATAL: remaining connection slots are reserved for non-replication superuser connections
2017:10:22-13:14:14 dialin-2 postgres[19275]: [2-1] FATAL: the database system is starting up
2017:10:22-13:14:14 dialin-1 postgres[20100]: [3-1] FATAL: remaining connection slots are reserved for non-replication superuser connections
2017:10:22-13:14:15 dialin-2 postgres[19277]: [2-1] FATAL: the database system is starting up
2017:10:22-13:14:15 dialin-2 postgres[19267]: [2-1] LOG: startup process (PID 19268) was terminated by signal 6: Aborted
2017:10:22-13:14:15 dialin-2 postgres[19267]: [3-1] LOG: aborting startup due to startup process failure
2017:10:22-13:14:21 dialin-1 postgres[20727]: [3-1] ERROR: a backup is already in progress
2017:10:22-13:14:21 dialin-1 postgres[20727]: [3-2] HINT: Run pg_stop_backup() and try again.
2017:10:22-13:14:21 dialin-1 postgres[20727]: [3-3] STATEMENT: select pg_xlogfile_name(pg_start_backup($1, $2))
2017:10:22-13:14:21 dialin-1 postgres[20730]: [3-1] ERROR: a backup is already in progress
2017:10:22-13:14:21 dialin-1 postgres[20730]: [3-2] HINT: Run pg_stop_backup() and try again.
2017:10:22-13:14:21 dialin-1 postgres[20730]: [3-3] STATEMENT: select pg_xlogfile_name(pg_start_backup($1, $2))
2017:10:22-13:14:21 dialin-1 postgres[20733]: [3-1] ERROR: a backup is already in progress
2017:10:22-13:14:21 dialin-1 postgres[20733]: [3-2] HINT: Run pg_stop_backup() and try again.
2017:10:22-13:14:21 dialin-1 postgres[20733]: [3-3] STATEMENT: select pg_xlogfile_name(pg_start_backup($1, $2))
This thread was automatically locked due to age.