This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Letter from the CEO to Astaro Partners and Customers

Dear Astaro partners and customers,

I profoundly apologize for the events of today. 

We issued two malfunctioning pattern updates for our flagship product Astaro Security Gateway which caused many of you significant troubles.

I, and everyone at Astaro, understand that our most important asset is the trust of our partners and customers and today was a bad day for us. 

Please allow me to share the results of our preliminary investigation into what went wrong.

What happened?

Today at 6:07 CEST our Up2Date servers began distributing Intrusion Prevention System (IPS) patterns (version 12404) which included two rules (numbers 15851 and 16576) that were incompatible with the version of the IPS engine used in ASG 7.5. The IPS stopped working following the update and, on systems with IPS enabled, all traffic was blocked due to the IPS fail-closed policy.

At 9:30 CEST our Up2Date servers began distributing IPS pattern version 12405 which corrected the error and we alerted all of our partners via email about the situation.

Systems with IPS activated could not download the new patterns because all network connectivity was blocked. As is usual, systems with IPS deactivated do not download new patterns either.

Immediately our support team began distributing instructions to our partners on how to resolve this problem. After further testing of this solution, we communicated the final instructions on how to resolve the situation to all of our partners via email at 11:44 CEST.

Then, incredibly, at 12:25 CEST our Up2Date servers began distributing Anti Virus (AV) pattern version 12407 which included a signature incompatible with the AV engine our systems are running. On systems with Dual AV Scanning enabled the Web proxy was not working and the Mail proxy was not forwarding email.

Our Up2Date servers began distributing the corrected patterns at 13:20 CEST and the issue corrected itself automatically once the systems loaded version 12410 of the patterns.

At 13:15 CEST we notified our partners via the Up2Date Blog about the incident.

How could this happen?

So, after we have had only one such issue in the last two years, how could we incur two within a few hours? Especially since, after the last incident, we have made such significant investments in our team, infrastructure, and processes to ensure we test every update on every platform before we release it?

In this case we manually and automatically tested the patterns, but not on all of the versions of the IPS and AV engines used in the field. Our automated testing framework is in migration right now in order to get it ready for V8, and we lost sight of maintaining full coverage during this period.
 
What did we learn?

1)    We have relied on a testing framework that was in maintenance and not ready for production use. This is inexcusable and we will never do this again.
2)    No error of any system in the field should prevent it from reaching our Up2Date servers so fixes can be deployed without manual intervention. We will fix this.
3)    We need to define better escalation procedures and inform our partners and customers more quickly using multiple, redundant communication channels. We will implement this.

Once again, I offer my sincere apologies. I sincerely hope that you will accept them and allow us to prove ourselves as a trusted partner to your business going forward.

If you have other questions please do not hesitate to contact me by responding to this email.

Best regards,

Jan Hichert
Astaro CEO


This thread was automatically locked due to age.
  • I can say this is highly unfortunate.  Frankly, failing ips closed is a bad idea..i do understand the thinking behind it though.  However, if you are going to run a fail-offline you MUST ensure that your patterns are accurate.  I do give you credit for owning up to the issue.
  • I am dead in the water ... how do I fix this problem?  I have had to take ASG off line because I have not been able to connect to my ISP. I have disabled rules 15851 and 16576 and activate the IPS system again.  This did not fix my problem.
  • - It would be good to have roll back Up2Date.

    - The Roll Back should be Individual for each and every component so that for example in this case we can roll back IPS while the AV is updated when then ClamAV is corrupted, we Roll Back ClamAV (Older working condition still detects stuff) and Avira is still updated which can be rolled back if necessary. In short, do not have one roll back whereby everything is the older version, that compromises a lot.

    - For the AV, instead of Single or Dual, it would be good to let us select which engine specifically to turn on and off.
    What if this time it was Not ClamAV but the Avira, with the current menu, we got to completely disable AV if it is Avira.

    - From this incident I realized that Up2Date is Only Downloaded when it is ON, it would be better to have the system 100% Updated at all times so then when we turn it on, it is the very latest version.
  • I got burned by the ips update, right in the middle of a remote support session I was conducting too.

    During quick troubleshooting attempts I even turned off the web filter module wondering if it was a bad update. It didn't occur to me to try the ips, probably because I was thinking and usually deal with ids', what was really weird, was that I was able to use a tethered cell phone to login remotely to my Astaro box.

    I'd already pulled the box out of line, and was going to test the ext nic when I ran across a post on here in my puttering explaining the issue.


    Anywho, it's nice to see the man ultimately responsible, take responsibility, and man up with an explanation and a solid course of action going forward.

    Thanks for letting us use this at home for free. I like it.
  • Yes thank you for a clear, concise explanation of the situation and the steps that are going to be taken going forward.

    It is refreshing to see a company that does this and does not try to hide it like others. 

    I was quickly able to find the solution that you posted in the forums and resolve the issue.

    thanks again.
  • Does it make sense to create a standard exception for the Astaro Up2Date servers as a source, and then to enhance the security of the Up2Date process to include some type of security handshake to prevent spoofing?

    As for alternative methods of alerting partners, I would have appreciated a text.  I was so busy helping people that it took me an hour to see that I'd missed a call from Astaro.  The texting could be atomated and virtually instantaneous.

    Cheers - Bob
  • We were hit especially hard by this incident due to the nature of our business, our contractual agreements with our customers, and the fact that we're actively engaging banks and brokers and bringing them on as new customers, during which time any outage is a serious set back.

    I agree with the need for out-of-band alerting for all Astaro customers and partners.  If ever something similar happens again then texting a brief summary of the problem and a resolution would be much appreciated.  I, like many others, was not able to check my email since it was affected and I lucked up on thinking to check the My Astaro portal but only after hours of down time.

    I did speak with a senior executive at Astaro on May 7th.  He called me and we discussed how this happened and how it damaged my company.  He listened attentively and a take him at his word that Astaro will take steps to ensure this doesn't happen again.

    I'd like to know what others think about the following contributing factors:

    • The IPS fails closed, should it?
    • What's the best method of notifying customers and partners?
    • Unable to get the fixed Up2Date files due to a fail-closed IPS
  • Advice:
    - Offer SMS or phone alerts for things like this
    - If something Like this happens, immediately have a large link on the homepage & the forums

    After trying to self diagnose the problem (I failed), and checking the forums, I was in the process of reinstalling Astaro before I read the explanation, so it took several hours for me to get and install back to the version we were running so I could restore from backup.
  • - If something Like this happens, immediately have a large link on the homepage & the forums
    Part of the problem was that the web site and forums weren't available at the time, presumably because they'd been knocked off the 'net by the same error.
  • I agree it was really stupid to send emails to customers when ALL connectivity is blocked. Hell even my reseller sent me an email after I called them for help. There definitely need to be an alternate method to get alerts out for a problem like this.

    As far as a built in bypass for up2date so that the fixes can be distributed quicker, I like this idea. But, let the admin's decide if they want to enable/disable that feature.

    Just my2cents.