This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Letter from the CEO to Astaro Partners and Customers

Dear Astaro partners and customers,

I profoundly apologize for the events of today. 

We issued two malfunctioning pattern updates for our flagship product Astaro Security Gateway which caused many of you significant troubles.

I, and everyone at Astaro, understand that our most important asset is the trust of our partners and customers and today was a bad day for us. 

Please allow me to share the results of our preliminary investigation into what went wrong.

What happened?

Today at 6:07 CEST our Up2Date servers began distributing Intrusion Prevention System (IPS) patterns (version 12404) which included two rules (numbers 15851 and 16576) that were incompatible with the version of the IPS engine used in ASG 7.5. The IPS stopped working following the update and, on systems with IPS enabled, all traffic was blocked due to the IPS fail-closed policy.

At 9:30 CEST our Up2Date servers began distributing IPS pattern version 12405 which corrected the error and we alerted all of our partners via email about the situation.

Systems with IPS activated could not download the new patterns because all network connectivity was blocked. As is usual, systems with IPS deactivated do not download new patterns either.

Immediately our support team began distributing instructions to our partners on how to resolve this problem. After further testing of this solution, we communicated the final instructions on how to resolve the situation to all of our partners via email at 11:44 CEST.

Then, incredibly, at 12:25 CEST our Up2Date servers began distributing Anti Virus (AV) pattern version 12407 which included a signature incompatible with the AV engine our systems are running. On systems with Dual AV Scanning enabled the Web proxy was not working and the Mail proxy was not forwarding email.

Our Up2Date servers began distributing the corrected patterns at 13:20 CEST and the issue corrected itself automatically once the systems loaded version 12410 of the patterns.

At 13:15 CEST we notified our partners via the Up2Date Blog about the incident.

How could this happen?

So, after we have had only one such issue in the last two years, how could we incur two within a few hours? Especially since, after the last incident, we have made such significant investments in our team, infrastructure, and processes to ensure we test every update on every platform before we release it?

In this case we manually and automatically tested the patterns, but not on all of the versions of the IPS and AV engines used in the field. Our automated testing framework is in migration right now in order to get it ready for V8, and we lost sight of maintaining full coverage during this period.
 
What did we learn?

1)    We have relied on a testing framework that was in maintenance and not ready for production use. This is inexcusable and we will never do this again.
2)    No error of any system in the field should prevent it from reaching our Up2Date servers so fixes can be deployed without manual intervention. We will fix this.
3)    We need to define better escalation procedures and inform our partners and customers more quickly using multiple, redundant communication channels. We will implement this.

Once again, I offer my sincere apologies. I sincerely hope that you will accept them and allow us to prove ourselves as a trusted partner to your business going forward.

If you have other questions please do not hesitate to contact me by responding to this email.

Best regards,

Jan Hichert
Astaro CEO


This thread was automatically locked due to age.
Parents
  • Does it make sense to create a standard exception for the Astaro Up2Date servers as a source, and then to enhance the security of the Up2Date process to include some type of security handshake to prevent spoofing?

    As for alternative methods of alerting partners, I would have appreciated a text.  I was so busy helping people that it took me an hour to see that I'd missed a call from Astaro.  The texting could be atomated and virtually instantaneous.

    Cheers - Bob
  • We were hit especially hard by this incident due to the nature of our business, our contractual agreements with our customers, and the fact that we're actively engaging banks and brokers and bringing them on as new customers, during which time any outage is a serious set back.

    I agree with the need for out-of-band alerting for all Astaro customers and partners.  If ever something similar happens again then texting a brief summary of the problem and a resolution would be much appreciated.  I, like many others, was not able to check my email since it was affected and I lucked up on thinking to check the My Astaro portal but only after hours of down time.

    I did speak with a senior executive at Astaro on May 7th.  He called me and we discussed how this happened and how it damaged my company.  He listened attentively and a take him at his word that Astaro will take steps to ensure this doesn't happen again.

    I'd like to know what others think about the following contributing factors:

    • The IPS fails closed, should it?
    • What's the best method of notifying customers and partners?
    • Unable to get the fixed Up2Date files due to a fail-closed IPS
Reply
  • We were hit especially hard by this incident due to the nature of our business, our contractual agreements with our customers, and the fact that we're actively engaging banks and brokers and bringing them on as new customers, during which time any outage is a serious set back.

    I agree with the need for out-of-band alerting for all Astaro customers and partners.  If ever something similar happens again then texting a brief summary of the problem and a resolution would be much appreciated.  I, like many others, was not able to check my email since it was affected and I lucked up on thinking to check the My Astaro portal but only after hours of down time.

    I did speak with a senior executive at Astaro on May 7th.  He called me and we discussed how this happened and how it damaged my company.  He listened attentively and a take him at his word that Astaro will take steps to ensure this doesn't happen again.

    I'd like to know what others think about the following contributing factors:

    • The IPS fails closed, should it?
    • What's the best method of notifying customers and partners?
    • Unable to get the fixed Up2Date files due to a fail-closed IPS
Children
No Data