Erro da Amazon pode destruir a internet!!!

1 de março de 2017 jcflores

O fato de que a Amazon controla uma grande parte dos serviços de computação em nuvem ficou muito claro na tarde desta terça-feira (28), quando uma série de erros derrubou diversos sites. Incontáveis serviços hospedados pela Amazon Web Services (AWS) ficaram inacessíveis após uma falha no data center da Amazon, no estado da Virgínia. Usuários relataram lentidão em suas conexões, além de empresas como Imgur, JWPlayer, Slack e SocialFlow terem seus sistemas derrubados. Essa consolidação de poder é, talvez de maneira repentina, um problema muito grande.

Diferentemente de sua loja online, a Amazon Web Services funciona mais como um castelo de cartas do que como um serviço tradicional de varejo. Afinal de contas, em vez de vender livros e eletrônicos a preços razoáveis, a AWS atende clientes corporativos, oferecendo-lhes serviços de computação em nuvem. O Amazon Simple Storage Service (S#), produto que apresentou erros e derrubou uma porção significativa da rede na terça-feira, oferece armazenamento para aplicativos baseados na nuvem como o Slack e o Trello. A Amazon diz que seu serviço S3 é “projetado para entregar durabilidade de 99,999999999%” e “99,99% de disponibilidade de objetos ao longo de um determinado ano”. Mas quando um pedaço da infraestrutura falha, a AWS falha em grande escala.

Isso acontece porque a Amazon controla uma porção ridícula do mercado quando se trata de computação em nuvem e, especificamente, armazenamento em nuvem. Um estudo da Gartner de agosto de 2016 afirma que a AWS controla 31% do mercado de infraestrutura em nuvem global, e o negócio está crescendo. O mesmo estudo diz que a AWS foi responsável por 51% dos lucros da Amazon (outro estudo da mesma época coloca a fatia de mercado da Amazon em 45%). Microsoft, IBM e Google estão todos expandindo suas ofertas de serviços em nuvem também, mas a Amazon tem sido a líder no quesito desde 2006.

Então, por mais de uma década, a Amazon tem sido o rei da nuvem. Durante esse período, o modelo de negócio da empresa, que Jeff Bezos já comparou aos primeiros tempos da eletricidade, permitiu a startups crescerem e ainda poderem bancar o custo de hospedagem. Ingrid Burrington, da revista The Atlantic, explicou no ano passado:

Na prática, isso significou que o preço dos serviços esteve inteiramente contingente ao uso de fato, uma abordagem que permitiu a desenvolvedores rapidamente escalonar pequenas startups, tornando-as empresas enormes, pagando por um suporte de infraestrutura conforme necessário e subindo à medida em que as necessidades aumentavam. Graças à AWS, a sobrecarga inicial para começar um serviço como o Airbnb ou o Slack (ambos clientes AWS) é tão baixa que essas empresas podem se dar ao luxo de se expandir rapidamente.

Mas o que acontece quando um serviço cresce tanto que seus tentáculos tocam toda a indústria? Suas falhas se amplificam a um grau destrutivo. No caso da AWS, aquele 0,01% de tempo em que seus dados não estão disponíveis significa que um terço da internet para de funcionar bem. A Amazon não revela o número de clientes de computação em nuvem que tem ou a porcentagem exata de tráfego online que é afetada quando um erro acontece. Mas a pane de terça-feira mostrou que poderia fazer redes inteiras de sites pararem de funcionar (o grupo Gizmodo Media é um cliente AWS, então eu posso confirmar que foi um dia complicado).

Enquanto isso, o fato de que muitos dos servidores AWS da Amazon estejam localizado no norte da Virgínia, onde um número enorme de tubos se juntam para formar um dos gargalos mais congestionados de tráfego online no mundo, certamente não ajuda. A Amazon diz que essa região, conhecida como US-EAST-1, foi a fonte da pane de terça-feira.

Portanto, enquanto a série paralisante de erros desta semana deu aos engenheiros da Amazon uma dor de cabeça terrível, competidores de computação em nuvem como Microsoft, IBM e Google devem estar vibrando. Como mencionado anteriormente, eles estão todos ganhando pedaços da fatia absurda de mercado da Amazon, e agora seus representantes de venda terão um incidente para mostrar que a AWS não é 100% resistente. O fato de que mais competição deve melhorar os serviços e diminuir os preços para todo o mundo é inegavelmente uma boa coisa também.

A Amazon ainda não explicou exatamente o que aconteceu na terça-feira. Em resposta a um pedido de comentário do Gizmodo, a empresa disse:

Seguimos tendo altas taxas de erros com o S3 na US-EAST-1, o que está impactando vários serviços AWS. Estamos trabalhando duro para reparar o S3, acreditamos entender a causa principal e estamos trabalhando para implementar o que acreditamos que irá remediar o problema.

Essa é basicamente uma versão diferente do aviso de erro publicado no site da AWS. Atualizaremos este post conforme descobrimos mais informações. Por enquanto, boa sorte na internet, está uma bagunça aí fora.