Browsed by
Category: Tech

Eventi straordinari e siti istituzionali: un rapporto (ancora) tormentato.

Eventi straordinari e siti istituzionali: un rapporto (ancora) tormentato.

Anni fa ho scritto questo articolo (in un momento di frustrazione causata dalla puntuale indisponibilità dei siti istituzionali nei momenti di loro maggiore utilità), nella speranza quantomeno di aprire una linea di dialogo. Ero stato fortunato e questa si era aperta, ma il tutto era stato impacchettato e rispedito al mittente senza troppi complimenti.

Il problema in breve: sono molti i siti informativi, soprattutto in ambito Pubblica Amministrazione, “inutili” e poco visitati per il 99.9% del tempo, che però diventano critici in momenti di particolare interesse. Immaginate ad esempio il censimento della popolazione: ha cadenza decennale e dura due mesi. Durante questa finestra di tempo ogni cittadino userà l’apposito servizio online, ovviamente aspettandosi che tutto funzioni a dovere.

Altro esempio è il portale del Ministero dell’Istruzione: basso carico per gran parte dell’anno, ma quando vengono annunciate le commissioni di maturità, deve essere funzionante, pronto e scattante. Pensate poi al sito dove vengono pubblicati i risultati delle elezioni: utilizzato ogni quattro o cinque anni, diventa il più visitato d’Italia durante le poche ore di scrutinio.

Internet oggi è la fonte primaria di informazione per molte persone: è un dato di fatto che non si può ignorare, ed è necessario dare adeguata importanza alle piattaforme che contribuiscono a questa informazione.

Ne parlavo nel 2011, perchè è stato l’anno in cui i tre servizi sopracitati hanno mancato il loro obiettivo primario: quando servivano, non funzionavano. Se ne era parlato, soprattutto tra gli addetti ai lavori: ci eravamo arrabbiati, ma qualcuno aveva commentato che le soluzioni al problema (che spaziano da questioni molto tecniche come lo sharding dei database e l’elasticità delle infrastrutture a questioni più di buon senso, come una corretta previsione dei carichi) erano molto distanti dal mondo dei “comuni mortali”, e ancor di più dal settore pubblico.

Un punto di vista secondo me contestabile, ma quasi sicuramente con un fondo di verità: al tempo il concetto di “cloud” esisteva da pochi anni, e alcuni vendor dubitavano ancora delle sue potenzialità.

Sembra di parlare della preistoria.

(per non dimenticare: il load balancing manuale delle Elezioni 2011)

Adesso siamo nel 2017: sono passati sei anni dal mio articolo e come alcuni continuano a ripetere, “cloud is the new normal”. Il cloud è la nuova normalità, tutti lo usano, lo scetticismo, se mai c’è stato, è sparito: il tempo ha ormai provato che è una nuova e rivoluzionaria tecnologia e non solo un trend temporaneo o una pazzia di un singolo vendor.

In questi anni, nella nostra PA, sarà cambiato qualcosa?

Alcuni segnali fanno ben sperare: Eligendo ad esempio, il portale delle Elezioni, è esposto tramite una CDN (ma non supporta HTTPS). Altri fanno invece perdere la speranza appena guadagnata: questo mese si è tenuto il Referendum per l’Autonomia della Lombardia – serve che vi dica in che stato era il sito ufficiale durante gli scrutini? Timeout.

Le soluzioni a questo tipo di problemi sono ormai ben conosciute e consolidate: caching estremo, utilizzo di CDN, sfruttamento di infrastrutture scalabili, etc. I costi sono molto bassi e granulari: con una architettura ben studiata, si possono servire tutte le richieste senza sprecare un euro. Fa in un certo senso pensare il fatto che in certi ambienti siano ancora presenti e gravi problemi che l’industria ha risolto già da tempo, come quello dei picchi di carico.

Quali sono quindi i fattori limitanti, quindi?

Non stento a credere ci sia una scarsa comprensione del tema e della sua importanza ai “piani alti” di ogni ente: solo di recente siamo riusciti a mettere insieme una community di sviluppatori e un “team digitale” (composto da professionisti di veramente alto rango) volto a svecchiare il “sistema Italia”.

L’iniziativa sta già portando i suoi primi frutti, ma si tratta di un team per ora piccolo molto focalizzato sullo sviluppo e non sulle operations/mantenimento: il passo per il cambiamento della mentalità generale è ancora lungo. Non è difficile immaginare come una scarsa comprensione del tema porti molto velocemente alla mancanza di interesse e di risorse dedicate – con conseguente frustrazione di quelli che sono i “piani inferiori”.

Un secondo fattore spesso portato (o meglio, trascinato) in gioco è la scarsità di infrastrutture: se questo poteva essere vero una volta, oggi, con l’affermazione delle tecnologie cloud e del concetto di “on demand”, questo smette di essere un punto bloccante. Le infrastrutture ci sono, basta sfruttarle.

Ultimo, ma non per importanza, il discorso “competenze”: non stento a credere come molti fanno notare che sia difficile reclutare personale adatto e che chi si occupa oggi di sistemi nella PA abbia ben altre responsabilità e quindi ben altre basi. Ritengo però non si possa ignorare il fatto che al giorno d’oggi il concetto di “as a service” (servizi managed se volete chiamarli con un nome forse più familiare) rimuova buona parte di questo problema, e che l’immensa offerta di training e relativa facilità di sperimentazione renda estremamente facile la coltivazione delle skills mancanti.

Può servire tempo, ma da qualche parte bisognerà pur partire. Molti IT manager e sistemisti sono lì fuori pronti, a fare il passo: hanno solo bisogno di essere ispirati.

Ispiriamoli, no?

Me and HP: a “bare-metal” odyssey

Me and HP: a “bare-metal” odyssey

If you follow me on social media you’ve almost certainly heard of the issues I’m facing with the HP DL320 Gen8 I bought a few months back to replace my NAS and some test machines.

In term of diagnosing and solving this problem HP’s tech support has been useless so far, so in the last few weeks I’ve been digging deeper and deeper into this, and here are my findings (in logical, and not chronological, order).

Let’s start from scratch, for the benefit of who has not been following this from the very beginning: I’ve installed, tested and shipped the machine with the main drives only (Samsung 850 EVO SSD), as the capacity ones I wanted to use (SATA 2.5″, 1TB, 7200rpm) turned out not being easy to find on the market.

When I was finally able to buy 2+1 drives of the exact HGST model I was after, I screwed them to their caddies and shipped them to the colocation: when they confirmed the drives had been placed into the server, I rebooted it and configured them in a mirrored mdraid array.

Then I noticed that power consumption had gone up from 0.3 to 0.5 Amps:

The raid (re)build was still ongoing and CPU usage was high, so I just ignored this, even if even during previous spikes I had never seen such an high power consumption. To mi surprise, the morning after power usage was still 0.5A, even if the rebuild had finished hours before and load average was back to 0.0something.

With no evidence of something being wrong with the system itself, I blamed the drives (HGST HTS721010A9E630) and started researching for someone else facing the same issue with them. Nothing came out, as expected, and got confirmation from some docs that the power usage to be expected was way lower than what I was seeing.

By chance, I found some threads on the HP forums mentioning situations where non-genuine hard drives were causing “high noise”. Being unable to check the noise by myself without travelling to the colocation, I went ahead and had a look at the fans speed in my iLO, to realise all of them were running at 100%: at that stage I didn’t knew the pre-upgrade reading (now I do: 19%), but while testing it at home (in a way less controlled and warmer environment than the datacenter) I had never seen anything above 30%.

At this stage, I had finally found the cause for that huge power usage: extremely high fan speed. It was now time to try and explain the latter. First thing I checked, of course, were temperatures around the system: everything was good according to the iLO, no alarms nor criticals (not even warnings) and SMART readings were fine, with 20/21C on every drive. Nothing was explaining why the DL320 was trying so hard to cool itself down.

Then I found this article, where David described the same problem and found the perfect name for this phenomenon: Thermal Runway. Based on his description, looks like I’ve been very lucky, as other HP ProLiant servers are even shutting themselves down due to wrong temperature readings. Needless to say, my hard drives P/N were in its list of known bad ones.

Scraping the IPMI details, I found the sensor who was causing this whole thing: “05-HD Max”, which was at 58C. I’ve researched its details, and looks like it’s not a physical sensor, but rather an average of all of the SMART readings. With the temps for my four drives being around 22/23C max according to SMART, there was no way their average could have been 58C. Making things worse, this sensor has an hardcoded, non editable warning threshold at 60C.

With no clue on what to do next, I tried asking HGST if there was a firmware upgrade available (the DL320 G8 is on latest version of everything), but after 15 days, a number of emails and multiple levels of escalation they didn’t even manage to understand what I was asking for, so I decided to give up with them.

At this stage, with all the details I was able to gather I logged a support case to HP, and at the same time bought two new Seagate HDDs (ST500LM021-1KJ15), just to learn, after trying them, that they cause the same problem.

After a very honest first answer where HP’s tech support told me that the system was speeding up FANs as the drives were not recognised as HP genuine, they changed their mind and started pretending the 58C reading was real, and my drives were really running so hot.

I was lost again, and started wondering what did prehistoric people do before the cloud came, when they had this kind of hardware issues. Their first step was probably to go in front of the broken server, so I jumped on a plane and did the same.

(a picture of MY-ZA while undergoing surgery)

First thing, I was able to confirm the 58C reading was definitely wrong (as expected, anyway, but I was looking for a proof to show HP), and SMART was right: drives were super-cold, even if extracted while running. Moreover that sensor was jumping from 24C to 58C in 2/3 seconds after placing them in, which is rather hard (just think about the thermal shock).

Second, I tried to put the drives in different positions (and on a different port of the P420i RAID controller), and the issue was still there.

As last resort, I connected them to the onboard B120i HBA, and the system started working properly. Sensor 05 back to normal, drives running ok, etc. Not a good solution tough, as I’ve paid for the P420i + cache and under no circumstance I will do without it.

Fortunately, while upgrading my iLO4 to firmware 2.55, I noticed that after resetting it sensor 05 was temporarily disappearing, until the next operating system reboot. With this sensor disappearing, everything goes back to normal: fans to 30%, consumption to 0.3A, my bank account not at risk anymore.

sensor 05 has disappeared: 03, 04, … 06.

So, even if not particularly good looking and clean, I had found a solution: resetting the iLO. I went ahead and installed freeipmi, then made sure “bmc-device –cold-reset” is run 30 seconds after the system boots.

I’m still holding some kind of hope in HP support: I asked them to provide me with a way to permanently disable that sensor or raise its threshold, at my risk (read: voiding warranty).

It’s hard to describe how frustrated I am with both with HP servers, policies and support: not being able to test all existing parts and so having some “genuine” and some non genuine ones is okay, but artificially messing up a temperature reading to increase power consumption (and thus costs) and force their customers not using parts from 3rd parties can only be defined with a word: sabotage.

Giorgio

Story of a journey: my first year at Amazon Web Services

Story of a journey: my first year at Amazon Web Services

Exactly one year ago today I was sitting in a room in Amazon’s London Holborn office, attending the New Hire induction and waiting for my manager to pick me up and introduce me to the rest of the Technical Account Managers team.

It has been one year already – it’s about time to tell my story, and share my experience in this (amazing) reality.

(this is me at this year’s London Summit, looking for something, somewhere)

Looking back at the first year (or, in Amazonian terms: “those first 365 day one’s.”), I can easily highlight a few different phases. Here they are, in a more or less chronological order.

Phase 1: “lost” (in an hexagonal office)

Technical Account Managers (TAM) spend a lot of time with customers, and only drop into the AWS office when required. As a new starter this can be a little daunting, especially when trying to get set up – configuring your mobile, using the vast array of internal tools you have at your fingertips and the simple things, like finding the toilet.

The good news is: everybody is always happy to help you. Literally: everybody. In my first days I had phone calls with most of my team mates, shadowing sessions in front of customers, and even asked a mix of random people in the office for various kinds of help: they always guided me, as if it was a single, big family and that helped me, and I never really felt lost (yeah, I know, but it looked as a good title for this chapter…).

(about the toilet, if you’re wondering: I realised that as our office was hexagonal – or kind of -, everything was “straight on and then on the left”)

I’ll skip phase 1.5, the official training: we spend about two to three weeks in classes with Support Engineers before getting hands on with the day to day job. The training is what you’d expect from training, but it provides a great opportunity to meet and learn from tenured colleagues. This is also when I personally went from getting lost in the London office to getting lost in the Seattle campus (every. single. time.).

Phase 2: the ramp up (aka: “OMG I don’t know anything”)

The ramp up that comes after the training is exciting: you’re back, you’ve had 2/3 weeks to try to learn as much as possible and after three weeks of training, you think you know what you are doing – you’ve learnt the theory, you know how to use the tools, you think you know what to do when, and you’re ready to get on with it.

In theory.

What you realise at this point is that yes, it’s true, and you’re working with Amazon Web Services. If you work with cloud, you hear this name daily, and becoming part of it doesn’t simply feel real for a while.

One of the first matters I understood was that the only thing I was bringing with me in AWS was my brain: your past experience can definitely help, but Amazon is so different from other companies that you have to learn, literally from scratch, almost everything. If you’ve been hired it’s because you share the mindset, so it’s not hard and it’s not an obstacle, it’s just something to keep in mind.

The main differences? First, and by far, is our “Customer Obsession”. We obsess over our customers, and not over our technology: every discussion we have ends up focusing what’s best for our customers, and how we can improve their experience. We work every day making sure we help them doing what’s best for their platforms – not for us – and we spend our time listening to them and trying to figure out how to make their life easier.

The second one is definitely what’s summarised in our “Everyday is Day One” motto, which is much more tangible than you would expect from something that is written on every wall in an HQ. Our customers and us are moving so quickly that you must always be ready to wake up and start as if you were in a completely new world. You learn new things daily and the technology you were using / evangelising three months before could not be the best one for a given use case anymore.

This is all about change and how it becomes part of your daily routine.

Phase 3: the First Customer

After a few months you’re ready to onboard your first customer. I had spent some time shadowing and helping a more tenured colleague, and in November I was ready for onboarding my first “very own” account.

At that point in time I was confident on my daily tasks, had already had to deal with critical situations, and everything was looking good. But the first customer you onboard onto AWS Enterprise Support is just different: you’re starting a journey together, with some pre-defined goals and some others that will eventually show up.

It’s journey of change, a journey toward continuous improvement and optimisation.

It’s just matter of weeks, and you will start knowing your customer’s team members by first name, and recognising who’s logging a support case just by looking at their writing style.

Yes, that’s a very close relationship: some of my colleagues love to say that we work for Amazon, but on behalf of our customers.

Phase 4: the first event

You don’t really feel part of the customer’s team until you go through your first event. An event could be anything, from a planned traffic spike or feature launch, to, ehm, yes, an unplanned downtime.

Let’s pick a feature launch: it’s something big, the customer’s development teams have been working for months on it, the marketing team is heavily pushing and the operational teams do have a single focus, making sure everything will work smoothly.

This is where our teams become glued together with the customer’s: we share a goal, we share a focus, we setup “war rooms” and make sure everything is in place and properly architected for when the big day arrives. The TAM acts here as a customer facing frontman for an army of Support Engineers, Subject Matter Experts, Service Team Engineers, and many more – and during this kind of events, everyone comes together.

And then it happens – detailed and obsessive planning ensure everything works smoothly and meets expectations, leaving plenty of time to celebrate – and to realise that none of this would be possible without the super close relationship we develop with our customers.

Phase 5: personal development

This is not really a phase (mainly because it never ends), but after you’ve been in the company for 6/8 months you begin having really clear ideas on how things work, where you want to go and what you want to do.

AWS is a world of opportunities, for any kind of person: in this first year I joined a team which is helping our customers with the migration of strategic workloads and presented at the AWS Summit in London.

I’m currently trying to decide what to target next.

Phase 6: retrospective

As said, technology is evolving quickly, and so are we and our customers. When you reach the one-year mark, you try to look back and this is when you really understand where you used to be, and where you are now.

Where your customers were, and where they are now: the distance they have most likely covered in a single year looks unbelievable.

Phase 7: writing a blog post about your first year

Come on, I’m just joking.

Time to wrap up: I’m enjoying my new working life, my team, my mentor(s), my manager(s) and the extended Enterprise Support team. I have the opportunity every day to work with exciting customers, to actually be part of my customer’s teams and to experience the latest innovations first hand.

There is a question I get asked a lot, especially from people who know my background: do I miss being hands on, had to do with operations? Not really. First, we have time and business needs for testing and using any new product we launch, so I still spend some time actually “playing” with stuff. Second, despite the name, this role is super-technical – we get to see a lot of operations, development and devops.

 

If you are reading this and looking for a new and interesting challenge, or would like to consider joining the AWS team, then get in touch.

Giorgio

T-Mobile e il mondo TLC che cambia. Prima del previsto.

T-Mobile e il mondo TLC che cambia. Prima del previsto.

“Le persone hanno paura di utilizzare il cellulare quando sono all’estero” – John Legere, CEO di T-Mobile US, ha aperto così l’evento in cui ha annunciato a sorpresa la quasi totale abolizione delle tariffe di roaming per i propri clienti. Qui il comunicato stampa: un fulmine a ciel sereno, un annuncio che non ci saremmo mai aspettati, non certo in tempi così ristretti.

Gli utenti T-Mobile potranno da fine Ottobre inviare messaggi e navigare senza limiti da più di 100 paesi nel mondo senza costi aggiuntivi. Le chiamate effettuate in roaming avranno un costo di 20 centesimi al minuto (un prezzo praticamente nullo rispetto a quello attuale). Per quanto riguarda invece le chiamate internazionali effettuate dagli USA, acquistando un pacchetto da 10 dollari mensili, sarà possibile parlare illimitatamente con le linee fisse di 70 paesi e a 20 centesimi al minuto con tutti i mobili e i fissi del resto del mondo.

“The world is your network.” – T-Mobile

Legere non ci va giù piano: secondo lui il mercato delle telecomunicazioni americano è “uno schifo”, basato su “un raket” che ha il solo fine di spennare i clienti. Vuole che la sua compagnia sia diversa: T-Mobile è il più piccolo dei 4 principali operatori nazionali, ma è quello in più rapida crescita (hanno appena annunciato il completamento della copertura 4G/LTE di tutto il territorio USA).

Erano stati chiari, con la loro campagna “Uncarrier“: “We’re still a wireless carrier. We’re just not going to act like one anymore.”. T-Mobile ha iniziato qualche mese fa il cammino su una strada di innovazione e trasparenza cancellando dai suoi listini il modello di vendita basato su “contratti” (che è lo standard in USA, si sceglie un telefono e si è obbligati a pagare una determinata tariffa per 24 mesi, con altissimi costi di recesso anticipato) e sta continuando in velocità, in aperto contrasto con i suoi concorrenti AT&T e Verizon.

Nessun contratto, nessuna tariffa di roaming, SMS e chiamate illimitate, no alle tariffe nascoste. Semplice. Semplicissimo. Come ogni cosa dovrebbe essere.

Vodafone si stava già muovendo su questa linea, ma preannunciava il cambiamento per il 2015. Adesso dovrà accelerare i tempi. E gli altri? Tutti gli altri? Subiranno il durissimo colpo? Saranno in grado di stare al passo?

Probabilmente è il caso di iniziare a correre. Perchè l’impressione che si ha sempre di più, è quella di un mondo delle telecomunicazioni in continuo cambiamento ed evoluzione, ma con operatori (che dovrebbero esserne i principali player) incapaci di stare al passo coi tempi e con le necessità dei clienti.

Noverca+ sta per cambiare le cose (forse)

Noverca+ sta per cambiare le cose (forse)

Oggi vi parlo di Noverca: è stato il primo Full MVNO italiano, ed, alla data in cui scrivo, ancora di fatto l’unico (anche se due nuovi player stanno per presentarsi sul mercato). Un Full MVNO, lo ricordo, è un operatore virtuale che ha necessità di appoggiarsi a terzi solo per quanto riguarda la rete di accesso. Lo seguo da tempo perchè la sua offerta mi è sembrata da sempre decisamente innovativa (inizialmente pubblicizzavano una tecnologia chiamata “Hybrid VoIP”, tramite la quale offrivano chiamate internazionali, da cellulare, ai prezzi più bassi nel mercato italiano).

Poco fa sono inciampato in questa nuova applicazione, Noverca+. La descrizione ha attirato la mia attenzione, ma poi ho notato che il contatore dei download era ancora fermo a zero. E la data di pubblicazione era quella di… oggi!

2013-08-08 21.31.34

Qualche minuto passato a cercare (senza successo) informazioni a riguardo su Google e mi sono convinto di aver scoperto in anticipo (quanto anticipo, mi chiedo) un nuovo servizio: l’applicazione per Android, la trovate qui, mentre la pagina che descrive il servizio è qui.

Di cosa si tratta, in breve? Stando alla descrizione, si tratta di un’applicazione sullo stampo delle meglio conosciute Skype/Viber, che offre chiamate gratuite via internet tra gli utenti che l’hanno installata. Con una novità importante: a NovercaPlus è possibile associare un numero di telefono mobile (un numero Noverca comprato per l’occasione o un numero già in vostro possesso che porterete da altro operatore), per ricevere chiamate anche da chi non ha l’applicazione installata. Al momento è possibile utilizzare solo numeri (nativi o portati) associati a SIM fisiche Noverca, ma sembra che per il futuro stiano pensando ad un concetto di “SIM virtuale”.

Le chiamate in uscita vengono tariffate secondo il piano attivo sulla SIM Noverca a cui è associato il numero, ma viene offerta anche un’interessante opzione specifica, per telefonare via WiFi dall’Italia verso Italia, USA e Cina.

Per i più tecnici, niente di nuovo. Tutto ciò noi del settore sapevamo già farlo (sia con numeri di rete fissa che con, ehm, numeri di rete mobile, anche se sarebbe meglio non dirlo in giro), con le necessarie competenze. Per le aziende, Vodafone vende da qualche tempo un servizio simile, Vodafone Rete Unica, ma si tratta di un’offerta parecchio articolata e complessa. Proprio qui sta la differenza di NovercaPlus: questa applicazione dovrebbe rendere tutto ciò alla portata di chiunque.

Quali sarebbero i vantaggi di un simile servizio? Provo ad elencarne qualcuno:

  • Doppio numero (in futuro, perchè solo doppio?) di cellulare su un apparecchio non dual SIM (uno sarà il numero nativo della SIM inserita nel cellulare e l’altro sarà quello dell’applicazione)
  • Possibilità di ricevere chiamate all’estero come foste a casa vostra, senza pagare le (spesso pesanti) tariffe di roaming
  • Risoluzione dei noti problemi di copertura: piano seminterrato? Basta una connessione WiFi, e il vostro cellulare torna a suonare

L’applicazione, l’ho provata, per ora ha ben poco di funzionante. Al primo accesso un disclaimer spiega chiaramente che si tratta di un servizio beta che Noverca sta sperimentando e su cui al momento non offre nessuna garanzia. Ma se venissero mantenute le promesse della pagina descrittiva, si tratterebbe davvero di un servizio nuovo e interessante.

Screenshot

C’è qualche punto però che mi lascia perplesso:

  • Al momento non è possibile comprare un numero dedicato: devo utilizzare quello della mia SIM Noverca. Come viene gestito l’instradamento delle telefonate? Come sarà gestita in futuro la coesistenza di una SIM fisica e di una applicazione, entrambe basate sullo stesso numero di telefono? Adesso se effettuo il login con l’applicazione, le telefonate non arrivano nè lì nè sulla SIM fisica.
  • L’applicazione per funzionare richiede una connessione WiFi. E se io volessi usare il piano dati 3G del mio operatore, per avere il doppio numero sullo stesso apparecchio ed essere raggiungibile su quello virtuale in qualunque situazione?
  • Siamo abituati a vedere i servizi IP-based come indipendenti dalla location fisica in cui vengono utilizzati. Noverca+, invece, non funziona così: può essere usata solo dall’Italia. Per l’utilizzo dall’estero si pagano delle opzioni, seppur molto economiche.

Come si evolverà? Che sia il primo passo verso la possibilità di utilizzare numeri di telefonia mobile via SIP?

Ho chiesto all’indirizzo di contatto dettagli sulla fase beta, e vi aggiornerò il prima possibile.

Giorgio