Google, backstage – Le blog du jurassic geek

Il y a quelques mois, le 20 octobre pour être précis, Jeff Dean, ingénieur chez Google, a donné une conférence à l’université de Washington sur l’infrastructure utilisée par google, ainsi qu’un certain nombre de problématiques et d’approche pour les résoudre. La conférence est disponible en vidéo, donc forcément en Anglais. On peut la trouver sur le site de la Washington University. La conférence a quand même une durée d’une heure, donc prévoyez assez de temps.

Les informations présentées sont assez variées. Mais ce qui est le plus impressionnant dans cette présentation, est les quelques statistiques que l’on peut tirer du traitement du Web par Google. Par exemple, en comptant qu’il y a environ 4 000 000 000 (4 milliards de page, d’une taille moyenne de 10 ko, ça nous fait quand même une quantité d’informations de l’ordre 40 000 Go à traiter (soit environ 40 Péta octets…).
De même, on savait que Google utilisait une multitude de petites machines pour traiter ces informations. Il a donc fallu développer un système de fichiers permettant de travailler avec ces machines pour stocker autant de données. C’est le GFS, Google Filesystem. On en entend épisodiquement parler, et on a là un rapide descriptif de leur approche d’un système de fichiers distribué tolérant aux pannes. Car forcément, à utiliser des milliers de machines dans un cluster, il faut compter des pannes quotidiennes, qui ne doivent pas empêcher le bon fonctionnement du moteur.

Et puis, dans le genre de statistiques surprenante, une simple recherche sur la page de Google nous donne le résultat en faisant travailler pas loin d’un millier de serveurs pour la requête !

? l’origine, j’ai trouvé le lien de la conférence sur le site de WebRankInfo