On lundi 21 janvier 2019 20:13:04 CET Michel Py - michel@arneill-
py.sacramento.ca.us wrote:
> > frnog.kap...@antichef.net
> > Sachant que leur modèle économique est entièrement basé sur l'utilisation
> > de disques grand public pour proposer des tarifs compétitifs, ça me
> > parait fort à propos d'indiquer les disques à partir de 45.
> C'est là ou tu as tort : la taille de l'échantillon n'est pas
> représentative. Avec un petit nombre, on peut facilement avoir un taux de
> panne nul, ou au contraire si c'est une mauvaise série un taux de panne
> très élevé. C'est le b-a-ba des statistiques. C'est comme les sondages :
> pour avoir quelque chose de significatif, il faut un échantillon d'au moins
> 1000.
> 
> C'est pour çà que çà n'a pas de crédibilité : soit la personne qui a fait ce
> tableau ne comprend rien aux statistiques (et dans ce cas on peut se poser
> des questions sur la manière dont les données sont obtenues), soit elle
> comprend comment çà marche et a choisi de publier des données sans
> relevance, ce qui est pire.
> 
> Michel.

Vu le succès backblaze depuis 2011 qui est basé en partie sur une 
interprétation correcte du taux de panne pour faire les bons choix, il semble 
clair qu'ils comprennent ce qu'ils font et qu'ils n'ont pas de problème de 
relevance dans leur interprétation des données en tableau (une fois encore si 
tu n'es pas satisfait de leur interprétation tu peux télécharger les données 
et faire ta propre interprétation avec tes propres critères).

Comme je l'ai expliqué précédemment, pour backblaze il est crucial de faire 
apparaître dans leur tableau les disques à partir de 45, leur modèle 
économique étant basé sur fabriquer leur propre solution à partir de disques 
grand public pour proposer un tarif largement en dessous de la concurrence (5$ 
mensuel avec espace disque illimité).

<<
Why do we have the drives we have? Basically, we buy the least expensive 
drives that will work. When a new drive comes on the market that looks like it 
would work, and the price is good, we test a pod full and see how they 
perform. The new drives go through initial setup tests, a stress test, and 
then a couple weeks in production. (A couple of weeks is enough to fill the 
pod with data.) If things still look good, that drive goes on the buy list. 
When the price is right, we buy it.

We are willing to spend a little bit more on drives that are reliable, because 
it costs money to replace a drive. We are not willing to spend a lot more, 
though.
<<

Pour ça il est vital de filtrer les modèles de disques qui ne sont pas adaptés 
à l'usage qu'ils veulent en faire, une approche basée sur la pratique dans le 
monde réél afin de s'éviter les cas qu'ils ont pu rencontrer notamment avec 
les Western Digital Green et les Seagate LP.

Je cite:
<<
Excluded Drives

Some drives just don’t work in the Backblaze environment. We have not included 
them in this study. It wouldn’t be fair to call a drive “bad” if it’s just not 
suited for the environment it’s put into.

The drives that just don’t work in our environment are Western Digital Green 
3TB drives and Seagate LP (low power) 2TB drives. Both of these drives start 
accumulating errors as soon as they are put into production. We think this is 
related to vibration. The drives do somewhat better in the new low-vibration 
Backblaze Storage Pod, but still not well enough.
<<

C'est aussi parce qu'ils prennent en compte les taux de pannes dès 45 disques 
qu'ils ont pu détecter que le type de suspension du transport utilisé pour 
livrer les pods en data center était cause de mort prématurée de certains 
disques. 

<<
Once the burn in phase is done, the Storage Pods are packaged up and shipped 
to a Backblaze data center. Whenever possible, we utilize a Ford Transit to 
transport the Storage Pods as the car-like suspension of the Transit makes for 
a smooth ride. The only trouble is that some data centers only have loading 
docks that are built to load/unload semi-trucks and Ford Transits are not 
loading dock height. Since Storage Pods weigh about 150 lbs each lifting them 
to loading dock height is real work. When we can’t use a Ford Transit, we 
prefer air ride suspension trucks versus trucks with just leaf springs. Maybe 
it’s just the condition of our highways here in the USA, but Storage Pods 
shipped on trucks with just leaf springs failed the load testing phase 
(described next) more often than those Storage Pods treated to the air ride 
experience.
<<

Après on pourrait parler de ces 1045 et 1220 disques qui ont accumulés moins 
de 500 000 drive days ou de ces 1500 disques avec 2,3 Millions de drive days 
par rapport 67 disques avec 4,5 Millions de drive days au compteur.
Parce que si c'est en prod et qu'il y en au moins 45 alors c'est dans le 
tableau, peu importe si c'est un modèle qui vient d'être ajouté par milliers 
ou si ce sont les derniers survivants d'un modèle qui est en prod depuis des 
années.

En faitfaut juste être capable de comprendre que le tableau publié est relatif 
à Backblaze pour leur usage dans leur contexte et qu'il n'a nullement vocation 
à être la référence absolue, c'est juste une boite qui fait du stockage de 
données pour pas cher qui partage ses données parce que ça pourrait être utile 
à quelqu'un. D'ailleurs il y a plein de choses qui manquent dans cette version 
du tableau qui sont dans les données comme l'âge du disque qui impacte 
énormément le taux de panne (voir https://www.backblaze.com/blog/wp-content/
uploads/2013/11/blog-drivestats-3-lifecycles.jpg ), les 

Même si ils le reconnaissent, il manque une donnée importante pour permettre 
de prendre des décisions basées sur ces donnée: le prix.

<<
> Do BB publish pricing of what they paid for drives? ... a TB/$/Failure rate

Thank you, that is EXACTLY the correct way to look at the failure statistics! 
So many people seem to sort the list by failure rate and think no matter what 
the cost, the lowest failure rate wins. For Backblaze, we just feed it back 
into the cost calculation. For example:

If a drive fails 1% more often but is 2% cheaper in total cost of ownership, 
we buy that drive. Now, total cost of ownership includes the physical space 
rental so more dense drives can be more expensive per TByte in raw drive cost 
because we can make some of that back up in physical space rental. Also, most 
drives seem to take about the same amount of electricity unrelated to how many 
TBytes are contained inside, so double the drive density is like saying it 
takes half as much electricity over its 4 - 5 year lifespan. Electricity is 
one of our largest datacenter costs, so we keep an eye on that also.
<<

Voila, maintenant tu peux continuer d'ignorer backblaze et de croire que c'est 
une bande d'incompétents qui publie des interprétations faussées pour le 
compte de fabricants peu scrupuleux et aller chercher ailleurs d'autres 
informations plus fiables.

Bonne continuation




---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/

Répondre à