Benchmarks: què és? ¿Per a què serveix? història, tipus i consells

Taula de continguts:

història
Tipus de benchmarks
Consideracions a l'hora de realitzar un benchmark
conclusió

Els benchmarks són part essencial de les nostres anàlisis de maquinari diari, ens permeten oferir-vos un mesurament científicament comparable entre diferents components com CPU, targetes gràfiques, unitats d'emmagatzematge, etc. Avui dedicarem algunes línies a la seva història, als seus tipus, com funcionen, que mesuren, quines són les mesures més habituals i també us donarem alguns consells de com realitzar-vos i de quins hem de fiar-nos.

El que coneixem avui en el món de el PC o dels mòbils com benchmarks són tècniques heretades de l'entorn industrial que han permès, des de l'inici d'aquesta revolució, la presa de decisions en base a dades comparables en un entorn controlat.

El món de la informàtica moderna aplica aquestes tècniques a gairebé qualsevol dels seus molts i diferents àmbits i els usuaris domèstics també els hem adoptat com una forma fiable de conèixer el rendiment i les capacitats dels nostres sistemes així com un punt important d'informació a l'hora de prendre decisions importants, com la compra del nostre nou ordinador, telèfon mòbil, targeta gràfica, etc..

Avui us parlarem de la història dels benchmarks de PC, els tipus de benchmarks que existeixen i que components del nostre sistema són més adequats per a aquest tipus de proves que no només són de rendiment.

Índex de continguts

història

El benchmark o sistema de mesurament aplica un entorn controlat i mesures recognoscibles que siguin comparables i contrastables de forma científica i porta coexistint amb el món de l'ordinador des que aquest existeix. El benchmark, com a tal, s'ha democratitzat fins al punt que s'ha perdut part de la seva essència fonamental que és que pugui ser auditable i verificable per tercers. Ara el fem servir més a manera de comparativa ràpida de rendiment, però certament s'ha perdut en bona mesura la capacitat de traçabilitat de la seva veracitat per tercers.

Els mètodes més clàssics de benchmark sempre s'han referit a la capacitat de còmput de la CPU de sistema, encara que en els últims temps ha variat entre diferents components segons aquests han guanyat preponderància i importància dins d'un ordinador.

Les dues unitats de mesura més clàssiques, que es segueixen aplicant són els Dhrystones i els Whetstones. Tots dos s'han convertit, d'alguna manera, a la base de tots els benchmarks sintètics que coneixem avui dia.

El més antic és Whetstones (una localitat de el regne unit on es localitzava la divisió d'energia atòmica de l'empresa elèctrica estatal del Regne Unit) i Dhrystone va sorgir després jugant amb el nom de el primer (humit i sec).

El primer es va dissenyar en els anys 70 i el segon és ja dels anys 80 i tots dos són la base de comparativa de rendiment que hem tingut en successius anys. Whetstones, simplificant, oferia una visió de la potència de càlcul de l'processador en operacions amb coma flotant, operacions amb gran nombre de decimals.

El Dhrystone és la seva contrapartida ja que es dedica a instruccions bàsiques sense decimals, tots dos donaven una imatge clara de l'rendiment d'un processador des de dues aproximacions completament diferents, però complementàries. El Whetstones i el Dhrystone van derivar en dos conceptes que fem servir de forma molt més habitual avui en dia, el MIPS i el FLOP.

Després d'aquestes mesures van arribar altres com el FLOP (Floating-point Arithmetic - Aritmètica de coma flotant) que és, en bona mesura, mes important ara en un ordinador que el que ha estat mai perquè és la base de càlcul avançat en moltes tècniques modernes com algoritmes d'intel·ligència artificial, metges, previsió meteorològica, lògica difusa, encriptació, etc.

LINPACK va ser desenvolupat per l'enginyer Jack Dongarra en els anys 80 i segueix usant-se avui dia per mesurar la capacitat de còmput en coma flotant de tot tipus de sistemes. Actualment hi ha versions optimitzades per arquitectura, fabricant de CPU, etc.

Els FLOPS omplen els nostres articles sobre targetes gràfiques (segur que us sona la precisió simple o doble), processadors i són la base de càlcul de requeriments de potència i desenvolupament de maquinari per a qualsevol supercomputador que està en funcionament o desenvolupament.

El FLOP és a dia d'avui la unitat de mesura de rendiment més requerida en la indústria, però sempre s'ha combinat amb els MIPS (Milions d'instruccions per segon) que és una mesura interessant de mesurament, ja que ens dóna el nombre d'instruccions bàsiques d'aritmètica que un processador pot realitzar per segon, però que depèn més de l'arquitectura de l'processador (ARM, RISC, x86, etc.) i de el llenguatge de programació que altres unitats de mesura.

Segons ha avançat el rendiment dels multiplicadors s'han succeït. Ara mesurem el rendiment de CPU domèstiques en GIPS i GFLOPS. La base segueix sent la mateixa, operacions aritmètiques clàssiques. Sisoft Sandra ens segueix oferint aquest tipus de mesures en alguns dels seus benchmarks sintètics.

El MIPS ha quedat també més relegat a la CPU com a element clàssic i el FLOP s'ha estès a altres àmbits puixants com la capacitat de procés o càlcul general de abans processadors molt orientats a tasques concretes com les GPU que vam muntar tots en els nostres processadors oa les nostres targetes d'ampliació dedicada.

A aquests conceptes bàsics el temps ha anat afegint noves unitats de mesura tant o més importants que aquestes en un ordinador o superordinador modern. El trànsit de dades és una d'aquestes mesures que han cobrat gran importància i que mesurem actualment en IOPS (operacions d'entrada i sortida per segon) i també en altres formes com a mesures d'emmagatzematge MB / GB / TB comparades amb el temps que triguen a realitzar el trànsit d'un punt a un altre (MBps - megabytes per segon).

AS-SSD pot mesurar-nos el rendiment d'un disc dur en MBps o en IOPS.

Actualment també fem servir la mesura transfer, en les seves diferents multiplicadors, com a forma d'interpretar la velocitat de trànsit d'informació entre dos punts quan per emetre certa informació en realitat hem d'haver generat una mica més d'informació. Això depèn, de el protocol que s'usi per a la transferència d'informació.

Un exemple clar, i que fem servir molt, és en la interfície PCI Express. Sota aquest protocol, per cada 8 bits d'informació que volem moure (0 o 1s) hem de generar 10Bits d'informació ja que aquesta informació extra és de control de la comunicació que s'envia per correcció d'errors, integritat de les dades, etc.

Altres protocols molt coneguts que introdueixen també està "perduda" d'informació real és l'IP, el que aquestes fent servir per llegir aquest article i que fa que la teva connexió de 300mt / s en realitat ofereixi una mica menys de 300Mbps de velocitat.

Fem servir, per tant, el Gigatransfer o el transfer quan ens referim a informació bruta enviada pel interfície, i no a la informació que realment es processa en el receptor. Un Bus de dades PCI Express 3.0 de 8GT / s en realitat està enviant 6.4GBps d'informació per cada línia connectada entre els punts. El Transfer ha pres molta importància amb la integració de l'protocol PCI Express a tots els busos principals d'un ordinador domèstic i professionals.

En els últims temps també vam començar a combinar mesures com a forma de relacionar la potència de procés amb altres factors molt importants en la informàtica moderna sent el consum d'aquestes mesures que s'introdueixen com a barem de comparació entre el rendiment de dos sistemes. L'eficiència energètica és tant o més important a dia d'avui que la potència de procés i per això és fàcil veure benchmarks que comparen la potència de procés segons els watts de consum de l'element en mesurament.

De fet, una de les grans llistes de supercomputadors no fa referència tant a la potència bruta de l'ordinador entre tots els seus nodes de computació sinó en el desenvolupament d'aquesta potència en base als watts o energia consumida per tot el sistema. La llista Green500 (FLOPS per watt - FLOPS per watt) és un clar exemple de com el consum ara és bàsic per a qualsevol benchmark comparatiu que es preï, encara que sens dubte tots seguim fixant-nos molt en la llista TOP500 que no té aquest factor com a condicionant.

Tipus de benchmarks

Encara que podem parlar de moltes més famílies o tipus de benchmarks jo simplificaré la llista en les dues classes més habituals de quants ens queden més a prop de tots com a usuaris més o menys avançats.

D'una banda, tenim els benchmarks sintètics que són en bona mesura aquests que ens ofereixen mesures de les que hem parlat abans. Els benchmarks sintètics són programes que fan proves controlades amb un codi de programa més o menys estable i orientat per una plataforma i arquitectures particulars. Són programes que realitzen test molt concrets que poden integrar un o diversos dels nostres components, però on sempre es realitza la mateixa prova o proves, sense canvis en elles.

La renderització d'imatge sempre ha estat un bon mètode de conèixer el rendiment d'una CPU en un sistema modern ja que és una tasca exigent. Cinebench R15 té també diversos test, un per GPU i dos per CPU, on podem conèixer el rendiment de sistemes amb múltiples nuclis i fils de procés.

Ofereixen un entorn controlat de prova, on no hi ha canvis excepte en versions i on aquests canvis es documenten adequadament perquè l'usuari sàpiga que versions pot comparar entre si. Aquest tipus de programes poden provar diferents subsistemes del nostre ordinador de forma separada, amb altres trossos de codi o benchmarks específics per a realitzar cert tipus de prova, o combinats que es poden veure afectats pel rendiment d'un, dos o més components de sistema. El benchmark integrat en un joc, o programes com Cinebench, Sisoft Sandra, SuperPi, 3DMark,… són clars exemples de benchmarks sintètics.

Altres benchmarks sintètics que no hem de confondre amb benchmarks reals són aquells que simulen l'execució de programes reals, o que executen scripts d'acció en programes reals, són també sintètics ja que no hi ha aleatorietat en la prova, PC Mark és un clar exemple d'un programa de benchmark sintètic que podem confondre amb un benchmark real.

El benchmark real és un mètode de prova molt diferent perquè accepta l'aleatorietat d'ús d'un programa per mesurar el seu rendiment. Els jugadors estem habituats a realitzar aquest tipus de benchmarks o prova de rendiment quan ajustem els paràmetres de qualitat d'un joc a les possibilitats del nostre maquinari.

Mesurar el rendiment d'un joc, mentre jugues, és un benchmark real.

Quan obres els FPS que està donant el joc i intentes aconseguir els desitjats 60FPS de manera continuada llavors estan realitzant un benchmark real. Això mateix ho podem extrapolar a qualsevol altre tipus de programa i si ets desenvolupador, quan optimitzes el codi del teu programa, llavors també estàs fent proves de benchmark real on el que canvia és el teu codi, o la forma d'executar-lo, sobre una plataforma de maquinari estable o variable.

Tots dos tipus de benchmarks són importants, els primers ens permeten comparar el nostre sistema amb altres en un entorn controlat i els segons són una forma d'optimitzar el nostre funcionament on s'afegeixen també dos factors importants, l'aleatorietat en l'execució i el factor humà. Tots dos factors ofereixen un punt de vista addicional sobre el rendiment de l'component o components que volem provar.

Consideracions a l'hora de realitzar un benchmark

Perquè un benchmark sigui útil i efectiu hem de tenir en compte certs factors que són realment importants. Comparar entre plataformes i arquitectures diferents introdueix un factor d'incertesa important pel que aquest tipus de benchmarks que s'atorguen la capacitat per comparar telèfons mòbils iOS amb ordinadors x86 amb Windows, per posar un exemple, cal agafar-los amb pinces ja que no només canvia el nucli de sistema operatiu, sinó que les arquitectures dels processadors són molt diferents. Els desenvolupadors d'aquest tipus de benchmarks (per exemple, Geekbench) introdueixen factors de correcció entre els seus diferents versions que difícilment són controlables.

Per tant, la primera clau perquè un benchmark sigui comparable entre diferent maquinari és que l'ecosistema de la prova sigui el més similar possible a nivell de plataforma, sistema operatiu, controladors i versió de programari de l'benchmark. Certament hi haurà elements aquí que no puguem controlar homogeneïtzar, com el controlador de gràfics si provem gràfiques AMD contra gràfiques Nvidia, però la resta hem d'intentar tenir-ho el més estable possible. En aquest cas també inclouríem maquinari ja que per comparar targetes gràfiques el seu és fer servir el mateix sistema operatiu, el mateix processador, les mateixes memòries i tots els paràmetres de funcionament mantenir igual, inclosos els paràmetres de qualitat, resolució i prova en el benchmark. Com més estable sigui el nostre ecosistema de prova, més fiables i comparables seran els nostres resultats.

Et recomanem la lectura Com saber si el meu processador té coll d'ampolla?

Una altra cosa que hem de tenir en compte és que normalment les proves de benchmark tenen un factor d'estrès sobre el maquinari que anem a provar i normalment sotmeten a aquest maquinari a situacions que no es donaran habitualment en l'ús normal de sistema. Cada benchmark que vam treure del nostre disc dur, targeta gràfica o processador, els sotmet a situacions que poden ser perilloses per al maquinari de manera que hem d'establir les mesures adequades perquè el punt d'estrès no es converteixi en un punt de fractura o també en un element de reducció de rendiment ja que molts components tenen sistemes de protecció amb els que redueixen el seu rendiment en cas, per exemple, de temperatures fora del seu rang d'ús. Refrigeració adequada, períodes de repòs entre proves, alimentació correcta dels components en prova… tot ha d'estar en una situació ideal perquè la prova es realitzi sense problemes.

D'altra banda també fem servir precisament aquest tipus de benchmarks a manera de sotmetre a el sistema a estrès per veure l'estabilitat de la mateixa en aquest tipus de situacions, és una forma diferent d'aplicar un benchmark ja que no només es busca conèixer el rendiment sinó també si el sistema és estable i encara més, si el sistema rendeix com deu en aquestes situacions d'estrès.

conclusió

Per als que ens dediquem a provar maquinari d'ordinador professionalment el benchmark és una eina de treball i gràcies a ella els usuaris tenim una forma científica i contrastable de poder comparar o conèixer el rendiment del nostre proper ordinador en cadascun dels seus subsistemes amb una precisió comparable amb les eines que es fan servir a nivell industrial.

Una taula de proves, com la que veieu a la imatge, busca precisament estandarditzar el mètode de prova, perquè el benchmark comparatiu sigui el més fiable possible i sigui contrastable quan s'introdueixen variacions que modifiquen els resultats.

Però com tota prova de "laboratori" perquè aquesta sigui fiable han de donar-se les condicions adequades per a la seva consecució i més encara perquè aquesta sigui comparable entre diferents sistemes.

Avui us hem parlat una mica de la història d'aquest tipus de programes, de les seves diferents tipus, com funcionen i com treure'n informació fiable. Són útils, però per a mi no són més que una dada més a tenir en compte i el situaria sempre per darrere de l'experiència personal i de la prova activa amb programes reals que farem servir en el dia a dia.

Un benchmarks està bé per posar uns mínims dades de rendiment en el nostre procés de decisió, però no han de ser definitoris d'aquestes decisions i, com a últim consell, fugiu dels benchmarks sintètics que presumeixen de poder comparar rendiments entre arquitectures, sistemes operatius, etc.

Taula de continguts:

història

Tipus de benchmarks

Consideracions a l'hora de realitzar un benchmark

conclusió

Selecció de l'editor