Hvorfor jeg ikke scorer

For altfor lenge siden det spurt i en kommentar om hvorfor jeg ikke poengsetter ølene jeg smaker og beskriver. Jeg lovet dengang å komme tilbake til spørsmålet. Den dårlige samvittigheten min har ruget på saken siden, fordi jeg ikke har sett meg tid til å blogge om det. Nåvel, jeg har nå fått krotet ned noe om hvorfor og hvordan.

En av de vanskelige valgene man må ta, når man skal poengsette øl ved smaking, er å blinke ut ett av poengsystemene. Det finnes flere av dem, og variasjonene er så små at de nesten er like, men likevel så store at de ikke er ombyttbare. Noen av dem er:

RateBeer.com: Inntil 50 poeng i tilsammen fem ulike kategorier, 1-5 poeng for «appearance», 1-10 poeng for «aroma», 1-10 poeng for «flavor», og 1-5 poeng for «palate». Til slutt kan man gi 1-20 poeng som en personlig vurdering under «overall». Kategoriene summeres og totalen deles på 10. For ett år siden hadde de over 1M kritikker av 59k ulike øl.
Beer Advocate: Gir fra 1.0 til 5.0 poeng (halvpoeng er mulig) i hvert av følgende fem kategorier: «appearance», «smell», «taste», «mouthfeel» og «drinkability». Poengene blir så vektet slik at «taste» teller dobbelt så mye som hver av «appearance» og «smell», som igjen hver teller dobbelt så mye som «mouthfeel» og «drinkability». Dette webstedet har 537k kritikker av 38k ulike øl.
Ølguruen Charlie Papazian foreslår et annet system i sin bok om hjemmebrygging: «Aroma/bouquet» er 1-10 poeng; «appearance» er 1-6 poeng; «flavor» er 1-19 poeng; «body» er 1-5 poeng; og «drinkability» eller «overall impression» er 1-10 poeng, og her har de tre første kategoriene 3-6 underpunkter som hver får 2-4 poeng. Tilsammen blir det veldig mange punkter som skal bedømmes.
BeerPal har kategoriene «aroma», «appearance», «mouthfeel», «flavor» og «overall», som hver gir en poengdelsum på 1-10 poeng, og totalen deles på 10. Dette webstedet har ca 82k kritikker av ca 26k øl.
American Homebrewers' Association og deres BCJP program bruker et skjema der «aroma» er 1-12 poeng; «appearance» er 1-3 poeng; «flavor» er 1-20 poeng; «mouthfeel» er 1-5 poeng; og «overall impression» er 1-10 poeng.

Hvilke problemer har jeg så med disse nært beslektede systemet utover problemet med å samle meg om ett av dem?

Skalaene måler ikke alltid det samme. For eksempel er «flavor» hos RateBeer begrenset til det som tungen har sensorer for (søtt, salt, surt og bittert), mens hos BeerAdvocate er «taste» tilsynelatende totaliteten av sanseinntrykk når man drikker av ølet. Dette er kanskje medvirkende til at BeerAdvocate vektlegger «flavor» dobbelt så mye som «smell», mens RateBeer vekter «aroma» og «flavor» like mye. Én ting er at de divergerer i tolkningen, noe annet er at mange ikke er klar over skillet mellom lukt og smak.
Selv om man ser bort ifra at kategoriene ikke er identiske, så er konvertering mellom skalaene ikke trivielt. Noen eksempler: hva blir 3 på en 1-5-skala konvert til en 1-10-skala? Det er ikke 6, men 5,5 - tegn skalaene opp overlappende og sjekk selv. Hva blir 7 på en 0-10-skala når det konverteres til en 0-5-skala? Blir det 3, 4 eller 3,5? Er konverteringene symmetriske, dvs gir konvertering både frem og tilbake den opprinnelige verdien? En konsekvens er at om du poengsetter i ett system, så er dataene egentlig låst til det systemet.
Jeg liker ikke at dataene mine lever på andres nåde. Selv om det neppe skjer, så er det ingenting i veien for at administratorene på de store webstedene for rangering av øl over natten kan slette alt en har gjort. Jussen i brukeravtalen er jo på plass. Joda, jeg vet at det neppe blir et problem, og jeg kunne sette opp noe for å ta backup, osv. Men jeg liker det ikke helt.
Brukeravtalene for webstedene er formulert temmelig bekvemt for eierne med hensyn på kommersiell utnyttelse. Det blir neppe noensinne noe reelt problem, og opprinnelig forfatter gis normalt full rett til å bruke eget materiale i andre sammenhenger. Likevel ... brukerbetingelsene kan vanligvis endres når som helst og uten varsel. Det er ikke at jeg ikke vil dele dataene mine med andre, for jeg kunne godt ha akseptert en åpen lisens som gjorde alles data symmetrisk og fritt tilgjengelige for alle.
Alle bortsett fra BeerAdvocate og BeerPal er unødig kompliserte ved at man må forholde seg til flere skalaer samtidig. Derfor må du ha et mentalt bilde av tre skalaer samtidig når du skal poengsette i et delt system med f.eks en 1-5, en 1-10 og en 1-20-skala.
Hvordan poengsetter man et lytefritt øl, la oss anta et aspekt av en pilsner som er helt perfekt ut fra hvordan spesifikasjonene til øltypen sier at den skal være. La oss videre anta en 1-5-skala. Skal man gi ølet 5 poeng fordi det er lytefritt, eller skal man gi det 3 poeng (dvs midt på treet) siden det er en helt vanlig og normal pilsner? Jeg tror det er den første tilnærmingen som er korrekt, mens jeg tror det oftere er den andre tilnærmingen som følges. Hvordan skiller man egentlig mellom et øl som mangler feil og et øl som er bedre enn feilfritt? Enten har ølet en korrekt farge for sin type, og hvordan kan det da gis enda høyere poengsum?
Høy poengsum er ingen garanti for at ølet er godt. Hvis den perfekte pilsneren får 50 poeng, hvor høyt kan en annen pilsner komme om den er helt lik, bortsett fra at den er mørkegrønn og tåkete? Strengt tatt er det bare innen «appearance» og «overall» man da kan trekke, og denne bastarden skulle få en svært respektabel poengsum på rundt 30-40 poeng.
Det er meningen at den siste delkarakteren (drinkability) skal være en subjektiv vurdering, mens de øvrige skal være objektive vurderinger. Man skal altså spørre seg: var aroma for dette ølet i tråd med øltypen? Det er først ved siste delkarakter at man skal spørre seg «likte jeg dette ølet». Dessverre er det nok mange som vurderer subjektivt på alle fem delkarakterer, og det dreier poengsettingen fra en kvalitetsvurdering til en popularitetskonkurranse.
En rekke systematiske feilkilder til rangering av øl er listet i «The Flavor of Beer» av Morten Meilgaard. Det er slikt som at man nedvurderer et middels øl etter et godt, man oppvurderer de øvrige atributtene til et øl dersom én attributt er godt over middels.
Er det egentlig mulig å si noe om ølet etter én smaking - en smaking som kanskje er et minimalt volum eller fra en flaske som har reist langt og vært tvilsomt lagret. Hva om et øl smakes som den førtiende deciliterstore smaksprøven på en kveld, er det grunnlag for å si noe fornuftig om ølet? Hva om man har fått en dårlig flaske, og hvordan vet man at det ikke er tilfelle uten å ha smakt ølet ved flere anledninger?

Så langt er det ingen showstoppere, for ingen av innvendingene over burde hindre meg fra å rangere øl. Jeg kunne med en overbærende mine rangere «riktig» på tross av alle som gjør det «feil», og jeg kunne omgå de praktiske problemene med litt planlegging og omtanke. Men dette er ikke de eneste problemene jeg har med poengsetting, de tre neste innvendingene er hva som egentlig holder meg fra det.

Først er det grunnidéen om at et øl skal og bør og må tilhøre en øltype. Det er noe som jeg tror kommer fra USA, og det er egentlig høyst ironisk siden USA også er arnestedet for dagens impulser rundt cross-over-øl og ekstrem-øl, som begge deler sprenger konseptet med øltype. I den gamle verden har man nok hatt øltyper, men de har aldri på samme måte vært dikterende, bare et hjelpemiddel, eller brukt for beskatning. Og om man ikke setter øltyperiet i førersetet, så kollapser tanken om å bedømme ølets attributter iht typen sin. Jeg er ikke imot at man har øltyper, men enten må man ha øltyper og seriøst bruke dem, eller så må man se bort fra dem og vurdere etter en ren hedonistisk skala.
Dernest har jeg problemer med tanken om at en kvalitetsvurdering av øl kan komprimeres til en en-dimensjonal rangering. Det gjør det selvfølgelig lettere å generere uoverkommelige mengder med statistikk - men kvaliteten på statistikken er neppe bedre enn kvaliteten på rådataene (eller garbage-in-garbage-out som vi sier i dataverdenen). For meg er og blir det en overforenkling å tro at ølets kvalitet kan reduseres til enkle fem tallverdier.
Det siste problemet er at smaken er delt, og at det som én liker, misliker en annen. Det er faktisk noe så grunnleggende at vi oppfatter smaker forskjellig og har ulike persepsjonsterskler. Til en viss grad kan sansene trenes opp, men bare til en viss grad. Magni klarer f.eks ikke å smake røyk, og får derfor et helt annet smaksbilde av skotsk whisky og stjørdalsøl enn det jeg får. Et øl blir ikke middels godt ved at noen elsker og andre hater det.

Summa sumarum - jeg er for beskrivelser og bedømminger, men jeg tviler på om det er meningsfullt å bedømme og rangere på den måten og med de skalaene som RateBeer, BeerAdvocate og andre bruker. AHA og andre organisasjoner for hjemmebryggere gjør dette ifm konkurranser, men dette fordrer omfattende kvalitetssikring av dommerne for å sikre meningsfull dømming - noe de faktisk gjør. Ettersom poenggiving er obligatorisk når man beskriver øl på webstedene, så har jeg heller valgt å la være der å beskrive ølene jeg smaker.

Jeg skriver stort sett ned i min notatbok for personlig bruk, og sjeldent mer. Og selv dét har jeg i det siste begynt å slurve med, for jeg hopper over enkelte øl. Dessuten har jeg begynt å beskrive øl jeg smaker på gruppa 365beer i LiveJournal - slik Magni gjorde gjennom hele 2007. Der er rangering ikke obligatorisk. Vi får se om jeg kommer i mål gjennom hele året.