Att göra blindtest

Blinda lyssningstest är ett av vetenskapens sätt att objektivisera det subjektiva hörintrycket. Som lyssnare tvingas man enbart med ljudets hjälp avge ett svar, alla andra ledtrådar är bortkopplade. Att blindtesta är att tvivla på den som påstår att det finns en skillnad i ljudet och kräva bevis.

Syftet med den här artikeln är att göra blindtestande och statistiken bakom det någorlunda begriplig samt att peka på de vanligaste misstagen. Egentligen vill jag avdramatisera blindtestande, men jag vet inte om jag kommer att lyckas med det. Det finns ganska många saker som kan gå fel i ett blindtest, både med testutrustningen och hur man behandlar data statistiskt. Hursomhelst så vill jag uppmana alla att prova på blindtestande någon gång. Det kan vara en ganska omvälvande upplevelse. För den som vill göra det lite mer seriöst hoppas jag att den här artikeln kan vara en vägledning.

Varför inte mäta

Först och främst kan man ju fråga sig om inte vetenskapen har kommit så långt att vi inte behöver lyssningstester, vet man inte vad som örat förmår uppfatta? Jag blir ibland kontaktad av folk som undrar om det verkligen finns någon hörbar skillnad mellan X och Y, man borde ju helt enkelt kunna mäta om det finns några skillnader. Finns det verkliga skillnader så måste de ju finnas där i signalen. Det är visserligen sant, men eftersom mätinstumenten i många avseenden är bättre på att upptäcka skillnader än hörseln så måste vi i sådana fall fastlägga en gräns som skillnaden måste överstiga för att den ska vara hörbar. I stor utsträckning går detta att göra, men mätningar kan ändå alltid kritiseras; man kan ju ha glömt någon aspekt som är viktig för det slutliga hörbara resultatet. Det räcker tex inte enbart med att mäta tonkurva, kanske bidrar även distorsionen till en hörbar skillnad, och vilken distorsionstyp är egentligen rätt att mäta? Beter sig apparaten olika med musik och sinustoner? Lösningen blir att använda örat som mätinstrument, för egentligen är det ju hörintrycket vi är ute efter. Det är ju bara att lyssna, för finns det en hörbar skillnad, så hörs den ju. Eller?

Varför inte lyssna öppet

Hörseln är ett ganska svagt sinne. Det betyder att om vi får andra intryck än de från hörseln så har vi inte alltid förmåga att skilja hörselintrycken ifrån de övriga. Vad värre är är att vi inte alltid är medvetna om att det är så. Den som tvivlar kan studera McGurk-effekten[1], i vilken ljud och bild från en videofilmad person som säger en nonsensstavelse (tex baba gaga dada) inte stämmer överens. Vi luras att tro att ljudet låter annorlunda bara för att vi ser talarens läppar säga något som inte stämmer med det ljud som verkligen hörs. Exemplet är förstås konstruerat, men visar att hörintrycket kan påverkas av andra intryck, i detta fall synen.

Detta, att vår upplevelse av ljud påverkas av annat än själva ljudet är huvudanledningen till att man bör utföra lyssningstester blint. Blindtestning innebär att lyssnaren får i uppgift skilja ljuden ifrån varandra utan att få några som helst andra ledtrådar än själva ljudet. Det får inte finnas några andra sinnesintryck som skvallrar om vilket svar som är rätt. Sådana andra intryck kan vara att se vad som är inkopplat, inkopplingsljud när objekten växlas eller försöksledarens ansiktsuttryck. Ibland säger man att testet ska vara dubbelblint, dvs att inte heller försöksledaren ska känna till vilket objekt som är inkopplat. Om möjligt ska valet av lyssningsobjekt styras av en specialkonstruerad apparat som inte avslöjar sanningen förrän lyssnaren har avgett sitt svar.

Väljer man i stället att göra testerna öppet ska man vara medveten om att det är hela situationen som bedöms. Resultatet av en sådan jämförelse blir mycket mindre intressant eftersom det är snudd på omöjligt att veta vilka parametrar som har påverkat resultatet.

A/B eller F/E

Om man gör ett lyssningstest där man jämför två signaler med varandra så kallar man testet för ett A/B-test. Gör man testet blint kan det dels tala om huruvida det föreligger en hörbar skillnad mellan de två och hittar man en skillnad, kan man säga med vetenskaplig säkerhet att skillnaden finns. Om man hittar en skillnad kan också blindtestet användas för att värdera skillnaden som hörs. Om lyssnaren görs helt omedveten om vilka saker som jämförs, så kan man få ett subjektivt omdöme om ljudskillnaden som är ofärgat av apparaternas märke, utseende, pris, etc.

De två sakerna man jämför kan antingen vara två olika apparater, eller så kan man jämföra signalen in i en apparat med den som kommer ur den. Den andra typen har fått ett eget namn; före/efter-test, eller för att vara extra tydlig om att det jämförelsen görs medelst lyssning, så kallas det före/efter-lyssning, F/E-lyssning.

Hur går ett blindtest till

Ett blindtest kan utföras genom att lyssnaren har en omkopplare i sin hand som används för att växla mellan signalerna. Testapparaturen ser till att lyssnaren inte vet vilket omkopplarläge som motsvarar vad. Uppgiften är att tala om vilket av lägena som motsvarar vad enbart genom att lyssna på ljudet. Lyssnaren är fri att växla så många gånger han vill och när han tror sig känna igen omkopplarlägena så ger han ett svar. Därefter kontrollerar man om svaret var rätt eller fel och antecknar det. Därefter slumpar testutrustningen lägena, så att man på nytt inte vet vilket läge på omkopplaren som motsvarar vad och man försöker återigen tala om vilket läge som motsvarar vad. Figur 1 visar hur testutrustningen kan konstrueras.

Även om snabba växlingar mellan omkopplarlägena är det vanligaste så behöver inte växlingarna ske ofta. Man behöver inte ens ha en omkopplare eller speciell testapparatur med slumpgenerering för att lyssningstestet ska räknas som blint. Det går bra att låta en kamrat byta testobjekt om man bara eliminerar möjligheten till informationsutbyte mellan kamraten och lyssnaren.


 

(a)

 

 

(b)

 

(c)

Figur 1. Olika utrustningar för lyssningstest. Bild (a) visar hur en omkopplare används för att växla mellan lyssningsobjekt X och Y. Bild (b) visar hur omkopplaren kan kompletteras med en slumpgenerator som gör lyssningstestet blint. Ingen känner till vilket omkopplarläge som motsvarar A resp B förrän efter avgivet svar. Bild (c) visar en utrustning för blind  F/E-lyssning.

Vilka apparater kan testas

Egentligen kan alla delar i ljudåtergivningskedjan blindtestas. Olika apparater ställer dock aningen olika krav på testsituationen och vissa är svårare än andra att utföra:

·        Förförstärkare är förmodligen enklast av alla att testa och de testas lämpligen med F/E-lyssning. Eftersom både signalen in och ut är elektrisk spänning, så kan man enkelt se till att signalen före och efter förstärkaren får samma nivå och utföra lyssningen. Man kan förstås också jämföra två försteg med varandra, men oftast är det mer värdefullt att få ett omdöme per apparat än att få ett omdöme per apparatpar. Om man F/E-lyssnar ett RIAA-steg måste det förses med ett anti-RIAA, lämpligen på ingången.

·        Effektförstärkare kan testas på samma sätt som förförstärkare, men en komplicerande faktor är att effektförstärkare normalt belastas med en högtalare, som kan påverka signalen som kommer ur förstärkaren. Förstärkaren bör därför F/E-lyssnas med en konstlast som härmar en typisk högtalares elektriska impedans.

·        Högtalare är svåra att F/E-lyssna eftersom ljudet måste tas upp av en mikrofon för att föra tillbaka det till en elektrisk signal och även om mikrofoner som regel är bättre än högtalare så är de inte perfekta. Vidare påverkar eventuell rumsakustik signalen innan den når mikrofonen. Kedjan högtalare-rum-mikrofon har mig veterligen aldrig klarat en seriös F/E-lyssning, det går alltid att detektera en skillnad om kringutrustningen är någorlunda bra. Högtalare kan också med fördel testas genom att jämföra två par i ett mörklagt rum eller bakom ett akustiskt transparent draperi i en A/B-lyssning för att få fram lyssnarnas preferenser. Fördelen jämfört med F/E-lyssning är att man slipper påverkan av ett extra rum och mikrofonen. Ett problem som uppstår är dock att de två paren inte kan placeras i samma fysiska punkt i rummet. Ljudbilden kommer alltså att flyttas när man växlar mellan paren, vilket gör det lämpligt att ibland byta plats på högtalarparen efter avgivet svar.

·        Mikrofoner är om möjligt ännu svårare än högtalare att F/E-lyssna av den enkla orsaken att högtalare är så mycket sämre än mikrofoner. Här blir man tvungen att jämföra mikrofoner med varandra.

·        CD-spelare och DVD-spelare kan testas parvis. Fördröjningen som gärna uppstår av att de två spelarna inte startas exakt samtidigt måste  hanteras på något sätt.

·        D/A-omvandlare kan antingen jämföras parvis, eller F/E-lyssnas tillsammans med en A/D-omvandlare.

 

Fortsättningsvis koncentrerar jag mig på F/E-lyssning och där frågan är om man överhuvudtaget kan höra en skillnad. Vilka krav måste vi ställa på ett sådant test för att i vetenskaplig mening påstå att vi har hittat en skillnad?

Hur många gånger i rad

Lyssningstestet måste repeteras så många gånger att man uppnår tillräckligt hög statistisk säkerhet, eller konfidens. Det finns ju en risk att man med rena gissningar kan svara rätt, tom flera gånger i rad. Frågan är hur många rätt i rad som behövs för att risken ska vara tillräckligt liten. Och om man råkar svara fel en enda gång, kan man fortfarande uppnå samma konfidens, om man bara gör några fler lyssningar?

För att förstå begreppet konfidens och för att få hanterbara siffror börjar vi med ett exempel som ger en löjligt låg konfidens. Antag att man, i förväg, bestämmer sig för att göra tre lyssningar och att försöket ger tre riktiga svar. Med tre lyssningar finns det totalt 23=8 möjliga svarssekvenser och de finns listade i Tabell 1. Om det verkligen inte finns någon hörbar skillnad så är sannolikheten lika för att vilken som helst av raderna 1 till 8 uppstår. Risken att just rad 8 uppstår av en slump är 1/8, och sannolikheten att man ska få någon av de andra raderna är 7/8. Det innebär att om man i ett test får tre rätt i rad så är risken att den har uppstått av en slump bara 1/8 eller 12,5%. Då säger man att konfidensen är 7/8 eller 87,5%. För att komma fram till konfidensen tog vi alltså antalet svarssekvenser som vi inte godtar och dividerar med det totala antalet, i detta fall 7 delat med 8. Det vi då gör är att beräkna sannolikheten att utfallet inte beror på slumpen. Om vi lyckas att få tre rätt i rad är alltså den sannolikheten 87,5%. Vi har då visat med 87,5% konfidens att det finns en hörbar skillnad.

 

Tabell 1. De 8 möjliga utfallen i en sekvens med tre avgivna svar. Endast rad 8 har alla rätt (markerad i fetstil).

 

 

Lyssning 1

Lyssning 2

Lyssning 3

1

FEL

FEL

FEL

2

RÄTT

FEL

FEL

3

FEL

RÄTT

FEL

4

RÄTT

RÄTT

FEL

5

FEL

FEL

RÄTT

6

RÄTT

FEL

RÄTT

7

FEL

RÄTT

RÄTT

8

RÄTT

RÄTT

RÄTT

 

Om vi i stället bestämmer oss för att göra en serie med är fem lyssningar så finns det 25=32 möjliga svarssekvenser, se Tabell 2. Om vi dessutom tillåter lyssnaren att göra högst ett fel, så kommer flera rader än en att godtas. Totalt finns det 6 rader som har ett eller inget fel, medan de övriga 26 raderna har fler än ett fel. Lyckas vi i ett blindtest där vi i förväg bestämt oss för att göra fem lyssningar pricka in minst fyra riktiga svar, så har vi därmed uppnått konfidensen 26/32=81,25%.

Nu kommer det knepiga: I båda fallen uppnådde vi över 80% konfidens. I det första fallet bestämde vi oss i förväg för att göra tre försök och kräva alla rätt, i det andra bestämde vi oss i förväg för att göra fem försök och kräva högst ett fel. Det är nu väldigt frestande att påbörja en serie och se om man kan få tre rätt i rad, lyckas man inte kan man väl alltid fortsätta till fem lyssningar och tillåta totalt högst ett fel? Men se det går inte. För att förstå varför kan man se experimentet som att man från början bestämt sig för fem lyssningar, men tillåter att bryta serien efter tre om de första tre blev rätt och att utfallet i de två sista lyssningarna inte spelar någon roll. I Tabell 2 godkänns nu ytterligare en rad (rad 8) som börjar med tre rätt och slutar med två fel. Därmed sjunker konfidensen till 25/32=78,125%, dvs under 80%. Så, själva beslutet att ändra sig under testets gång från 4 av 5 till  3 av 3 gör alltså att konfidensen i testet som helhet sjunker till under 80%. Knepigt det där.

För varje i förväg givet antal lyssningar kan man ställa upp liknande tabeller, men för användbara konfidensnivåer blir de ganska snabbt rätt stora och knappast meningsfulla att skriva ut men principen är densamma som ovan. Om vi tex ökar konfidenskravet från 80% till 99 % krävs minst 7 lyssningar och tabellen hade blivit 128 rader lång. Om vi dessutom vill tillåta felsvar blir tabellerna ännu längre; utgår vi tex från 16 lyssningar blir tabellen 65536 rader lång.

 


Tabell 2. De 32 möjliga utfallen i en sekvens med fem avgivna svar.De 6 raderna 16, 24, 28, 30, 31 ,32 (markerade i fetstil) har högst 1 fel. Om vi tillåter att man avbryter om de tre första svaren är rätt inkluderas även rad 8, därmed sjunker konfidensen under 80%.

 

 

Lyssning 1

Lyssning 2

Lyssning 3

Lyssning 4

Lyssning 5

1

FEL

FEL

FEL

FEL

FEL

2

RÄTT

FEL

FEL

FEL

FEL

3

FEL

RÄTT

FEL

FEL

FEL

4

RÄTT

RÄTT

FEL

FEL

FEL

5

FEL

FEL

RÄTT

FEL

FEL

6

RÄTT

FEL

RÄTT

FEL

FEL

7

FEL

RÄTT

RÄTT

FEL

FEL

8

RÄTT

RÄTT

RÄTT

FEL

FEL

9

FEL

FEL

FEL

RÄTT

FEL

10

RÄTT

FEL

FEL

RÄTT

FEL

11

FEL

RÄTT

FEL

RÄTT

FEL

12

RÄTT

RÄTT

FEL

RÄTT

FEL

13

FEL

FEL

RÄTT

RÄTT

FEL

14

RÄTT

FEL

RÄTT

RÄTT

FEL

15

FEL

RÄTT

RÄTT

RÄTT

FEL

16

RÄTT

RÄTT

RÄTT

RÄTT

FEL

17

FEL

FEL

FEL

FEL

RÄTT

18

RÄTT

FEL

FEL

FEL

RÄTT

19

FEL

RÄTT

FEL

FEL

RÄTT

20

RÄTT

RÄTT

FEL

FEL

RÄTT

21

FEL

FEL

RÄTT

FEL

RÄTT

22

RÄTT

FEL

RÄTT

FEL

RÄTT

23

FELEL

RÄTT

RÄTT

FEL

RÄTT

24

RÄTT

RÄTT

RÄTT

FEL

RÄTT

25

FEL

FEL

FEL

RÄTT

RÄTT

26

RÄTT

FEL

FEL

RÄTT

RÄTT

27

FEL

RÄTT

FEL

RÄTT

RÄTT

28

RÄTT

RÄTT

FEL

RÄTT

RÄTT

29

FEL

FEL

RÄTT

RÄTT

RÄTT

30

RÄTT

FEL

RÄTT

RÄTT

RÄTT

31

FEL

RÄTT

RÄTT

RÄTT

RÄTT

32

RÄTT

RÄTT

RÄTT

RÄTT

RÄTT

 

 

Exemplet ovan skulle man kunna kalla en 3-5-design, dvs vi krävde 3 lyssningar med alla rätt eller att man fick fortsätta till 5 lyssningar med högst ett fel. Denna design gav 78,125% konfidens. I Tabell 3 samanställs konfidensen som uppnås med några olika designval.

Kontentan av det här stycket är alltså att man måste bestämma sig före försöket  vilken design man väljer, annars blir statistiken inte riktig. I Tabell 3 kan man se att 10 av 11 rätt hade givit 99 % konfidens om vi hade valt försöksdesignen 8-11, men inte om man hade valt designen 7-11. Det är alltså inte bara utfallet som avgör hur stor konfidensen blir, utan även vad man hade tänkt göra, men inte gjorde. Det kostar konfidens att ge valmöjligheter. Det är ruskigt ointuitivt att det är så, men likafullt sant.

 


Tabell 3. Konfidens som uppnås för några olika designval. Observera att designen måste väljas innan försöket börjar och att den inte får ändras under försökets gång. I annat fall blir konfidensen lägre.

 

Design

Konfidens

3-5

78,13%

7

99,22%

7-11

98,88%

7-12

99,04%

7-11-14

98,56%

7-13-16

99,04%

8-11

99,22%

8-12-14

99,05%

 

Vad behöver redovisas

Om man nu har gjort blindtest, vad ska man redovisa? I vetenskaplig mening måste alla försök som man skulle ha godtagit som positiva redovisas även om de blev negativa. Därför är det viktigt att i förväg bestämma om en lyssning får ingå i testet. Man får inte göra 100 testserier med krav på 99% konfidens i varje enskilt test och bara redovisa den enda testserie som råkade ge 7 rätt i rad. Om ingen av de andra testserierna visade på en skillnad så är sannolikheten mycket stor att detta enskilda test gav 7 rätt av en slump, eftersom man gjorde så många tester. Upprepade tester sänker tydligen konfidensen.

Upprepade försök

Om man gör upprepade försök så sjunker alltså konfidensen. Om man tex gör två försök med 99% konfidens, blir sannolikheten 0,992=0,9801 eller ungefär 98% att ingen av försöksserierna ger positivt utfall av en slump. Konfidensen har alltså sjunkit till 98%. Gör man fem försök sjunker konfidensen till 0,995=0,951 eller ungefär 95%. Tabell 4 listar signifikansen som uppnås vid några olika antal upprepade försök med 7-13-16-design.

 

Tabell 4. Konfidens som uppnås med upprepade försök med 7-13-16-design. Sex upprepade försök ger under 95% konfidens att ingen av serierna ger positivt resultat av en slump.

 

Antal försöksserier

Sammanslagen konfidens

1

99,04%

2

98,08%

3

97,14%

4

96,20%

5

95,28%

6

94,36%

Hur hög konfidens behövs

Hur hög konfidens som behövs varierar med frågeställningen. I vetenskapliga sammanhang brukar man inte rapportera resultat som signifikanta om konfidensen är under 95%. Själv tycker jag att 99% är rimligt för enskilda lyssningstest inom hifiområdet, eftersom det lämnar utrymme för upp till fem upprepade försök utan att 95%-gränsen nås. Om man påstår kontroversiella saker, så är det dock lämpligt att kräva högre konfidens än så.

Hur tolkar man resultatet

Om man misslyckas med att uppnå tillräcklig konfidens har man egentligen inte visat någonting. Det man har gjort är just att misslyckas med att bevisa en skillnad. Nu är det förstås så att om man använder kringutrustning, låtar och lyssnare som brukar kunna detektera små skillnader så är det ändå troligt att det inte finns någon skillnad. Men helt säkert är det inte och framförallt är det väldigt svårt att säga hur säkert det är. Betydelsen av ett negativt resultat måste vägas samman med förutsättningarna för att kunna betyda något. Vill man påstå att ett negativt resultat  gör det troligt att det inte finns någon skillnad så måste man vara extra noga med att kontrollera och redovisa förutsättningarna  för testet.

Att ett misslyckande inte bevisar någonting kan synas vara ett av blindtestets största svagheter, fast egentligen är det inte bundet till just blindtester. Det gäller alla tester, blinda som öppna. Det blir bara så mycket mer uppenbart i blindtestarfallet eftersom hela den vetenskapliga metodikapparaten är påkopplad.

Om man däremot i ett blindtest lyckas med att uppnå tillräcklig konfidens så har man visat att det föreligger en skillnad. Gör man det är det ofta klokt att försöka förstå vari skillnaden ligger. De allra bästa testerna förankrar resultaten av lyssningstestet i mätningar. Ett blindtest helt utan mätningar bevisar visserligen att det föreligger en skillnad, men vet man inget om dess natur så kan orsaken vara något så trivialt som en liten nivåskillnad. Att mäta och matcha nivåerna måste därför anses vara ett minimum för seriösa lyssningstester. Lyckas man påvisa hörbarhet och dessutom gör mätningar som visar på avvikelser som stämmer med lyssningsintrycken så har man dels lyckats visa att skillnaden verkligen finns och kanske också lyckats fånga skillnadens orsak. Och det är fint, det.

Vad innebär hög konfidens

Den här artikeln fokuserar ganska mycket på begreppet konfidens. Men att man med stor konfidens lyckas visa att det finns en hörbar skillnad, betyder inte att skillnaden är stor. Tex så ger 14 rätt i rad 99,99 % konfidens, men det betyder fortfarande inte mer än att skillnaden var nätt och jämt hörbar. Att mäta storleken eller karaktären på skillnaden är en helt annan fråga än att avgöra om det är någon skillnad alls. Konfidensen talar bara om hur pålitligt resultatet som testet gav är.

Är blindtest verkligen tillräckligt avslöjande

Min egen erfarenhet säger att blindtester är känsligare än öppna tester. Jag vill påstå att jag har hört saker i blindtester som jag aldrig skulle våga stå för om jag hade hört samma skillnad i ett öppet test. Det gäller mig, men behöver ju inte gälla alla, och därför måste man lyssna på den kritik som ibland framförs mot blindtestande. Testmetodiken ska ju även den tåla en granskning. En ofta förekommande kritik är att blindtest tvingar lyssnaren in i en lyssningssituation som är främmande från den vanliga. Det kan bero på okänd utrustning, ett tvång eller en uppmuntran att växla snabbt mellan de två objekten, eller en försöksledare som uppträder allmänt stressande. Ingen av dessa faktorer har dock med blindtestning i sig att göra utan de är bara dålig testdesign. Alla kan inträffa även om testet görs öppet, och dessbättre kan man eliminera dem i både blinda och öppna tester. Det finns i princip ingenting som hindrar att ett blindtest pågår i veckor eller månader hemma i lyssnarens egen anläggning. De flesta tester som görs öppet kan även göras blint. Den enda någorlunda allvarliga invändningen mot blindtester som jag kan komma på är att de är tämligen omständliga att ordna.

Min favorit bland tester är nog ändå en kombination av att man först spenderar tid med en apparat för att lära sig hur den låter och därefter gör ett test med omkopplare och använder sig av snabba växlingar. En tids lyssning före själva testet är bra eftersom man ofta rätt som det är upptäcker en detalj i ljudet som man inte har noterat tidigare. Därför kan det vara smart att vänta ett tag med att göra blindtestet så att man lär sig vilka brister man ska leta efter. På så sätt kommer testet att upptäcka även sådana saker som tar tid att upptäcka.

Flera lyssnare

Ibland är man fler än en person som lyssnar. Det är då viktigt att inte låta dem avge varsitt svar om de vet vad de andra svarar. Det finns ju en risk att omdömena färgas av varandra, speciellt om det finns en stark/ledande personlighet bland lyssnarna. Det är lätt att avfärda misstankar om sådana beroenden som larviga, eller rentav kränkande, men om man vill påstå att beroendena inte finns så måste man visa att de inte gör det. Detta är oftast mycket svårt. För att undvika all sådan tveksamhet bör därför all möjlighet till oönskat beroende mellan svaren undvikas, finns det risk för ”läckage” kommer testets trovärdighet att kunna ifrågasättas och kunna antas bero på ett antal svårkontrollerbara sociala faktorer.

Däremot kan man gärna göra testet i grupp och diskutera ljudkvaliteten med varandra, det kan hjälpa lyssnarna att fokusera på de hörbara skillnaderna. Lyssnar man i grupp bör man dock antingen endast låta en person avge svar, eller avge svaren i konsensus, dvs man enas om ett enda svar efter varje lyssning. Högst ett svar per lyssning, alltså.

Tillägg: Om man anser att lyssning i grupp är fördelaktigt kan man ändå göra det, och man kan låta flera personer avge svar samtidigt. Man måste dock hantera detta, statistiskt. Eftersom det kan finnas en färgning mellan lyssnarnas avgivna svar måste man utgå från ”worst case”, dvs att färgningen kan vara fullständig. ”Worst case” skulle vara att person B alltid svarar likadant som person A. Om person A svarar 7 rätt i rad så kommer även person B att göra det och han kan göra det helt utan att lyssna. De två raderna med 7 rätt i rad får då absolut inte tolkas som en rad med 14 rätt i rad. Man kan hantera problemet genom att låta varje person få sin egen svarsrad och att inte fästa någon särskild vikt vid att två eller flera personer lyckas producera lyckade svarsrader. Att två personer lyckas betyder alltså vare sig mer eller mindre än att en person lyckas. Däremot försämras statistiken av att flera personer tillåts avge svar. Detta bör hanteras på samma sätt som under ”upprepade försök” ovan. Rent statistiskt tillför alltså lyssning i grupp med individuella svar enbart nackdelar, men det finns andra fördelar som kan väga upp det. Diskussionen som uppstår vid grupplyssning kring färgningarnas karaktär och att bli hjälpt att fokusera på något som någon annan tror sig ha hört hör till fördelarna. Grupplyssning kan skärpa lyssnarna.

Måste man alltid göra det så där vetenskapligt och krångligt

Nej, det måste man ju inte, men ska man göra anspråk på att testa för att kunna påstå något som är sant i en oomkullrunkelig vetenskaplig mening, så måste man det. Det finns förstås tillfällen när ovetenskapliga tester kan vara väldigt informativa. Ofta är det också det enda som är praktiskt möjligt. Man kan och bör också använda öppna tester som pilotexperiment för att hitta intressanta frågeställningar att undersöka på riktigt med ett mer formellt lyssningstest. Det är ju ganska jobbigt att göra lyssningstester på ett riktigt sätt och därför kan öppna tester med fördel användas som en grovsållning. Men resultaten av sådana kan inte betraktas som säkerställda.

Kortmanual

Här följer en checklista som man kan använda vid lyssningstester med någorlunda höga krav på vetenskaplighet.

1.      Bekanta dig med utrustningen.

2.      Mät och justera nivåskillnaden så att den blir mindre än 0,1 dB, det motsvarar en spänningsskillnad på knappt 1,2%.

3.      Lyssna fram en låt eller en testsignal som du tror provocerar fram skillnaden i ett öppet pilottest. Du kan även lyssna blint, utan att börja det formella testet, ibland kan blindtestning göra det lättare att fokusera på enbart ljudet. Dessa lyssningar får inte användas i testresultatet. Diskutera gärna ljudintrycken med eventuella andra lyssnare.

4.      Välj en testdesign, tex 7-13-16, som ger möjlighet till 99 % konfidens. Gör du fler än 5 serier kommer totala konfidensen att vara under 95%.

5.      Bestäm att ”nu börjar testet”. Misslyckas du måste testserien antecknas som misslyckad och redovisas. Det gäller speciellt om du gör många tester.

6.      Byt inte testdesign utan att börja på en ny testserie och behandla inte gamla data med alternativa testdesigner.

7.      Var observant på risken för åsiktsläckage om ni lyssnar flera personer samtidigt.

8.      Kom ihåg att du bara kan bevisa eller misslyckas med att bevisa att det finns en hörbar skillnad. Du kan inte bevisa att det inte finns någon hörbar skillnad.

 

Det finns inga restriktioner på hur lång tid de olika momenten får ta.

Sammanfattning

Blinda lyssningstester är ett utmärkt sätt att undersöka om en apparat påverkar ljudet hörbart. I de fall en hörbar påverkan finns kan de också användas för att värdera påverkan. Om man vill göra ett seriöst lyssningstest för att i vetenskaplig mening kunna uttala sig om en eventuell skillnad så måste det utföras blint. Det ska dessutom utföras så att man får tillräckligt hög konfidens. Blindtester är aningen jobbiga att ordna, men gör att man kan uttala sig med större pondus om hur saker och ting verkligen är.

 

Svante Granqvist

 



[1] Se tex http://www.media.uio.no/personer/arntm/McGurk_english.html