måndag 5 mars 2012

Citeringsspelet

I min roll på Vetenskapsrådet (VR)1 har jag varit med som ledamot eller observatör i en rad beredningsgrupper för bedömning av forskningsanslagsansökningar, och har då noterat att allt större vikt fästes vid bibliometriska data: längden på de sökandes publikationslistor, och statistik över hur ofta deras arbeten citeras i den vetenskapliga litteraturen. Detta sker på bekostnad av fördjupad diskussion kring innehållet i själva projekten och vad de sökande faktiskt åstadkommit i tidigare forskning. Nästan alla inblandade i beredningsarbetet erkänner att vetenskaplig kvalitet och citeringsfrekvens inte är samma sak, och framhåller att bibliometri aldrig kan bli till mer än ett hjälpmedel - en faktor bland många - i bedömningarna. I mina öron låter detta dock mest bara som en läpparnas bekännelse. Frestelsen är stor och närmast oemotståndlig, när man har till synes objektiva siffror att ta fasta på, att låta sig styras av dessa. Jag skriver "till synes", ty i grunden bygger ju publicerings- och citeringsstatistiken på redaktörers, refereegranskares och andra forskares subjektiva omdömen om forskningens kvalitet.2

Denna utveckling är långt ifrån något unikt VR-fenomen - även på andra håll vinner bibliometrin ökat inflytande.3 Förre universitetskanslern Anders Flodström föreslår i den aktuella utredningen Prestationsbaserad resurstilldelning för universitet och högskolor (som nu är ute på remiss) ett nationellt resursfördelningssystem som i stor utsträckning baseras på bibliometri. Som jag tidigare antytt här på bloggen är Chalmers på väg i samma riktning, och samma sak gäller på många (kanske rentav samtliga) av landets övriga universitet och högskolor. Forskare idag vet att de, i samband med exempelvis forksningsanslagsansökningar, befordringsärenden och tjänstetillsättningar, i hög grad bedöms på bibliometriska grunder.

Jag finner denna utveckling oroande, inte i första hand för att anslagsgivare och anställningskommittéer riskerar att fatta felaktiga beslut på grund av diskrepensen mellan citeringsfrekvens och verklig vetenskaplig kvalitet4, utan på grund av de effekter detta system får på enskilda forskares prioriteringar i det egna arbetet. Datalogen David Parnas beskriver i sitt läsvärda debattinlägg Stop the Numbers Game en uppsättning beteenden som kan väntas bli följden av ett ökat fokus på bibliometri: ytlig forskning, publiceringspakter, klickbildning, meningslös återanvändning av gamla resultat, nedbrytning av forskningsresultat i minsta publicerbara enheter, etc etc. Parnas talar i första hand om det nakna räknandet av antal publikationer, men det mesta han beskriver är applicerbart, med större eller mindre modifieringar, även med en incitamentsstruktur som premierar forskare baserat på antal citeringar. Den som ser sig omkring i den akademiska världen finner snabbt att dessa beteenden förekommer redan idag.

Ett flagrant exempel beskrivs i en aktuell text rubricerad Commodifying the Academic Self av sociologen Gaye Tuchman. Hon berättar hur hon nyligen bidragit med ett manuskript till ett temanummer för en amerikansk sociologisk tidskrift, och i samband därmed tagit emot ett ebrev från temanumrets redaktör, med följande uppmaning:
    There is one thing I want to encourage you to consider doing, namely have a look at a couple of preliminary and relevant articles from other contributors to the special issue. If you acknowledge each other’s work it will clearly add to the feeling of having a special issue that is relatively well-integrated, plus add to the impact factor of each other’s work.
Tuchman vill tydligen inte hänga ut vare sig redaktör eller tidskrift och låter dem förbli anonyma; det är uppenbart att hon anser redaktörens uppmaning klandervärd. Jag menar emellertid att redaktören gjort vetenskapssamhället en stor tjänst genom att rakt och oförfalskat ge uttryck för ett strategiskt övervägande i det stora citeringsspelet som andra försökt hålla i lönndom. Må detta bli en ögonöppnare och en signal till förnyad debatt om styrmedel i forskarvärlden!

Fotnoter

1) Jag är ledamot i VR:s ämnesråd för naturvetenskap och teknikvetenskap.

2) Det är inte utan att man kommer att tänka på begreppet pseudokvantiteter som Sven-Eric Liedman lanserar i sin bok Hets.

3) Mea culpa. För ett (måhända trivialt) exempel kan nämnas hur jag - mest som en liten egotripp - bistått Google med identifiering av mig själv och mina uppsatser för upprättandet av en särskild sida med min personliga citeringsstatistik, som jag sedan gör reklam för på min hemsida (och i denna fotnot).

4) Hur nu detta skall förstås - någon "korrekt" definition av vetenskaplig kvalitet som vi alla kan komma överens om finns knappast. Likväl: jag skulle kunna räkna upp flera världsledande matematiker som är mer sparsamt citerade än jag, men i jämförelse med vilka jag inte skulle drömma om att påstå mig vara ens hälften så framstående forskare.

14 kommentarer:

  1. Olle skrev

    för bedömning av forskningsanslagsansökningar, och har då noterat att allt större vikt fästes vid bibliometriska data: längden på de sökandes publikationslistor, och statistik över hur ofta deras arbeten citeras i den vetenskapliga litteraturen.

    Kanske för att motverka ett gammalt klassiskt problem med att ju fler subjektiva bedömningsfaktorer, desto större andel män hellre än kvinnor, som antas.

    Men Agnes Wold och kompisen Christine Wennerås gick till biomedicinska biblioteket och slog upp vilka meriter de kvinnliga och manliga sökande hade. De fann att män med 0–4 citeringar, som är ett mått på kvalitet hos en artikel, hade lättare att få en tjänst än kvinnor som hade 15 och fler citeringar.

    Och då är det väl liksom snett åt andra hållet.


    /Cecilia

    SvaraRadera
  2. Cecilia:

    Jag minns att jag för några år sedan tog del av Wennerås och Wolds uppmärksammade studie från 1997, och att jag blev lite förskräckt över hur svag deras argumentation var. De fann att medelsfördelningen baserad på expertpanelens bedömningar blev kraftigt annorlunda än om man automatiserat processen och följt bibliometriska data, och att diskrepensen uppvisade mycket stark samvariation med den sökandes kön. En sådan diskrepens kan tolkas på olika vis, varav könsdiskriminering blott är en. En annan förklaring skulle kunna vara att de manliga sökande presenterade bättre projektplaner och kunde uppvisa bättre tidigare forskningsresultat än kvinnliga sökande med motsvarande bibliometriska meriter. Huruvida den ena eller den andra förklaringen är riktig går inte att utläsa ur W&W:s data. Någon seriös ansats till att diskutera detta problem bjuder de inte på i sin uppsats. Istället utgår de dogmatiskt från att bibliometrin ger Sanningen rörande ansökningarnas kvalitet.

    Jag är medveten om att jag nu beträder minerad mark, så låt mig därför för säkerhets skull framhålla följande. Jag hävdar inte att de manliga sökande i det aktuella fallet är bättre forskare än sina kvinnliga kollegor med motsvarande bibliometriska värden. Allt jag hävdar är att detta är möjligt, och att det i W&W:s studie inte går att se skillnad mellan ett sådant scenario och könsdiskriminering. Det är fullt möjligt (måhända rentav troligt) att den bedömningsgrupp i dåvarande Medicinska Forskningsrådet som W&W studerade var anfäktad av könsdiskriminering och kotteri, vilket i så fall är väldigt allvarligt, men jag kan inte se att W&W på ett seriöst sätt lyckas slå fast detta.

    SvaraRadera
  3. Visst, korrelation och kausalitet är inte samma sak, och undersökningen (som jag ej läst) kunde säkert ha haft flera kriterier för goda forskningsmeriter än antalet citeringar/publiceringar.

    Men ändå tycker jag att det flaggar för att blindtest gör att kvinnor får fler chanser.
    Exempel från Wiens filharmoniska orkester: När kandidaterna spelade bakom en skärm på audition, blev signifikant fler kvinnor rekryterade. Kanske tydde detta på att det tidigare fanns en inbyggd undermedveten förväntan om att: en proffsmusiker = man. Eller: Kanske bara råkade det finnas fler duktiga kvinnliga musicerande kandidater just den perioden.

    http://www.economics.harvard.edu/faculty/goldin/files/orchestra.pdf

    Jag menar väl egentligen bara att man får försöka göra något som liknar blindtester med jämna mellanrum, för att kolla så att det inte är för mycket undermedvetna subjektiva stereotypa/orättvisa faktorer bakom vilka som får anslag.


    /Cecilia

    SvaraRadera
  4. Instämmer, Cecilia, förutsatt att jag får lov att modifiera påståendet att W&W:s studie "flaggar för att blindtest gör att kvinnor får fler chanser" till att den "flaggar för att det kan vara värt att pröva om blindtest gör att kvinnor får fler chanser".

    SvaraRadera
  5. Subjektiv bedömning av kvalifikationer tenderar väl att gynna just människor av rätt kön och längd, om jag inte missminner mig. Dessa bygger "subjektet" in i bedömningen, trots att de inte har med saken att göra. Det är därför en rent automatiserad process egentligen skulle vara att föredra. Det enda problem jag ser är att citeringar också är en subjektiv bedömning. Frågan är väl i så fall varför citerarna och medicinska forskningsrådet gjorde olika bedömningar.

    Om du vill gå till botten med W & W så har Olle Leimar hackat sönder studien i sina statistiska beståndsdelar inför en kurs vi hade tillsammans. Som jag kommer ihåg det kunde han replikera resultaten i princip, men inte i detalj. Det är något konstigt mått de använder sig av som inte gick att förstå (med en brasklapp om att jag kan komma ihåg detaljerna fel).

    SvaraRadera
  6. Att redaktören för ett temanummer uppmanar skribenterna att läsa varandras bidrag och förhålla sig till dem i sina egna texter -- är det verkligen ett bra exempel på hur illa det är ställt? (Jag har inte läst artikeln, men på ytan låter det ganska rimligt.)

    Det där med kvantifiering in absurdum... det är ytterligare ett utslag av liberal styrningsrationalitet: Ett slags cynisk relativism som döljer fusk, falskhet och förträngning bakom en fasad av skenhelig rättfärdighet och kameralt ansvarstagande. Som när charterbolagen pratar om socialt och miljömässigt ansvar. Eller kommunernas korrumperade och vansinniga upphandlingar. Eller TV4:s noll-rasismkampanj.

    Allt är möjligt i ett värde-vakuum där det är tabu och politisk/professionellt självmord att tala om bra och dåligt; rätt och fel; prioriteringar och försakelser. Där gruppsykologi, kaotiska marknadsmekanismer och emergenta sociala mönster tillåts tala för sig själva och ges profetiskt tolkningsföreträde. Går det så går det.

    SvaraRadera
  7. Björn:

    Första meningen - "There is one thing I want to encourage you to consider doing, namely have a look at a couple of preliminary and relevant articles from other contributors to the special issue" - i den anonyme redaktörens uppmaning har jag inga som helst problem med. De artikelförfattare som följer uppmaningen kommer då, om de är rättrogna forskare, att infoga referenser i sina egna uppsatser förutsatt att referenserna är relevanta - till detta behöver de ingen särskild uppmaning. Relevanskriteriet är för övrigt det enda godtagbara kritieriet för infogandet av referenser i vetenskapliga uppsatser.

    Vad den anonyme redaktören, med sin formulering "if you acknowledge each other’s work it will [...] add to the impact factor of each other’s work", sedan gör är att uppmuntra artikelförfattarna att, utöver relevanskriteriet, beakta just det slags strategiskt övervägande som innebär ett korrupt manipulerande av citeringsstatistiken. Vad han i praktiken säger är "Låt oss bilda en citeringspakt, där vi inte enbart beaktar (det självklara) relevanskriteriet, utan även hjälps åt att boosta varandras citeringsstatistik även om relevansen skulle vara tvivelaktig!".

    SvaraRadera
  8. Patrik

    Jag håller absolut inte med dig om att "en rent automatiserad process egentligen skulle vara att föredra". Jag anser att beslut om fördelning av forskningsresurser behöver fattas av kloka kunniga personer som tar ställning till vilken forskning som är bra och värd att satsa på. "Bra" kan här t.ex. betyda "flyttar fram gränserna för mänsklighetens samlade vetande på ett spännande område", eller "har potential att skapa mänskligt välstånd", eller troligare en mix av dessa och andra faktorer. Dessa bedömningar har med nödvändighet subjektiva inslag.

    Om du kikar på samhällsutvecklingen de senaste 100-150 åren inser du snabbt vilken oerhört stor betydelse vetenskapen haft för mänskligheten - mest på gott (elektriciteten, poliovaccinet, etc etc; jag tror inte jag behöver predika för dig på denna punkt), men också på ont (t.ex. kärnvapenhot). Vetenskapens inflytande på våra liv kommer knappast att minska - snarare tvärtom. Detta gör besvarandet av frågor om vilken forskning vi bör satsa på till en oerhört viktig uppgift och ett enormt ansvar. Att överlåta beslut i sådana frågor på en automatiserad process vore att stoppa huvudet i sanden och abdikera från detta ansvar.

    SvaraRadera
  9. Olle,
    Självklart är vetenskap viktigt, det är därför vi har den här diskussionen. Därför måste vi fördela medel med hjälp av bästa möjliga algoritm.

    Förmodligen har du rätt, att det krävs en subjektiv bedömning någonstans eftersom gamla meriter är en suboptimal bedömningsgrund. Dock vet vi ju att vi har en massa fördomar i bagaget, om kön, om längd, om social kompetens, som inte har med saken att göra. Man får väl helt enkelt göra som nu, att blanda automatisering (publikationsräknande) med subjektiviet. Vi kan också, på grundval av våra kunskaper om vilka fördomar som finns, balansera bedömningskommittéerna så gott det går.

    Men att bara hänfalla åt det subjektiva öppnar upp för ett godtycke som inte alltid är i vetenskapens intresse. Alla är inte lika upplysta om vad som är bra vetenskap. Det ligger i arbetets natur att de äldre sitter på pengarna medan de yngre sitter på idéerna, inte sällan delvis på tvärs mot generationen innan (kanske inte inom matematik?). Svår balansgång.

    SvaraRadera
  10. Jag hörde Douglas Arnold hålla ett engagerat föredrag på IMU förra året om en undersökning han gjort tillsammans med en bibliotikarie om "impact factor" och hur man har manipulerat detta nummer. http://www.ams.org/notices/201103/rtx110300434p.pdf

    (Här låter han inte editorerna vara anonyma.)

    SvaraRadera
  11. Tack Torbjörn för länken till en intressant och chockerande fallstudie! Det är inte säkert att alla läsare av min bloggpost ovan omedelbart låter sig övertygas om att det skamlösa manipulerandet av citeringsdata redan idag är ett allvarligt problem, men den som vänder sig till Arnolds och Fowlers fallstudie kan inte undgå att se hur illa det är ställt.

    SvaraRadera
  12. Holy shit - att det går att manipulera systemet så till den milda grad visste jag inte. Fascinerande med en person som satt det i system.

    SvaraRadera
  13. Över lag känns det inte speciellt stabilt att gå för hårt på impact. Dels styckar det upp antalet artiklar som skrivs sedan styckas det upp på ett sätt som gör att man helst ska citera alla uppstyckade artiklar... De gör att man själv lätt plockar in tveksamma citeringar... det bildar grupper som citerar varandra... att skaffa rätt kontakter kan vara lika viktigt som att skriva bra... bara att hitta artiklar kan idag vara krångligt och att då få synas på rätt stället kan nog så viktigt.. etc... förutom de som nämnts ovan så är detta intressant läsning:
    http://blogs.lse.ac.uk/impactofsocialsciences/2011/12/19/impact-factor-citations-retractions/

    http://www.mathunion.org/fileadmin/IMU/Report/CitationStatistics.pdf

    http://jcb.rupress.org/content/179/6/1091.full

    SvaraRadera
  14. Om det här är sant så har även poliser kommit på fiffiga sätt att manipulera statistiken.

    SvaraRadera