Uppmärkning av Riksdagsdebatter 1920–2019

Sedan hösten 2020 har mycket tid i Westac-projektet ägnats åt att kurera och märka upp en större korpus med riksdagsdebatter. Mer specifikt handlar det om de senaste hundra åren av politiska anföranden (Kammarens protokoll) från 2020 till 2019 – en period som bland annat präglades av demokratins genombrott, konsolidering och transformering. 

Materialet har digitaliserats i två omgångar. Enkammarriksdagens protokoll (1971–) har funnits tillgängliga i digitalt format sedan början av 2000-talet. Sedan några år tillbaka har även Ståndriksdagen (1521–1866) och Tvåkammarriksdagen (1867–1970) i digitaliserat. Det är ett rikt och spännande material för alla som är intresserade av politik och dess kulturella former – och allt finns naturligtvis fritt tillgängligt (https://riksdagstryck.kb.se/ och https://data.riksdagen.se/)!

Frågeställningarna som vi nu kan ställas till detta material i sin helhet är enkla men potenta: Vilka frågor var distinkt kvinnliga respektive manliga med avseende på vem som debatterade dem? Hur har stad–landsbygd diskuterats av riksdagsledamöter som representerade storstäder respektive mindre orter? Hur har olika partier diskuterat frågor om frihet och jämlikhet? Och hur har allt detta förändrats över tid?

Men för att dessa frågor effektivt ska kunna utforskas med hjälp av datorstödda metoder behöver riksdagsdebatterna märkas upp med relevant metadata. OCR-kvalitén är överlag god, men det saknas information i den bakomliggande XML-strukturen som anger information om talarna (namn, kön, partitillhörighet och geografisk representation) och om om riksdagsanföranden (exempelvis när de börjar och slutar). Det senare är relevant eftersom dokumentserien Kammarens protokoll både innehåller politiska anföranden och redogörelser för aktiviteter som händer i kammaren. 

Detta är ett arbete som Westac sysslar med nu, genom ett samarbete mellan projektets humanistiska forskare, statistiker och systemutvecklare. Här gifts humanistens kritiska materialkännedom samman med statistikerns förmåga att reducera text till programmeringsbara beståndsdelar. Förhoppningsvis har vi snart en uppmärkt korpus som vi kan använda för att utforska svensk politik på hela nya sätt – och som naturligtvis också kommer att tillgängliggöras för andra forskare.