Temamodellering av SOU:er i öppen Jupyter notebook

Inom ramen för vårt forskningsprojekt har vi gjort en så kallad Jupyter notebook publikt tillgänglig. I den kan temamodellering av ett dataset om 3154 statliga offentliga utredningar – publicerade mellan 1945 och 1989 – utföras. Det rör sig om cirka 87 miljoner ord. Genom temamodellering (topic modeling på engelska) kan algoritmer klassificera stora korpusar baserat på tematiska strukturer i textmassan. Grundfrågan handlar om vilka diskurser, motiv eller tematiker som kan ha tänkts skapat de dokument som forskaren intresserar sig för. I Jupyter är det en modell som delar in SOU-materialet i 200 teman som gjorts tillgänglig. Dessa teman har inga  beteckningar utan listas enbart i stigande nummerordning (från 0 till 199). Mer information om temamodellering av offentliga utredningar finns här.

  1. Klicka på denna länk – och klicka därefter på den svartblå ”launch binder”-knappen. Det tar lite tid för sidan att ladda.
  2. Jupyter notebooks körs via olika kodceller: markera den första grå rutan (” In [1]: import os”) – och tryck sedan på knappen Run i menyn ovan.
  3. Vänta in en rad nedladdningar – och att symbolen ”BokehJS 2.2.3 successfully loaded” syns.
  4. Markera den andra grå rutan (”In [2]: import os”) under rubriken ”PREPARE Load Topic Model” – och tryck sedan på knappen Run i menyn ovan.
  5. För att köra resterande kodceller – gör på samma sätt som ovan.