Olika sätt att analysera data
Dataanalys är konsten att från en större mängd data få fram information som kan användas som beslutsunderlag. När mängden data ökar så blir analysen av den mer komplex. Data har blivit den nya råvaran för att skapa värde för organisationen. Om en organisation lyckas förstå och dra en slutsats av sin data, så kommer det med säkerhet vara en stor konkurrensfördel. Dock kan det även vara en nackdel om konkurrenterna lyckas bättre med sin data. För att lyckas behöver organisationen både en analytisk mognad och en digital infrastruktur som möjliggör analysen. Utöver förståelse för hur man kan använda sig av data för att skapa värde så behöver även organisationen säkerställa tillgången och kvaliteten på datan.
Här nedan kommer en kort genomgång av de vanligaste metoderna inom dataanalys. Det är olika metoder som används för olika syften. Det är en bra start att förstå vad organisationen vill uppnå och vilka processer och/eller affärsmål ni siktar mot.
Regressionsanalys
Att vi blir mer datadrivna har knappast undgått någon, men hur går man från att samla in och spara stora mängder data till att faktiskt ta fram insikter och kunskap från den? Ett verktyg du kan använda är regressionsanalysen.
En regressionsanalys hjälper er att på ett enkelt sätt se samband i er data, vilket gör det till ett användbart verktyg för att fatta välgrundade beslut. Enligt SCB används regressionsanalysen när man vill ta reda på vilka bakomliggande faktorer som styr ett visst resultat.
Vad är Regressionsanalys?
Regressionsanalys är en statistisk metod som används för att identifiera och analysera sambandet mellan en beroende variabel med en eller flera oberoende variabler. Mer bestämt så hjälper regressionsanalysen oss att förutsäga värdet för den beroende variabeln baserat på värdena för de oberoende variablerna. Denna analys kan användas för att förutsäga framtida trender, utvärdera effektiviteten och för att bestämma styrkan och riktningen av relationer mellan variablerna.
Regressionsanalysen är ett viktigt verktyg inom många områden. Exempelvis inom ekonomi, psykologi, medicin och marknadsföring, där det kan användas för att förutsäga hur olika faktorer påverkar ett mått på intresse.
Det finns flera typer av regressionsanalys, som t.ex. enkel linjär regression, multipel linjär regression och logistisk regression. Här kommer en beskrivning av de olika typerna:
- Enkel linjär regression: Detta innebär att man analyserar sambandet mellan två variabler, där en variabel betraktas som den oberoende variabeln och den andra variabeln betraktas som den beroende variabeln. Målet är att hitta ett linjärt samband mellan de två variablerna.
- Multipel regression: Detta innebär att man analyserar sambandet mellan en beroende variabel och två eller flera oberoende variabler. Målet är att hitta ett linjärt samband mellan den beroende variabeln och de oberoende variablerna.
- Logistisk regression: Denna typ av regression används när den beroende variabeln är binär (dvs. den kan bara anta två värden, som "ja" eller "nej"). Den används för att förutsäga sannolikheten att en händelse inträffar baserat på värdena för de oberoende variablerna.
När och hur används regressionsanalysen?
För att göra en regressionsanalys, oavsett om den är linjär eller ej, måste du ha en datauppsättning med minst en oberoende variabel och en beroende variabel. Här kommer en förklaring av de olika variablerna:
Beroende variabel (independent variable eller response variable) är en variabel som antas bero på värdet av en eller flera andra variabler, kända som oberoende variabler.
Oberoende variabel (dependent variable eller predictor variable) är en variabel där dess värde antas inte beror på värdet av någon annan variabel i analysen.
Man kan säga att analysen hjälper till att svara på frågorna: Vilka faktorer har störst betydelse? Vilka kan vi ignorera? Hur interagerar dessa faktorer med varandra? Och, kanske viktigast, hur säkra är vi på alla dessa faktorer?
Följande steg görs för att utföra en regressionsanalys:
- Samla in och organisera data: Börja med att samla in data om den beroende variabeln och oberoende variabel(er). Var noga med kvaliteten på er data.
- Skissa data: Rita upp data för att visuellt inspektera förhållandet mellan den beroende variabeln och oberoende variabel(er).
- Välj lämplig regressionsmodell: Det finns flera olika typer av regressionsanalys. Välj den regressionsmodell som passar er bäst, baserat på typen av data och syftet med analysen.
- Uppskatta parametrarna: Använd statistiska tekniker för att uppskatta koefficienterna (dvs. lutningen och skärningen) för den bäst passande linjen eller kurvan. Det finns flera verktyg och program för detta.
- Utvärdera modellen: Utvärdera modellen genom att använda statiska tester. Dessa hjälper att kontrollera passform för data och bedöma betydelsen av faktorerna.
- Använd modellen för förutsägelse: När modellen bedöms vara tillfredsställande, använd den för att se samband i din data och försöka göra förutsägelser om den beroende variabeln baserat på nya värden för den oberoende variabeln.
- Finjustera modellen: Om modellen inte passar din data väl kan du behöva gå tillbaka och justera modellen och/eller samla in mer data.
Det finns flera mjukvarupaket tillgängliga som kan användas för regressionsanalys, såsom Excel och Python.
Exempel
Här kommer ett exempel på när man kan använda en linjär regressionsanalys.
Låt oss föreställa oss en fastighetsmäklare som vill förutsäga försäljningspriset på ett hus. Priset kommer baseras på husets storlek, antal sovrum, läge samt byggnadsår. Då används en linjär regressionsanalys på följande vis:
Beroende variabel:
- Husets försäljningspris
Oberoende variabler:
- Storlek
- Antal sovrum
- Läge
- Byggnadsår
Fastighetsmäklaren kan nu utföra regressionsanalysen genom att bestämma styrkan i sambandet mellan försäljningspriset och de övriga variablerna. Denna information kan fastighetsmäklaren använda för att göra nya förutsägelser om försäljningspris för liknande hus i framtiden. Med en regressionsanalys kan man alltså se hur stor påverkan exempelvis antal sovrum har för husets försäljningspris.
Monte Carlo-metoden
En annan metod som man kan använda för att samla in data för att sedan få insikter och kunskap från Monte Carlo-metoden. Denna analys fick sitt namn efter den berömda kasino staden i Monaco, då metoden går ut på att använda slumpmässiga siffror på ett sätt som påminner om hasardspel. Monte Carlo-metoden är bra för att göra olika typer av riskanalyser, då du analyserar sannolikheten för att en viss sak ska ske.
Vad är Monte Carlo-metoden?
Monte Carlo-metoden är en numerisk teknik för att lösa problem genom att använda slumpmässigt urval. Denna metod används för att uppskatta sannolikhetsfördelningen för en händelse. Det innebär att generera ett stort antal slumpmässiga simuleringar och analysera resultaten för att göra förutsägelser eller lösa problem.
Monte Carlo-metoden kan även användas för att uppskatta beteendet hos komplexa system eller modeller som är svåra eller omöjliga att lösa analytiskt. Det innebär att generera slumpmässiga urval från en sannolikhetsfördelning och använda dessa stickprov för att approximera lösningen på ett problem.
När och hur använder man den?
Här är en grundläggande översikt över hur Monte Carlo-metoden används:
- Definiera problemet: Börja med att definiera det problem som ska lösas eller det resultat som man vill förutsäga. Det kan vara allt från att uppskatta sannolikheten att vinna ett spel till att förutsäga trender på aktiemarknaden.
- Skapa en modell: Skapa sedan en matematisk eller beräkningsmodell som representerar problemet eller systemet som studeras. Den här modellen bör inkludera alla variabler som påverkar resultatet.
- Generera slumpmässiga urval: Använd en slumpgenerator för att generera ett stort antal slumpmässiga urval. Antalet prover som behövs beror på problemets komplexitet och exaktheten i de resultat man vill uppnå.
- Analysera resultaten: Kör varje slumpmässigt urval genom modellen och analysera resultaten. Om man till exempel försöker förutsäga trender på aktiemarknaden kan man använda varje prov för att simulera olika aktiers prestanda över tid.
- Beräkna resultaten: När man har analyserat alla slumpmässiga prover, använd statistiska tekniker för att beräkna resultaten. Detta kan innebära att beräkna medelvärdet, medianen eller sättet för utfallen, eller använda andra statistiska metoder för att uppskatta sannolikheten för olika utfall.
- Utvärdera resultaten: Utvärdera slutligen resultaten för att avgöra hur korrekta de är och om de uppfyller kraven för problemet eller applikationen. Man kan behöva justera modellen eller generera fler slumpmässiga prover till metoden.
Exempel
Ett exempel på användningsområde för denna metod är om ni vill veta hur stor sannolikhet att ni uppnår era säljmål i år. Här kommer ett mer praktiskt exempel på när man kan använda Monte Carlo-metoden:
Låt oss föreställa att ni vill uppskatta sannolikheten för att vända på huvudena på ett mynt. Då kan utmaningen definieras på följande sätt. Hur stor är sannolikheten att få huvuden när man slår ett rättvist mynt? Man kan definiera sannolikhetsfördelningen som en Bernoulli-fördelning med p=0,5, vilket betyder att det är lika stor sannolikhet att få huvud eller baksida. Därefter kan man generera ett stort antal slumpmässiga prover genom att vända myntet och registrera resultatet (huvuden eller baksidan) för varje vändning. Sedan kan man analysera resultaten för att uppskatta sannolikheten att få huvuden.
Kohortanalys
En annan metod för dataanalys som kallas kohortanalys. Denna analys går ut på att dela upp datasetet till relevanta grupper för att sedan analysera. Det kan t.ex. handla om att segmentera kunddatabasen till mindre grupper för att se hur dessa olika grupper beter sig över tid.
Vad är Kohortanalys?
Kohortanalys är en metod som används inom affärsanalys och marknadsföring som hjälper till att förstå hur olika grupper av kunder beter sig över tid. Det är ett effektivt sätt att spåra kundbeteende, retention och förvärv, och kan ge insikter om hur man optimerar marknadsförings- och säljstrategier.
Det är ett kraftfullt sätt att analysera effekterna av förändringar i din verksamhet eller marknadsföringsstrategi. Analysen kan även hjälpa dig att identifiera trender och mönster som kanske inte är uppenbara när man tittar på övergripande data.
Det finns många verktyg att användas till kohortanalyser, t.ex. kalkylprogram eller specialiserad analysmjukvara. Det är viktigt att notera att kohortanalys är en pågående process, samt att företag bör regelbundet granska och uppdatera sina kohorter för att säkerställa att de fångar relevanta insikter.
Hur använder man den?
Följande steg är hur man utför en kohortanalys:
- Definiera kohorterna: En kohort är en grupp människor som delar en viss egenskap, se till att bestämma och definiera era kohorter utifrån den egenskap ni vill studera.
- Välj mätvärden: Bestäm sedan vilka mätvärden som är viktiga och som ni ska mäta över tid. Det kan t.ex. vara intäkt eller engagemangsnivå.
- Still in tidsintervall: Bestäm vilka tidsintervall ni vill använda, alltså t.ex. veckor, månader eller år.
- Samla in data: Samla in data om kohorterna och deras beteende över tid. Denna data bör inkludera den eller de mätvärden som ska mätas.
- Analysera data och beteende: Beräkna mätvärdena för varje kohort vid varje tidsintervall och jämför dem med mätvärdena för andra kohorter. Leta efter mönster och trender i data som kan hjälpa dig att förstå beteendet hos dina kohorter över tid. Det kan handla om t.ex. återkommande köpfrekvens eller deras livstidsvärde.
- Dra slutsatser och vidta åtgärder: Använd de insikter du får från din analys för att fatta välgrundade beslut om ditt företag eller din marknadsföringsstrategi.
Exempel
Ett exempel på ett användningsområde för kohortanalys:
Tänk er kundresan, med hjälp utan kohortanalys kan ni få insikt i hur olika segment beter sig vid olika faser av kundresan. Då grundidén bakom kohortanalyser är att gruppera kunder i kohorter baserat på en specifik egenskap eller beteende. Ett exempel på kohort kan vara månaden de först köpte, deras plats eller deras ålder. När kunderna är grupperade kan kohortens beteende spåras över tid, vilket gör att ni kan se vart de befinner sig, men även trender och mönster i hur kundernas beteende förändras över tid.
Nedan följer några fler sätt att analysera data på:
Faktoranalys
Vad är faktoranalys?
Faktoranalys är en statistisk metod som används för att hitta underliggande mönster hos ett stort antal variabler som till synes inte har samband. Detta görs i analysen genom att mäta ett antal bakomliggande faktorer. Det handlar alltså om att identifiera dessa underliggande faktorer eller latenta variabler som förklarar mönstret av korrelationer inom en uppsättning observerade variabler. Grundidén i analysen är att identifiera ett mindre antal icke observerade eller latenta faktorer som kan förklara kovariansen mellan ett större antal observerade variabler.
För att utföra faktoranalyser behöver man vanligtvis använda en statistisk programvara som SPSS, SAS eller R. De specifika stegen och procedurerna kan variera beroende på vilket programpaket som används och vilken forskningsfråga som behandlas. Det är viktigt att ha en gedigen förståelse för den bakomliggande teorin och antagandena om faktoranalys innan du försöker tillämpa metoden på dina data.
När och hur används den?
Dessa steg används i en Faktoranalys:
- Ta fram en tes: Definiera forskningsfrågan och välja den uppsättning observerade variabler som analyseras.
- Välj metod: Börja med att välja metod med en statistisk algoritm för att identifiera de underliggande faktorerna. Några vanliga metoder är principalkomponentanalys och maximal sannolikhet uppskattning.
- Identifiera faktorerna: Identifiera antalet faktorer som ska utvinnas, vilket kan göras med hjälp av en mängd olika tekniker såsom scree plots, egenvärden och parallell analys.
- Se över lösningen: Skapa en tolkning av faktor lösningen, vilket innebär att identifiera de underliggande konstruktionerna som representeras av varje faktor och ge dem meningsfulla etiketter.
- Validering av faktor lösningen: Utvärdera faktor lösningens tillförlitlighet och giltighet med hjälp av olika statistiska mått såsom faktorbelastningar, gemenskaper och faktorkorrelationer.
Exempel
Här kommer ett exempel på en situation när man kan använda sig utav faktoranalys:
Föreställ er att ert företag har skickat ut en enkät för att mäta kundnöjdhet. Då kommer ni behöva en lättfattlig scoring av svaren. Samt att analysen hjälper er att hitta sambandet mellan underliggande faktorer.
Klusteranalys
Vad är klusteranalys?
Klusteranalys är en dataanalysteknik som går ut på att gruppera liknande objekt eller datapunkter utifrån vissa kriterier. Denna analys används för att identifiera strukturer inom ett dataset. Målet är att sortera datapoints till grupper (kluster) för att få en förståelse för hur datat är distribuerat i ett visst dataset. Det är en form av oövervakat lärande, vilket innebär att det inte krävs förkunskaper om data för att gruppera dem.
Klusteranalys kan användas bland annat för att identifiera mönster i stora datamängder, för att segmentera kunder eller marknader och för att utforska samband mellan variabler.
Det finns olika typer av klusteranalys tekniker:
- Hierarkisk klustring: Detta innebär att datapunkter grupperas i en hierarki av kluster baserat på deras likhet. Detta kan göras med hjälp av antingen agglomerativa (nedifrån och upp) eller delande (top-down) tillvägagångssätt.
- K-betyder kluster: Detta innebär att dela upp datapunkter i ett förutbestämt antal kluster baserat på deras avstånd till en uppsättning klustercentra.
- Densitetsbaserad klustring: Detta innebär att identifiera områden med hög datatäthet och gruppera punkter inom dessa områden i kluster.
Hur använder man den?
Processen att utföra klusteranalys innefattar vanligtvis följande steg:
- Dataförberedelse: Välj de variabler som ska analyseras och förbered datan för analys genom att rengöra, skala och transformera den vid behov.
- Välj en klustring algoritm: Välj sedan en lämplig klustring algoritm baserat på typen av data och forskningsfrågan som undersöks.
- Välj antal kluster: Detta innebär att bestämma det optimala antalet kluster att använda, vilket kan göras med olika tekniker som armbågsmetoden eller siluettanalys.
Exempel
Exempel på användningsområde: På ert företag så vill ni ha större förståelse för kundernas köpbeteende. Klusteranalysen identifierar grupper som delar liknande drag, datapunkter och mönster. För att sedan kunna analysera varje grupps köpbeteenden baserat på en utvald gemensam nämnare som t.ex. hur ofta de gör ett köp.
Tidsserieanalys
Vad är tidsserieanalys?
Tidsserieanalys är en statistisk metod som används för att analysera, identifiera och förstå data som varierar över tid. Det är med andra ord analyser av mönster i data som är beroende av tid. Denna typ av analys används inom många områden, såsom ekonomi, finans, teknik och miljövetenskap, för att nämna några.
Hur använder man den?
För att kunna identifiera olika trender och cykler med hjälp av tidsserieanalys, så är det viktigt att samla in data och organisera dem i kronologisk ordning. När datat är på plats så är det möjligt att börja analysera den. Följande steg är involverade i processen när man gör en tidsserieanalys:
- Visualisera data: Det är alltid en bra idé att visualisera data innan man analyserar den. Det går att använda olika typer av grafer och diagram, såsom linjediagram, punktdiagram och histogram, för att få insikt i data.
- Bryt upp data: Tidsseriedata kan delas upp i fyra komponenter: trend, säsongsvariation, cyklisk och slumpmässig. Att dekomponera data i dessa komponenter kan hjälpa er att identifiera mönster och trender i data.
- Modellera data: Det finns flera modeller som kan användas för att analysera tidsseriedata, såsom ARIMA, SARIMA och VAR. Dessa modeller använder statistiska tekniker för att analysera data och göra förutsägelser.
- Validera modellen: När du har utvecklat en modell är det viktigt att validera den. Det kan man göra genom att använda olika valideringstekniker, såsom holdout-validering och k-faldig korsning.
Exempel
Här kommer ett exempel på när man kan använda sig utav tidsserieanalys:
Låt oss föreställa att ni på ert företag vill veta hur er försäljning är fördelad under året. T.ex säljer ni ungefär lika mycket varje månad eller skiljer det sig baserat på säsong? Här kan man då analysera sin försäljning med hjälp av en tidsserieanalys. Genom att först samla in data, bryta upp komponenterna och sedan analysera med olika statiska tekniker.
Sentimentanalys
Vad är Sentimentanalys?
Sentimentanalys, även känd som opinionsmätning, är en process för att analysera text för att sedan bestämma den känsla eller känslomässiga ton som texten förmedlar. Målet med sentimentanalys är att identifiera och klassificera åsikter eller känslor som uttrycks i en text. Åsikterna och känslorna kan upplevas som positiva, negativa eller neutrala. Det används ofta i övervakning av sociala medier, marknadsundersökningar och analyser av kundfeedback.
Text klassificeras som ostrukturerad data och kan därmed inte analyseras med någon av ovanstående metoder/analyser. Därför är det bra att med hjälp av sentimentanalys förstå olika mönster i skriven text, som t.ex attityder, känslor och åsikter. Det finns flera metoder för sentimentanalys, bland annat regelbaserade metoder, maskininlärningstekniker och modeller för djupinlärning.
Sammantaget kan sentimentanalys ge värdefulla insikter om hur människor känner om en produkt, tjänst eller ämne. Därefter kan analysen hjälpa företag att fatta välgrundade beslut baserat på kundfeedback.
När och hur använder man den?
Här är en kort översikt över processen:
- Datainsamling: Samla in data med textdata som du vill analysera, som t.ex. kundrecensioner, inlägg på sociala medier eller nyhetsartiklar.
- Textförbehandling: Rengör textdata genom att ta bort brus, stoppord, skiljetecken och konvertera texten till gemener.
- Maskininlärningsmodell: Konvertera textdata till numeriska funktioner som kan matas in i en maskininlärningsmodell. Vanliga utdragstekniker inkluderar påse med ord, TF-IDF och ordinbäddningar.
- Modellval: Välj en maskininlärning algoritm som är lämplig för sentimentanalys, till exempel Naive Bayes, Support Vector Machines (SVM) eller Recurrent Neural Networks (RNN).
- Utbildning och testning: Dela upp datauppsättningen i tränings- och testuppsättningar och träna maskininlärningsmodellen på träningsuppsättningen. Utvärdera modellens prestanda på testsetet med hjälp av utvärderingsmått som noggrannhet, precision, återkallelse och F1-poäng.
- Förutsägelse: När modellen är tränad och testad, använd den för att förutsäga känslan av ny textdata.
Exempel
Ett exempel på när sentimentanalys används:
Låt oss föreställa att ert företag har skickat ut en enkät med fritextsvar, och programvaran som företaget använder har stöd för sentimentanalys. Detta gör att algoritmen själv kan räkna ut om de inkommande svaren har uttryckt positiva alternativt negativa åsikter. Därefter kan ni dra en slutsats om hur utskicket har gått.
Sammanfattning/slutsats
Nu har vi nämnt några av de vanligaste analyserna för data. När en dataanalys genomförts med hög datakvalitet så har företaget en bra grund för att nå ökad förståelse och underlag för viktiga affärsbeslut. Men precis som för andra processer som handlar om analys, så finns risken att arbetet blir för manuellt och svårt att ta vidare i verksamheten. En del företag och organisationer väljer istället att arbeta med sin analys, uppföljning och rapportering i en bredare mjukvara som erbjuder flera möjligheter. Men i själva verket så handlar det om att börja agera på insikterna från de olika analyserna. Så kom ihåg att det enda som faktiskt leder till förändring i företaget är att man ser till att omvandla insikterna till konkreta handlingar på företaget.