Statistikk og maskinlæring

Metoder innen statistikk og maskinlæring brukt i dataanalyse

Hva er statistikk og maskinlæring?

Statistiske metoder

Brukes ofte for å forstå data, teste hypoteser og lage enkle prediksjonsmodeller:

  • Lineær regresjon

  • Logistisk regresjon

  • Hypotesetesting (t-tester, chi-kvadrat, ANOVA)

  • Korrelasjonsanalyse (Pearson, Spearman)

  • Variansanalyse (ANOVA)

  • Bayesiansk statistikk

  • Kaplan-Meier estimator (overlevelsesanalyse)

  • Multivariat regresjon

  • Tidserieanalyse (ARIMA, eksponentiell glatting)

 

Maskinlæringsmetoder

Brukes for mer avansert mønstergjenkjenning, prediksjon og beslutningsstøtte.

Supervised learning (med treningsdata med fasit):

  • Beslutningstrær

  • Random Forest

  • Støttevektormaskiner (SVM)

  • K-nearest neighbors (KNN)

  • Gradient Boosting (XGBoost, LightGBM)

  • Nevrale nettverk / Deep learning

  • Naive Bayes

Unsupervised learning (uten fasit):

  • K-means clustering

  • Hierarkisk klynging

  • DBSCAN

  • Principal Component Analysis (PCA)

  • t-SNE / UMAP (visualisering av høy-dimensjonale data)

  • Association rule learning (Apriori, FP-growth)

Reinforcement learning (læring via belønning):

  • Q-learning

  • Deep Q-networks (DQN)

  • Policy gradient-metoder

Modellvurdering og forbedring

  • Cross-validation

  • Grid search / Hyperparameter tuning

  • Confusion matrix

  • ROC/AUC

  • Precision, Recall, F1-score

Tips til å forstå statistiske modeller og maskinlæring

  • Dimensjonsreduksjon:

    • Principal Component Analysis (PCA)

  • Prediktive modeller (supervised learning):

    • Linear regression

    • Gini impurity (brukes i beslutningstrær for klassifisering)

  • Klynging (unsupervised learning):

    • Cluster analysis

    • K-means clustering

Trenger du hjelp med å tolke data fra datasett?

Kontakt oss for en gratis og uforpliktende samtale

    Din samtykke til at informasjon lagres i vår e-post database*