Les statistiques sont l'épine dorsale de la science des données. Pour exploiter pleinement leur puissance, il faut parcourir le chemin de la compréhension des statistiques descriptives de base à la maîtrise de techniques avancées comme l'analyse de régression et les tests d'hypothèses. Cet article de blog vise à vous guider étape par étape à travers ces sujets essentiels.

Que vous soyez un data scientist débutant ou que vous cherchiez à affiner votre acuité statistique, ce tutoriel dévoilera les subtilités des statistiques qui renforceront votre boîte à outils analytique.

Statistiques descriptives : Poser les fondations

Les statistiques descriptives englobent les méthodes utilisées pour résumer et décrire les principales caractéristiques d'un ensemble de données. Cela inclut les mesures de tendance centrale, les mesures de dispersion et les techniques de visualisation des données.

Mesures de tendance centrale

Moyenne : La valeur moyenne.
Médiane : La valeur du milieu lorsque les données sont ordonnées.
Mode : La valeur la plus fréquente.

import numpy as np
 
data = [86, 90, 75, 83, 89]
mean = np.mean(data)
median = np.median(data)
mode = max(set(data), key = data.count)
 
print(f"Moyenne: {mean}, Médiane: {median}, Mode: {mode}")

Sortie :

Moyenne: 84.6, Médiane: 86.0, Mode: 75

Mesures de dispersion

Étendue : Différence entre les valeurs max et min.
Variance : Écart au carré par rapport à la moyenne.
Écart-type : Écart moyen par rapport à la moyenne.

std_dev = np.std(data)
variance = np.var(data)
 
print(f"Écart-type: {std_dev}, Variance: {variance}")

Sortie :

Écart-type: 5.683308895353124, Variance: 32.3

Visualisation des données avec des tableaux de fréquences et des graphiques

Les tableaux de fréquences et les graphiques affichent la fréquence d'apparition de chaque valeur dans un ensemble de données.

import matplotlib.pyplot as plt
 
# Données
transport_modes = ['Voiture', 'Vélo', 'Marche', 'Transport public']
frequency = [14, 6, 5, 5]
 
# Graphique à barres
plt.bar(transport_modes, frequency)
plt.title('Mode de transport pour aller au travail')
plt.show()

Statistiques inférentielles : Faire des prédictions

Les statistiques descriptives apportent de la clarté sur les données que vous avez. Les statistiques inférentielles, quant à elles, vous permettent de faire des prédictions et des généralisations sur une population à partir d'un échantillon.

Tests d'hypothèses

Les tests d'hypothèses évaluent deux hypothèses opposées sur une population. L'hypothèse nulle (H0) représente généralement le scénario standard ou sans effet, tandis que l'hypothèse alternative (H1) représente l'hypothèse de recherche.

Hypothèse nulle (H0) : Pas d'effet ou de différence.
Hypothèse alternative (H1) : Il y a un effet ou une différence.

Tests T

Les tests T déterminent s'il existe des différences significatives entre les moyennes de deux groupes.

Test T à un échantillon : Compare la moyenne de l'échantillon à une valeur connue.
Test T à échantillons indépendants : Compare les moyennes de deux groupes indépendants.
Test T à échantillons appariés : Compare les moyennes du même groupe à différents moments.

from scipy import stats
 
# Exemple de test T à échantillons indépendants
group1 = [20, 22, 19, 24, 23]
group2 = [17, 23, 21, 19, 25]
t_stat, p_value = stats.ttest_ind(group1, group2)
 
print(f"Statistique T: {t_stat}, Valeur P: {p_value}")

ANOVA (Analyse de la variance)

L'ANOVA étend le test T à plus de deux groupes.

import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
 
# Données
df = pd.DataFrame({
    'salary': [50000, 58000, 49000, 62000, 55000, 70000, 65500, 68000, 57500],
    'department': ['RH', 'Finance', 'RH', 'Finance', 'IT', 'IT', 'RH', 'Finance', 'IT']
})
 
# ANOVA
model = ols('salary ~ C(department)', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
 
print(anova_table)

Analyse de régression

L'analyse de régression est essentielle en science des données pour prédire les relations entre variables.

Régression linéaire simple

Examine la relation entre deux variables continues.

from sklearn.linear_model import LinearRegression
 
# Données
X = np.array([1, 2, 3, 4, 5]).reshape((-1, 1))
y = np.array([1, 3, 2, 5, 4])
 
# Modèle
model = LinearRegression().fit(X, y)
r_sq = model.score(X, y)
 
print(f"Coefficient de détermination: {r_sq}")
print(f"Ordonnée à l'origine: {model.intercept_}")
print(f"Pente: {model.coef_}")

Régression linéaire multiple

Considère plusieurs variables explicatives pour prédire le résultat d'une variable de réponse.

# Données
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([1, 3, 2, 5, 4])
 
# Modèle
model = LinearRegression().fit(X, y)
r_sq = model.score(X, y)
 
print(f"Coefficient de détermination: {r_sq}")
print(f"Ordonnée à l'origine: {model.intercept_}")
print(f"Coefficients: {model.coef_}")

Conclusion

Maîtriser les statistiques, des statistiques descriptives de base à la régression avancée et aux tests d'hypothèses, est essentiel pour une analyse de données robuste et une recherche scientifique. Ces techniques forment la base sur laquelle les data scientists peuvent prendre des décisions éclairées et basées sur les données.

Continuez à explorer et à affiner vos compétences en statistiques pour extraire des insights plus profonds de vos données et prendre des décisions impactantes.

Référence :

Source : DATAtab