الإحصاء هو العمود الفقري لعلم البيانات. للاستفادة الكاملة من قوته، يجب على المرء أن يبدأ من فهم الإحصاء الوصفي الأساسي إلى إتقان التقنيات المتقدمة مثل تحليل الانحدار واختبار الفرضيات. يهدف هذا المنشور إلى إرشادك خطوة بخطوة عبر هذه الموضوعات الأساسية، مقدماً نظرة شاملة لعلماء البيانات بمستويات مهارية متنوعة.

سواء كنت عالم بيانات مبتدئاً أو تسعى لتحسين مهاراتك الإحصائية، سيكشف هذا الدليل عن تعقيدات الإحصاء التي ستعزز مجموعة أدواتك التحليلية.

الإحصاء الوصفي: وضع الأساس

يشمل الإحصاء الوصفي الأساليب المستخدمة لتلخيص ووصف السمات الرئيسية لمجموعة البيانات. يتضمن ذلك مقاييس النزعة المركزية، ومقاييس التشتت، وتقنيات تصور البيانات.

مقاييس النزعة المركزية

المتوسط: القيمة المتوسطة.
الوسيط: القيمة الوسطى عند ترتيب نقاط البيانات.
المنوال: القيمة الأكثر تكراراً.

import numpy as np
 
data = [86, 90, 75, 83, 89]
mean = np.mean(data)
median = np.median(data)
mode = max(set(data), key = data.count)
 
print(f"Mean: {mean}, Median: {median}, Mode: {mode}")

الناتج:

Mean: 84.6, Median: 86.0, Mode: 75

مقاييس التشتت

المدى: الفرق بين القيمة القصوى والدنيا.
التباين: مربع الانحراف عن المتوسط.
الانحراف المعياري: متوسط الانحراف عن المتوسط.

std_dev = np.std(data)
variance = np.var(data)
 
print(f"Standard Deviation: {std_dev}, Variance: {variance}")

الناتج:

Standard Deviation: 5.683308895353124, Variance: 32.3

توفر مقاييس النزعة المركزية والتشتت لمحة عن البيانات، لكن الأدوات البصرية مثل الرسوم البيانية تضيف طبقة إضافية من الفهم.

تصور البيانات باستخدام جداول التكرار والرسوم البيانية

تعرض جداول التكرار والرسوم البيانية مدى تكرار كل قيمة ضمن مجموعة البيانات. على سبيل المثال:

import matplotlib.pyplot as plt
 
# Data
transport_modes = ['Car', 'Bike', 'Walk', 'Public Transport']
frequency = [14, 6, 5, 5]
 
# Bar Chart
plt.bar(transport_modes, frequency)
plt.title('Mode of Transport to Work')
plt.show()

الإحصاء الاستدلالي: إجراء التنبؤات

يوفر الإحصاء الوصفي وضوحاً حول البيانات المتوفرة لديك. من ناحية أخرى، يتيح لك الإحصاء الاستدلالي إجراء تنبؤات وتعميمات حول مجتمع بناءً على عينة.

اختبار الفرضيات

يُقيّم اختبار الفرضيات فرضيتين متعارضتين حول مجتمع ما. تمثل فرضية العدم ((H_0)) عادةً السيناريو القياسي أو سيناريو عدم التأثير، بينما تمثل الفرضية البديلة ((H_1)) فرضية البحث.

فرضية العدم ((H_0)): لا يوجد تأثير أو فرق.
الفرضية البديلة ((H_1)): يوجد تأثير أو فرق.

اختبارات T

تحدد اختبارات T ما إذا كانت هناك فروق ذات دلالة إحصائية بين متوسطات مجموعتين.

اختبار T لعينة واحدة: مقارنة متوسط العينة بقيمة معروفة.
اختبار T للعينات المستقلة: مقارنة متوسطات مجموعتين مستقلتين.
اختبار T للعينات المزدوجة: مقارنة المتوسطات من نفس المجموعة في أوقات مختلفة.

from scipy import stats
 
# Independent Samples T-Test example
group1 = [20, 22, 19, 24, 23]
group2 = [17, 23, 21, 19, 25]
t_stat, p_value = stats.ttest_ind(group1, group2)
 
print(f"T-Statistic: {t_stat}, P-Value: {p_value}")

الناتج:

T-Statistic: -0.24019223070763057, P-Value: 0.8138357147212547

تحليل التباين (ANOVA)

يمتد تحليل التباين ANOVA على اختبار T ليشمل أكثر من مجموعتين.

import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
 
# Data
df = pd.DataFrame({
    'salary': [50000, 58000, 49000, 62000, 55000, 70000, 65500, 68000, 57500],
    'department': ['HR', 'Finance', 'HR', 'Finance', 'IT', 'IT', 'HR', 'Finance', 'IT']
})
 
# ANOVA
model = ols('salary ~ C(department)', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
 
print(anova_table)

الناتج:

                sum_sq    df         F    PR(>F)
C(department)  546000000.0   2  2.237614  0.167598
Residual      1171250000.0   6       NaN       NaN

تحليل الانحدار

تحليل الانحدار محوري في علم البيانات للتنبؤ بالعلاقات بين المتغيرات.

الانحدار الخطي البسيط

يفحص العلاقة بين متغيرين مستمرين.

from sklearn.linear_model import LinearRegression
 
# Data
X = np.array([1, 2, 3, 4, 5]).reshape((-1, 1))
y = np.array([1, 3, 2, 5, 4])
 
# Model
model = LinearRegression().fit(X, y)
r_sq = model.score(X, y)
 
print(f"Coefficient of determination: {r_sq}")
print(f"Intercept: {model.intercept_}")
print(f"Slope: {model.coef_}")

الناتج:

Coefficient of determination: 0.6
Intercept: 0.9999999999999996
Slope: [0.8]

الانحدار الخطي المتعدد

يأخذ في الاعتبار متغيرات تفسيرية متعددة للتنبؤ بنتيجة متغير الاستجابة.

# Data
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
y = np.array([1, 3, 2, 5, 4])
 
# Model
model = LinearRegression().fit(X, y)
r_sq = model.score(X, y)
 
print(f"Coefficient of determination: {r_sq}")
print(f"Intercept: {model.intercept_}")
print(f"Coefficients: {model.coef_}")

الناتج:

Coefficient of determination: 0.7999999999999998
Intercept: 0.20000000000000018
Coefficients: [0.4 0.4]

الخلاصة

إتقان الإحصاء، من الإحصاء الوصفي الأساسي إلى الانحدار المتقدم واختبار الفرضيات، ضروري لتحليل البيانات القوي والبحث العلمي. تشكل هذه التقنيات الأساس الذي يمكن لعلماء البيانات من خلاله اتخاذ قرارات سليمة مبنية على البيانات.

استمر في الاستكشاف وتحسين مهاراتك في الإحصاء لاستخلاص رؤى أعمق من بياناتك واتخاذ قرارات مؤثرة.

المرجع:

المصدر: DATAtab

إتقان الإحصاء: من الأساسيات الوصفية إلى الانحدار المتقدم واختبار الفرضيات

الإحصاء الوصفي: وضع الأساس

مقاييس النزعة المركزية

مقاييس التشتت

تصور البيانات باستخدام جداول التكرار والرسوم البيانية

الإحصاء الاستدلالي: إجراء التنبؤات

اختبار الفرضيات

اختبارات T

تحليل التباين (ANOVA)

تحليل الانحدار

الانحدار الخطي البسيط

الانحدار الخطي المتعدد

الخلاصة

ناقش مشروعك معنا

مقالات ذات صلة

بناء مفسر الأكواد الخاص بك مع توليد الأدوات الديناميكية

استكشف تجزئة الصور والفيديو المحسنة مع SAM 2 لنتائج دقيقة ومدركة للسياق

استكشاف Transformers.js