یادگیری نظارتنشده یکی از شاخههای مهم یادگیری ماشین است که بدون استفاده از برچسبهای مشخص، الگوهای پنهان را در دادهها کشف میکند. در این فرایند، هوش مصنوعی در آمار نقش کلیدی در تحلیل دادهها و استخراج ویژگیهای معنادار دارد.
یکی از ابزارهای مهم در این زمینه، تحلیل همبستگی است که به بررسی ارتباط بین متغیرها و کاهش ابعاد دادهها کمک میکند. با استفاده از همبستگی، میتوان متغیرهای زائد را حذف کرد، خوشهبندی دادهها را بهبود بخشید و الگوهای پنهان را بهتر شناسایی کرد.

چگونه تحلیل همبستگی باعث بهینهسازی مدلهای یادگیری ماشین میشود؟
در یادگیری ماشین، مدلها برای استخراج الگوها از دادهها استفاده میشوند. اما کیفیت دادهها و ارتباط بین متغیرها تأثیر مستقیمی بر عملکرد مدلها دارد. یکی از ابزارهای آماری مهم در این زمینه تحلیل همبستگی (Correlation Analysis) است که به ما کمک میکند روابط بین متغیرها را بررسی کنیم. این تحلیل در بهینهسازی مدلهای یادگیری ماشین نقش مهمی ایفا میکند، بهویژه در کاهش ابعاد دادهها، بهبود دقت مدل و جلوگیری از بیشبرازش (Overfitting).
1. تحلیل همبستگی چیست؟
تحلیل همبستگی در آمار به اندازهگیری میزان وابستگی بین دو یا چند متغیر گفته میشود. اگر دو متغیر بهطور معناداری با یکدیگر مرتبط باشند، تغییر در یکی میتواند به تغییر در دیگری منجر شود. این رابطه معمولاً با ضریب همبستگی (Correlation Coefficient) اندازهگیری میشود.
الف) ضریب همبستگی پیرسون (Pearson Correlation Coefficient)
یکی از رایجترین روشهای اندازهگیری همبستگی است که مقدار آن بین -1 تا +1 قرار دارد:
- +1 → همبستگی مثبت کامل (هرچه یک متغیر افزایش یابد، متغیر دیگر نیز افزایش مییابد)
- 0 → عدم وجود همبستگی (هیچ رابطهای بین متغیرها وجود ندارد)
- -1 → همبستگی منفی کامل (هرچه یک متغیر افزایش یابد، متغیر دیگر کاهش مییابد)
ب) سایر روشهای تحلیل همبستگی
- همبستگی اسپیرمن (Spearman’s Rank Correlation): مناسب برای دادههای غیرخطی و رتبهبندی شده.
- همبستگی کندال تاو (Kendall’s Tau): برای بررسی همبستگی در دادههای ناپارامتری.
- ماتریس همبستگی: نمایش همبستگی بین چندین متغیر در یک ماتریس.
2. نقش همبستگی در بهینهسازی مدلهای یادگیری ماشین
الف) کاهش ابعاد دادهها (Dimensionality Reduction)
در بسیاری از مسائل یادگیری ماشین، دادهها شامل تعداد زیادی متغیر هستند. برخی از این متغیرها همبستگی بالایی با یکدیگر دارند، به این معنی که اطلاعات مشابهی را منتقل میکنند. در چنین حالتی، میتوان با حذف متغیرهای همبسته، تعداد ویژگیهای مدل را کاهش داد. این کار باعث افزایش کارایی مدل و کاهش پیچیدگی محاسباتی میشود.
مثال:
فرض کنید در یک مجموعه داده مربوط به سلامت، دو متغیر "وزن" و "شاخص توده بدنی (BMI)" دارای همبستگی بالای ۰.۹ هستند. از آنجایی که این دو متغیر اطلاعات مشابهی ارائه میدهند، میتوان یکی از آنها را حذف کرد تا دادهها سادهتر شوند.
ب) کاهش مشکل همخطی (Multicollinearity) در مدلهای رگرسیون
در مدلهای رگرسیون مانند رگرسیون خطی و رگرسیون لجستیک، وجود متغیرهای همبسته میتواند باعث ایجاد همخطی (Multicollinearity) شود. این مشکل منجر به ناپایداری ضرایب مدل و کاهش دقت پیشبینی میشود. با شناسایی متغیرهای همبسته و حذف یا ترکیب آنها، میتوان دقت مدل را بهبود بخشید.
مثال:
در یک مدل رگرسیون برای پیشبینی قیمت مسکن، دو ویژگی "متراژ خانه" و "تعداد اتاقها" ممکن است همبستگی بالایی داشته باشند (مثلاً r=0.85r = 0.85). این همبستگی باعث مشکل در برآورد ضرایب مدل میشود. راهحل این است که یکی از این متغیرها حذف شود یا ترکیبی از آنها (مانند میانگین اتاق در هر مترمربع) ایجاد شود.
ج) بهبود خوشهبندی (Clustering) در یادگیری نظارتنشده
در یادگیری نظارتنشده، الگوریتمهای خوشهبندی مانند K-Means و DBSCAN به شباهت بین دادهها وابسته هستند. اگر ویژگیهایی با همبستگی بالا در مجموعه داده وجود داشته باشند، خوشهبندی ممکن است دچار انحراف شود. با بررسی همبستگی بین متغیرها و انتخاب ویژگیهای مؤثرتر، دقت خوشهبندی بهبود مییابد.
مثال:
در تحلیل رفتار مشتریان یک فروشگاه آنلاین، ویژگیهای "تعداد خرید در ماه" و "میزان هزینه کل" همبستگی بالایی دارند. اگر هر دو در مدل خوشهبندی استفاده شوند، ممکن است باعث تأثیر نامتناسب یک گروه از ویژگیها بر نتایج شود. با حذف یکی از آنها، مدل عملکرد بهتری خواهد داشت.
د) بهبود عملکرد شبکههای عصبی و مدلهای پیچیدهتر
شبکههای عصبی و مدلهای یادگیری عمیق معمولاً دادههای بزرگ و پیچیدهای را پردازش میکنند. اگر متغیرهای ورودی دارای همبستگی زیاد باشند، مدل ممکن است اطلاعات تکراری دریافت کند که باعث کاهش سرعت آموزش و افزایش هزینه محاسباتی میشود. با استفاده از تحلیل همبستگی، میتوان ورودیهای بهینهتری انتخاب کرد.
مثال:
در پردازش تصویر، ویژگیهای مرتبط با روشنایی و کنتراست ممکن است همبستگی بالایی داشته باشند. حذف یکی از این ویژگیها یا ترکیب آنها در یک شاخص ترکیبی میتواند کارایی مدل را افزایش دهد.
نقش تحلیل آماری در بهبود الگوریتمهای یادگیری نظارتنشده
یادگیری نظارتنشده یکی از شاخههای مهم یادگیری ماشین است که بدون استفاده از دادههای برچسبدار، الگوهای پنهان را در دادهها کشف میکند. تحلیل آماری در این فرآیند نقشی کلیدی دارد، زیرا به ما کمک میکند دادهها را بهتر درک کنیم، ویژگیهای مهم را شناسایی کرده و الگوریتمهای خوشهبندی و کاهش ابعاد را بهینه کنیم.
1. تحلیل توزیع دادهها و پیشپردازش اولیه
قبل از اعمال هر الگوریتم یادگیری نظارتنشده، شناخت توزیع دادهها اهمیت زیادی دارد. برخی از روشهای تحلیل آماری برای درک توزیع دادهها شامل موارد زیر هستند:
الف) بررسی توزیع نرمال و نقش آن در الگوریتمها
بسیاری از الگوریتمهای یادگیری ماشین، بهویژه روشهایی مانند تحلیل مؤلفههای اصلی (PCA)، فرض میکنند که دادهها توزیع نرمال دارند. اگر دادهها نرمال نباشند، عملکرد مدل کاهش مییابد. برای بررسی این موضوع از آزمونهای آماری مانند آزمون شاپیرو-ویلک و آزمون کولموگروف-اسمیرنوف استفاده میشود.
مثال:
فرض کنید یک مجموعه داده شامل ویژگیهای خرید مشتریان در یک فروشگاه است. اگر مقادیر خرید بهشدت نامتقارن باشد، میتوان با استفاده از تبدیل لگاریتمی یا نرمالسازی دادهها، عملکرد مدل را بهبود داد.
2. شناسایی نقاط پرت و تأثیر آن در خوشهبندی
نقاط پرت دادههایی هستند که بهطور قابل توجهی با سایر نمونههای مجموعه داده تفاوت دارند. وجود نقاط پرت میتواند نتایج الگوریتمهای یادگیری نظارتنشده، بهویژه در خوشهبندی (Clustering) را تحت تأثیر قرار دهد. روشهای آماری برای شناسایی نقاط پرت شامل موارد زیر هستند:
الف) استفاده از معیار IQR برای شناسایی نقاط پرت
این روش مبتنی بر محاسبه چارکها است و هر دادهای که خارج از محدوده مشخصشده باشد، بهعنوان نقطه پرت در نظر گرفته میشود.
ب) تحلیل آماری با Z-Score برای شناسایی نقاط پرت
در این روش، میزان فاصله هر مقدار از میانگین دادهها برحسب انحراف معیار بررسی میشود. اگر مقدار Z-score از مقدار مشخصی بیشتر یا کمتر باشد، احتمال دارد داده یک نقطه پرت باشد.
مثال:
فرض کنید در یک مجموعه داده مربوط به بررسی زمان حضور کارمندان در محل کار، اکثر افراد بین ۸ تا ۱۰ ساعت کار میکنند، اما یک فرد ۲۰ ساعت حضور دارد. این مقدار بسیار خارج از محدوده است و میتواند یک نقطه پرت باشد که باعث اختلال در تحلیل دادهها میشود.
3. بررسی وابستگی بین ویژگیها و کاهش ابعاد دادهها
در بسیاری از مسائل یادگیری ماشین، برخی از ویژگیها اطلاعات مشابهی ارائه میدهند. در چنین مواردی، تحلیل همبستگی و کاهش ابعاد دادهها باعث بهینهسازی عملکرد مدل میشود.
الف) تحلیل همبستگی برای حذف متغیرهای اضافی
بررسی میزان ارتباط بین متغیرها نشان میدهد که آیا برخی ویژگیها میتوانند حذف شوند یا نه. متغیرهایی که همبستگی بالایی دارند، اطلاعات مشابهی ارائه میدهند و ممکن است حذف یا ترکیب شوند.
ب) استفاده از تحلیل مؤلفههای اصلی (PCA) برای کاهش ابعاد
یکی از روشهای آماری مهم برای بهینهسازی مدلهای یادگیری نظارتنشده، تحلیل مؤلفههای اصلی (PCA) است. این روش کمک میکند که ویژگیهای پرکاربردتر حفظ شده و دادههای غیرضروری حذف شوند.
مثال:
در یک مجموعه داده مربوط به تحلیل عملکرد دانشآموزان، متغیرهای "نمره دروس ریاضی" و "نمره فیزیک" ممکن است همبستگی بالایی داشته باشند. با استفاده از PCA، میتوان این دو ویژگی را در یک متغیر جدید ترکیب کرد و ابعاد داده را کاهش داد.
4. خوشهبندی و ارزیابی کیفیت خوشهها
یکی از اهداف یادگیری نظارتنشده، دستهبندی دادهها در گروههای مشخص است. برای اطمینان از کیفیت خوشهبندی، تحلیل آماری نقش مهمی ایفا میکند.
الف) تعیین تعداد بهینه خوشهها با روشهای آماری
در الگوریتمهایی مانند K-Means، تعیین تعداد خوشهها یکی از چالشهای اصلی است. برخی روشهای آماری که به انتخاب تعداد بهینه خوشهها کمک میکنند عبارتاند از:
- روش Elbow: بررسی تغییرات واریانس درونخوشهای برای تعیین نقطه بهینه.
- شاخص سیلوئت (Silhouette Score): ارزیابی میزان تفکیکپذیری خوشهها.
ب) ارزیابی کیفیت خوشهبندی با استفاده از معیارهای آماری
پس از خوشهبندی، باید کیفیت خوشهها بررسی شود. برخی از روشهای آماری شامل موارد زیر هستند:
- میانگین فاصله درونخوشهای: هرچه مقدار آن کمتر باشد، دادههای درون هر خوشه به هم نزدیکترند.
- میانگین فاصله بینخوشهای: هرچه مقدار آن بیشتر باشد، خوشهها بهتر تفکیک شدهاند.
مثال:
فرض کنید در یک مجموعه داده مربوط به مشتریان یک فروشگاه، مشتریان بر اساس میزان خریدشان خوشهبندی شدهاند. اگر شاخص سیلوئت مقدار پایینی داشته باشد، ممکن است برخی خوشهها بهدرستی تفکیک نشده باشند و نیاز به تغییر تعداد خوشهها باشد.
5. تشخیص الگوها و روابط پنهان در دادهها
یادگیری نظارتنشده اغلب برای کشف الگوهای پنهان در دادهها استفاده میشود. تحلیل آماری به شناسایی این الگوها کمک میکند.
الف) استفاده از تحلیل خوشهای برای گروهبندی دادهها
برخی روشهای خوشهبندی مانند DBSCAN میتوانند ساختارهای پیچیدهای را در دادهها شناسایی کنند که به کمک تحلیل آماری میتوان اعتبار آنها را ارزیابی کرد.
ب) تحلیل مولفههای مستقل (ICA) برای تشخیص الگوها
تحلیل مؤلفههای مستقل (ICA) روشی در تحلیل آماری است که برای استخراج سیگنالهای پنهان از دادههای پیچیده به کار میرود. این روش در پردازش تصویر و صوت نیز کاربرد زیادی دارد.
مثال:
در تحلیل رفتار مشتریان، روشهای آماری کمک میکنند که گروههای مشتریانی که رفتار خرید مشابهی دارند، شناسایی شوند. این اطلاعات میتواند برای طراحی کمپینهای تبلیغاتی هدفمند استفاده شود.

جمعبندی
تحلیل همبستگی یک ابزار آماری ارزشمند برای بهینهسازی مدلهای یادگیری ماشین است. این روش به کاهش ابعاد داده، بهبود دقت مدل، جلوگیری از همخطی، بهینهسازی خوشهبندی و افزایش کارایی شبکههای عصبی کمک میکند. استفاده از همبستگی در تحلیل دادهها و انتخاب ویژگیهای بهینه، باعث کاهش پیچیدگی محاسباتی و بهبود عملکرد کلی مدلها میشود.