۲۱ اسفند

جزوه «داده‌کاوی؛ مدل‌ها، الگوریتم‌ها و کاربردها»

مدرس جزوه: خانم دکتر گماسائی (عضو هیئت علمی دانشکده مهندسی صنایع و سیستم‌های مدیریت دانشگاه صنعتی امیرکبیر)

این جزوه دوزبانه (فارسی و انگلیسی) در دو بخش با خطی خوانا و با کیفیت محتوایی و نوشتاری مطلوب آماده شده است. بخش اول شامل مقدمات داده‌کاوی و روش‌های خوشه‌بندی است، بخش دوم شامل رگرسیون، روش‌های طبقه‌بندی، روش‌های کاهش ابعاد و قواعد انجمنی است.

فهرست مطالب جزوه درس داده‌کاوی – بخش اول شامل مقدمات داده‌کاوی و روش‌های خوشه‌بندی در ۹۸ صفحه:

بخش مقدمات داده‌کاوی

  • معرفی اولیه درس و بیان اهداف درس
  • معرفی منابع و مراجع درس
  • تعریف داده‌کاوی و بیان کاربردهای متنوع آن (Data Mining Definition)
  • کاربردهای مختلف داده‌کاوی در کسب‌وکار
  • الزامات اجرای فرآیند داده‌کاوی
  • ویژگی‌های ابزارهای داده‌کاوی
  • مقدمه‌ای بر نرم‌افزارهای داده‌کاوی (Data Mining Software)
  • مقدمه‌ای بر دو فرآیند استاندارد اجرای داده‌کاوی (Data Mining Standard Processes) 
    • تشریح متدولوژی CRISP-DM
      • مرحله درک کسب‌وکار (Business Understanding)
      • مرحله درک داده‌ها (Data Understanding)
      • مرحله آماده‌سازی داده‌ها (Data Preparation)
      • مرحله ساخت مدل (Model Building)
      • مرحله تست کردن و ارزیابی مدل (Testing & Evaluation)
      • مرحله توسعه مدل (Deployment)
    • بحث تبدیل داده‌ها (Data Transformation)
    • تشریح مقدماتی متدولوژی SEMMA
  • انواع داده‌ها و نحوه طبقه‌بندی و کدگذاری آن‌ها
  • بحث مصیبت ابعاد در داده‌ها (Curse of Dimensionality)
  • بحث یکپارچه‌سازی داده‌ها (Data Integration)
  • روش‌های پیدا کردن ویژگی‌های مشابه در داده‌ها (Finding Redundant Attributes)
    • تشریح روش مربع کای به همراه مثال
    • تشریح روش ضریب همبستگی و کوواریانس داده‌ها
  • روش‌های نرمال‌سازی داده‌ها به همراه مثال (Data Normalization)
    • روش حداقل-حداکثر
    • روش انحراف معیار
  • هموارسازی داده‌ها و پاکسازی داده‌ها (Data Smoothing & Data Cleaning)
  • تجزیه و تحلیل نقاط پرت (Outlier Analysis)
    • تکنیک‌های مصورسازی یا گرافیکی مانند نمودارهای دوبعدی، سه بعدی و نمودار جعبه‌ای
    • تکنیک‌های آماری مانند روش حد آستانه یا روش MAD
    • تکنیک‌های مبتنی بر فاصله مانند فاصله اقلیدسی یا فاصله Mahalanobis
    • تکنیک‌های مبتنی بر مدل

بخش روش‌های خوشه‌بندی (Data Clustering)

  • مقدمه‌ای بر انواع روش‌های یادگیری در فاز مدل‌سازی داده‌ها
    • یادگیری بانظارت (Supervised Learning)
    • یادگیری بدون نظارت (UnSupervised Learning)
    • یادگیری نیمه نظارتی (Semi-Supervised Learning) 
    • یادگیری تقویتی (Reinforcement Learning)
  • تشریح مفهوم خوشه‌بندی و کاربردهای مختلف آن
  • روش خوشه‌بندی K-Means به همراه مثال حل شده
  • روش خوشه‌بندی FCM به همراه مثال حل شده
  • روش خوشه‌بندی سلسله مراتبی (Hierarchical Clustering) به همراه دو مثال حل شده
  • روش خوشه‌بندی GMM به همراه مثال حل شده
  • تشریح اندیس‌های اعتبارسنجی و پنج شاخص جهت تعیین تعداد خوشه بهینه

 

 

فهرست مطالب جزوه درس داده‌کاوی – بخش دوم شامل رگرسیون، روش‌های طبقه‌بندی، روش‌های کاهش ابعاد و قواعد وابستگی/انجمنی در ۱۰۴ صفحه:

  • بخش رگرسیون خطی (Linear Regression)
    • رگرسیون خطی تک متغیره به همراه مثال حل شده و تحلیل کامل
    • تشریح شاخص‌های تعیین دقت مدل رگرسیون خطی تک متغیره
    • رگرسیون خطی چندمتغیره به همراه مثال حل شده و تحلیل کامل
    • تشریح شاخص‌های تعیین دقت مدل رگرسیون خطی چندمتغیره
  • روش‌های طبقه‌بندی داده‌ها (Data Classification)
    • روش بیز ساده (Naive Bayes) به همراه مثال حل شده
    • روش درخت تصمیم (Decision Tree) به همراه مثال حل شده
    • روش K نزدیک‌ترین همسایگی (KNN) به همراه مثال حل شده
  • روش‌های کاهش ابعاد داده‌ها (Dimension Reduction Methods)
    • مقدمه‌ای بر مفاهیم جبرخطی (مانند بردار ویژه و مقدار ویژه)
    • روش تحلیل مؤلفه‌های اصلی (PCA) به همراه چند مثال حل شده
    • روش تجزیه مقدار واحد (SVD) به همراه چند مثال حل شده
  • مقدمه‌ای بر قواعد وابستگی/انجمنی (Association Rules)
    • قواعد همبستگی و تحلیل سبد بازار
    • تشریح الگوریتم Apriori به همراه چند مثال حل شده
    • نحوه ساخت قواعد وابستگی با اطمینان بالا براساس مجموعه اقلام پرتکرار
    • تشریح الگوریتم FPGrowth به همراه مثال حل شده

 

دیدگاه خود را بنویسید