معرفی مباحث دوره
در دوره پیش رو مباحث فرآیند داده کاوی در دو بخش ۱- شناخت و آماده سازی داده ها ۲- مدلسازی و ارزیابی مورد بحث قرار می گیرند. در هر بخش موضوعات مختلفی مطرح خواهد شد که در دیاگرام زیر قابل مشاهده است:
در دوره پیش رو مباحث فرآیند داده کاوی در دو بخش ۱- شناخت و آماده سازی داده ها ۲- مدلسازی و ارزیابی مورد بحث قرار می گیرند. در هر بخش موضوعات مختلفی مطرح خواهد شد که در دیاگرام زیر قابل مشاهده است:
قبل از آنکه بخواهیم به روش های توصیف و کاوش داده ها بپردازیم به موضوع گردآوری داده ها خواهیم پرداخت. فرض کنیم میخواهیم یک مسئله واقعی را حل نماییم، یکی از سوال هایی که از دیتا ساینتیست ها سوال می شود این است که به چه پارامتر های و دیتاهایی باید بیشتر اهمیت دهیم. به
روش های توصیف و کاوش در داده Read More »
دانش داده کاوی فرآیند کشف دانش پنهان درون داده های انبوه می باشد که این مهم توسط الگوریتم ها و نرم افزارهای داده کاوی انجام می پذیرد. در این میان نرم افزار داده کاوی کلمنتاین (IBM SPSS Modeler) یکی از نرم افزارهای برتر داده کاوی از شرکت IBM می باشد که به صورت گسترده ای
آشنایی با نرم افزار SPSS Modeler Read More »
در این بخش به آموزش وارد نمودن انواع دیتا ها از طریق های مختلفی همچون فایل های Comma Separated، اکسل، دیتابیس ها و همچنین Sim Gen آشنا خواهیم شد. علاوه به موارد ذکر شده با نکات ظریف حائز اهمیت جهت ورود دیتا و تنظیمات اولیه آشنا خواهیم شد. در ادامه خواهیم آموخت که چطور از
ورود داده و توصیف آن در نرم افزار Read More »
داده های واقعی عموما دارای انواع مشکلات کیفی هستند که نیاز به پاکسازی را ضروری می نماید. استفاده از داده های خام و دارای مشکلات کیفی، منجر به کاهش عملکرد الگوریتم ها، اختلال در شناسایی الگوها و نتایج گمراه کننده می شود. یکی از چالشهای مهم و جدی عدم وجود دادههای صحیح است. بهعنوان مثال
مقدمه ای بر کیفیت داده ها Read More »
داده های خارج از بازه: به داده ای، داده خارج از بازه گفته می شود که شرایطی که در آن یک یا چند مقدار با استانداردهای تعریف شده مطابقت ندارد و ماهیتاً آن مقدار نمی تواند درست باشد. به طور مثال: مقادیر وزن منفی یا مقدار درصد بیشتر از ۱۰۰ مقدار سن کمتر از سن
داده های خارج از بازه و ناسازگار Read More »
داده های پرت: داده های پرت الزاما داده های اشتباه نیستند بلکه از توزیع آماری بدنه اصلی داده ها پیروی نمی کنند. داده های پرت اغلب سه یا بیش از سه واحد انحراف معیار (± 3SD) از میانگین مربوط به خودشان فاصله دارند که از مشکلات احتمالی در ابزار اندازه گیری، شیوه ثبت یا ضبط
مقادیر گمشده به داده هایی گفته می شود که به دلایل مختلفی همچون عدم ثبت (یا پاسخ دهی) عمدی یا سهوی در مجموعه داده ها ایجاد شده است. همچنین داده های گمشده می تواند به علت استفاده از استراتژی های پاکسازی مقادیر خارج از بازه منطقی یا داده های پرت بوجود آمده باشد. ثبت و
در این بخش از درس با یک نمونه دیتاست که قبلا نیز با آن آشنا شده ایم مباحثی که در این هفته یاد گرفته ایم را پیاده سازی می کنیم. در پایان این ویدیو انتظار می رود با مباحث اشاره شده در نقشه مفهومی زیر آشنایی داشته باشید و بتوانید آن را پیاده سازی نمایید.
بررسی کیفیت داده ها در نرم افزار Read More »
نرمال سازی داده ها که عموماً بر روی متغیر های کمی انجام می شود با دو هدف انجام می شود: ۱-هم مقیاس کردن داده های کمی ۲- تغییر در توزیع آماری و کاهش چولگی نرمال سازی داده ها (Normalization) – هم مقیاس سازی نرمال سازی یکی از تکنیک های مقیاس بندی ( Scaling )، نگاشت
نرمال سازی داده ها Read More »
برای دریافت مشاوره رایگان، فرم زیر را پر کنید تا کارشناسان ما با شما تماس بگیرند.