ساره واحدی

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها

کیفیت داده ها

مقدمه ای بر کیفیت داده ها

داده های واقعی عموما دارای انواع مشکلات کیفی هستند که نیاز به پاکسازی را ضروری می نماید. استفاده از داده های خام و دارای مشکلات کیفی، منجر به کاهش عملکرد الگوریتم ها، اختلال در شناسایی الگوها و نتایج گمراه کننده می شود. یکی از چالش‌های مهم و جدی عدم وجود داده‌های صحیح است. به‌عنوان مثال […]

مقدمه ای بر کیفیت داده ها Read More »

داه های خارج از بازه

داده های خارج از بازه و ناسازگار

داده های خارج از بازه: به داده ای، داده خارج از بازه گفته می شود که شرایطی که در آن یک یا چند مقدار با استانداردهای تعریف شده مطابقت ندارد و ماهیتاً آن مقدار نمی تواند درست باشد. به طور مثال: مقادیر وزن منفی یا مقدار درصد بیشتر از ۱۰۰ مقدار سن کمتر از سن

داده های خارج از بازه و ناسازگار Read More »

داده های پرت

داده های پرت

داده های پرت: داده های پرت الزاما داده های اشتباه نیستند بلکه از توزیع آماری بدنه اصلی داده ها پیروی نمی کنند. داده ­های پرت اغلب سه یا بیش از سه واحد انحراف معیار (± 3SD) از میانگین مربوط به خودشان فاصله دارند که از مشکلات احتمالی در ابزار اندازه­ گیری، شیوه ثبت یا ضبط

داده های پرت Read More »

مقادیر گمشده

مقادیر گمشده

مقادیر گمشده به داده هایی گفته می شود که به دلایل مختلفی همچون عدم ثبت (یا پاسخ دهی) عمدی یا سهوی در مجموعه داده ها ایجاد شده است. همچنین داده های گمشده می تواند به علت استفاده از استراتژی های پاکسازی مقادیر خارج از بازه منطقی یا داده های پرت بوجود آمده باشد. ثبت و

مقادیر گمشده Read More »

بررسی کیفیت داده ها در نرم افزار

در این بخش از درس با یک نمونه دیتاست که قبلا نیز با آن آشنا شده ایم مباحثی که در این هفته یاد گرفته ایم را پیاده سازی می کنیم. در پایان این ویدیو انتظار می رود با مباحث اشاره شده در نقشه مفهومی زیر آشنایی داشته باشید و بتوانید آن را پیاده سازی نمایید.

بررسی کیفیت داده ها در نرم افزار Read More »

نرمال سازی داده ها

نرمال سازی داده ها که عموماً بر روی متغیر های کمی انجام می شود با دو هدف انجام می شود: ۱-هم مقیاس کردن داده های کمی ۲- تغییر در توزیع آماری و کاهش چولگی نرمال سازی داده ها (Normalization) – هم مقیاس سازی نرمال سازی یکی از تکنیک های مقیاس بندی ( Scaling )، نگاشت

نرمال سازی داده ها Read More »

ساخت ویژگی

ساخت ویژگی

یکی از رایج ترین مراحل آماده سازی داده ها، ساخت ویژگی های جدید و اثربخش برای ورود به مدل ها می باشد. این مرحله به عنوان فرآیند شاخص سازی با اهداف مختلفی همچون تفسیرپذیری، تعمیم پذیری، افزایش کارایی مدل ها و … در داده های خام انجام می شود که شامل رویکردهای زیر می باشد:

ساخت ویژگی Read More »

گسسته سازی

گسسته سازی

روش (Discretization / Binning) گسسته سازی به فرآیند تبدیل داده های پیوسته به مقادیر گسسته در قالب فواصل مجاوری که داده های پیوسته را درون خود قرار داده است، گفته می شود. در صورتی که طیف اعداد ورودی بسیار متنوع باشد (برای نمونه داده‌های مربوط به حقوق کارکنان)، در این حالت می‌توان طبقه‌هایی را برای

گسسته سازی Read More »

SPSS Modeler پیاده سازی رگرسیون خطی

اجرای تبدیل داده ها در نرم افزار

در این ویدیو با استفاده از پروژه ای که قبلا بر روی فایل Bankloan تعریف کرده ایم مباحثی که در خصوص تبدیل داده ها آموختیم را پیاده سازی می نماییم. در این قسمت از تکنیک های نرمال سازی، ساخت ویژگی و گسسته سازی  (دانش زمینه ای و روش های نظارت شده و نظارت نشده) استفاده

اجرای تبدیل داده ها در نرم افزار Read More »

تجمیع داده ها

تجمیع و فشرده سازی (Aggregation) تجمیع داده ها با ترکیب دو یا چند رکورد داده و خلاصه سازی آنها با اهداف زیر انجام میشود: ۱. تغییر مقیاس و زاویه نگاه به داده ها به طور مثال با تجمیع داده های مشتریان بانک به تفکیک هر شعبه می توان زاویه نگاه تحلیل را از سطح مشتری

تجمیع داده ها Read More »

درخواست مشاوره رایگان ×

    Call Center
    سبد خرید شما
    هیچ محصولی در سبد خرید نیست.

    ورود به حساب کاربری

    ساخت حساب کاربری

    Prove your humanity: 5   +   5   =