مسیر سایت : خانه تحلیل داده ها داده کاوی

رده‌بندی

به نظر می ­رسد رده­ بندی که یکی از معمول­ ترین کارکردهای داده­ کاوی است، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دسته ­بندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه درباره‌ی دنیا، به طور مداوم رده­ بندی، طبقه ­بندی و درجه ­بندی می ­کنیم. ما موجودات زنده را به شاخه ­ها و گونه ­ها، مواد را به عناصر و حیوانات و انسان را به نژادها تقسیم می­ کنیم.
رده­ بندی شامل بررسی ویژگی ­های یک شی جدید و تخصیص آن به یکی از مجموعه­ های از قبل تعیین شده می­باشد. عمل رده ­بندی با تعریف درستی از دسته­ ها و مجموعه ­ای از ویژگی­ ها که حاوی موارد از پیش دسته ­بندی شده هستند مشخص می­ گردد؛ این عمل شامل ساختن مدلی است که بتوان از آن برای رده ­بندی کردن داده ­های رده­ بندی نشده، استفاده نمود. اشیایی که باید رده بندی شوند، معمولاً به وسیلۀ اطلاعاتی در جدول پایگاه داده ­ها یا یک فایل ارائه می­ شوند و عمل رده ­بندی شامل افزودن ستون جدیدی با کد رده ­بندی خاصی است. مثال­ هایی از رده­ بندی با استفاده از تکنیک ­های توصیف شده در زیر ارائه شده است:
- رده ­بندی متقاضیان وام و اعتبار به عنوان کم خطر، متوسط و پرخطر.
- انتخاب محتویات یک صفحۀ وب برای قرار دادن در شبکۀ اینترنت.
- تعیین شماره تلفن­ های متصل به دستگاه ­های فکس.
-تشخیص مدعیان غیر واقعی دریافت خسارت از بیمه.
رده بندی از جمله روش‌هایی است که در آن برای هر کدام از رکورد‌های مجموعه داده مورد کاوش، یک برچسب که بیانگر حقیقتی در مسأله است، وجود دارد. این برچسب سبب می‌شود که هر الگوریتم رده‌بندی یک الگوریتم با ناظر محسوب شود. در روش‌های با ناظر، الگوریتم ابتدا در مرحله آموزشی مدل قرار می‌گیرد و سپس در مرحله ارزیابی، کارایی مدل یاد گرفته شده، بررسی می‌شود.
در الگوریتم‌های رده‌بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده‌های آموزشی و مجموعه داده‌های آزمایشی تقسیم می‌شود. با استفاده از مجموعه داده‌های آموزشی مدل ساخته می‌شود و از مجموعه داده آزمایشی برای اعتبار‌سنجی و محاسبه دقت مدل ساخته شده استفاده می‌شود. هر رکورد شامل یک مجموعه از ویژگی‌هاست. یکی از این ویژگی‌ها، ویژگی رده نامیده می‌شود. شامل دو مرحله آموزش (یادگیری) و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه داده‌های آموزشی به یکی از الگوریتم‌های دسته بندی داده می‌شود تا بر اساس مقادیر سایر ویژگی‌ها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال اگر الگوریتم یاد‌گیرنده، الگورینم درخت تصمیم باشد، مدل ساخته شده یک درخت تصمیم خواهد بود. اگر الگوریتم یادگیرنده یک دسته‌بندی مبتنی بر قانون باشد، مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با توجه به الگوریتم یاد‌گیرنده مورد استفاده در مرحله آموزش، مدل ساخته می‌شود. پس از ساخت مدل، در مرحله ارزیابی، دقت مدل ساخته شده به کمک مجموعه داده‌های آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه داده‌ها را ندیده‌است، ارزیابی خواهد شد. از مجموعه داده‌های آزمایشی در مرحله آموزش و ساخت مدل استفاده نمی‌شود.
با توجه به شکل های زیر یک مجموعه داده آموزشی و یک مجموعه آزمایشی موجود است. مجموعه داده‌های آموزشی به بخش یادگیری مدل دسته‌بندی ارسال می‌شود. در ادامه مدل ساخته شده، بر اساس مجموعه داده‌های آزمایشی مورد سنجش قرار می‌گیرد. الگوریتم رده‌بندی کننده ویژگی رده هر رکورد را در مجموعه داده‌های آزمایشی در فرایند پیش‌بینی رده مورد استفاده قرار نمی‌دهد.

کاربرد‌های رده‌بندی

پزشکی
فرض کنید یک مجموعه رکورد داریم که هر رکورد مربوط به یک بیمار است. از هر بیمار هم یک سری ویژگی از جمله سن، قد، وزن، فشار خون و... را در اختیار داریم و در ضمن می‌دانیم نوع بیماری هر بیمار چیست. یعنی یک ویژگی رده به نام نوع بیماری داریم که دارای سه مقدار هپاتیت، دیابت و سالم بودن است. هر رکورد یکی از مقادیر ویژگی رده یعنی یکی از موارد هپاتیت، دیابت و سالم بودن را دارد. به عنوان مثال فرض کنید مسأله شامل هزار رکورد است. سیصد بیمار دیابتی، چهارصد شخص سالم و سیصد بیمار هپاتیتی. هدف ساخت یک مدل برای دسته هپاتیت، دیابت و سالم می‌باشد، به گونه‌ای که اگر یک بیمار جدیدی وارد شد، آن مدل بتواند تشخیص دهد بیمار جدید به کدام یک از این سه دسته تعلق دارد. ابتدا در مرحله آموزش بر اساس مجموعه داده‌های آموزشی مدل ساخته می‌شود و در مرحله ارزیابی کارایی و دقت مدل تعیین خواهد شد. حال وقتی با ورود بیمار جدید، ویژگی‌های بیمار شامل سن، قد، وزن، فشار‌خون و ... به مدل داده شود، مدل رده مربوط به آن بیمار را تشخیص می‌دهد. بدیهی است که تشخیص بر اساس رده‌هایی است که مدل در مرحله آموزش با آن‌ها روبه‌رو شده‌است. بنابراین امکان تشخیص رده جدید در کاربرد رده‌بندی وجود نخواهد داشت.
بازاریابی مستقیم
هدف، کاهش هزینه پست از طریق پیدا کردن مصرف‌کننده‌هایی است که احتمال خرید یک گوشی تلفن همراه جدید توسط آن‌ها نسبت به سایرین بیشتر است. یعنی به احتمال بالاتری گوشی جدید مورد نظر را می‌خرند. در واقع هدف این است که بازاریابی را برای کسانی که ارزش آن را دارند انجام دهیم. برای این کار از اطلاعات مربوط به گوشی‌های تلفن همراه که قبلا ساخته استفاده می‌کنیم. اطلاعات مختلف درباره همه مشتریانی که قبلا یک گوشی را خریداری کرده یا نکرده‌اند به همراه اطلاعات سبک زندگی آن‌ها را (به عنوان مثال نوع کار آن‌ها، محل زندگی آن‌ها، میزان درآمد آن‌ها و...) جمع‌آوری می‌کنیم. بر اساس اطلاعاتی که درباره مشخصات گوشی‌های تلفن همراه گذشته و افرادی که آن‌ها را خریداری کرده یا نکرده‌اند، یک مجموعه رکورد ایجاد می‌کنیم. در حالت کلی دو نوع رکورد متفاوت داریم، که تعدادی با عنوان خریدار و تعدادی هم با عنوان غیر خریدار برچسب خورده‌اند. هر رکورد شامل مشخصات یک گوشی، مشخصات فردی که آن‌ها را خریداری کرده و یک رده خریدار و یا شامل مشخصات یک گوشی، مشخصات فردی که آن را خریداری نکرده و یک رده غیر خریدار می‌باشد. این مجموعه رکورد‌ها به دو قسمت مجموعه رکورد‌های آموزشی و آزمایشی شکسته می‌شوند. بر اساس مجموعه داده‌های آموزشی برای ویژگی‌های دسته خریدار و غیر خریدار مدل نهایی ساخته می‌شود. حال برای این‌که بفهمیم بسته‌های تبلیغاتی را برای چه افرادی بفرستیم مشخصات هر فرد و مشخصات گوشی تلفن همراه جدید را به مدل یاد‌گرفته شده نشان می‌دهیم. مدل به ما نشان می‌دهد که آیا این فرد گوشی جدید را می‌خرد یا خیر. در نهایت بر اساس این مدل اقدامات خود را در فرایند بازاریابی گوشی تلفن همراه جدید پایه‌ریزی می‌نماییم.
تشخیص کلاه‌برداری
هدف، پیش‌بینی موارد کلاه‌برداری در تراکنش‌های کارت‌های اعتباری است. (لبته تشخیص کلاه‌برداری لزوما منحصر به تراکنش‌های کارت‌های اعتباری نبوده و قابل طرح در بسیاری از کاربرد‌های مالی دیگر نظیر بیمه و بورس نیز می‌باشد.) روش کار به این صورت است که در گذشته نیز تعداد زیادی تراکنش اتفاق افتاده و هر کدام از آن‌ها بررسی شده‌اند و به عنوان یک تراکنش کلاه‌برداری یا یک تراکنش عادی برچسب خورده‌اند. تمام این تراکنش‌ها در سیستم ثبت شده‌اند. حال از اطلاعات مربوط به این تراکنش‌ها استفاده نموده و یک مجموعه رکورد جمع‌آوری می‌کنیم. در هر رکورد اطلاعات صاحب حساب و کار‌هایی که در حال انجام آن‌ها می‌باشد را به عنوان ویژگی در نظر می‌گیریم. به علاوه یک ویژگی دسته هم تعریف می‌کنیم که شامل دو مقدار کلاه‌برداری یا عادی است. هر رکورد یکی از این دو مقدار را به ازای ویژگی دسته خود دارد. به عنوان مثال تعدادی از ویژگی‌ها عبارتند از: مشتری چه موقع در حال خرید است؟ در حال خرید چه چیزی است؟ آیا هزینه را به موقع پرداخت می‌کند؟ و.... این مجموعه رکورد‌ها به دو قسمت داده‌های آموزشی و آزمایشی شکسته می‌شوند. الگوریتم یادگیرنده بر اساس مجموعه داده‌های آموزش، مدلی را برای وضعیت‌های کلاه‌برداری و عادی می‌سازد. حال فرد جدیدی که وارد شد و کارت خود را وارد سیستم نمود، ویژگی‌های آن به مدل داده می‌شود و مدل تشخیص می‌دهد که آیا این فرد قصد انجام یک کار کلاه‌بردارانه را دارد یا نیت او انجام یک تراکنش عادی است.
میزان ماندگاری یا از دست دادن مشتری
هدف پیش‌بینی آن است که آیا احتمال دارد که یک مشتری به سمت رقیب ما برود یا خیر؟ روش کار به این صورت است که از میان داده‌های مربوط به مشتریان گذشته و حاضر یک مجموعه ویژگی استخراج می‌کنیم. تعدادی از این ویژگی‌ها عبارتند از: معمولا مشتری چند وقت به چند وقت تماس می‌گیرد؟ با کدام‌یک از شعب تماس می‌گیرد؟ میزاد درآمد مشتری چقدر است؟ متأهل یا مجرد است؟ و.... هر کدام از این مشتری‌ها یا به ما وفادار بوده‌اند و دائما با ما در تماس بوده‌اند یا بعد از مدتی ما را ترک کرده و به سمت رقیب ما رفته‌اند. از این رو یک ویژگی دسته تعریف می‌کنیم که دو مقدار وفادار و بی‌وفا دارد. رکورد‌های مربوط به هر یک از مشتری‌ها نیز با توجه به بررسی‌هایی که انجام می‌دهیم، یکی از این دو مقدار را به عنوان ویژگی دسته می‌گیرد. پس یک مجموعه رکورد داریم که هر رکورد مربوط به یکی از مشتریان است که بر‌چسب وفادار یا بی‌وفا گرفته‌است. این مجموعه رکورد به دو قسمت داده‌های آموزشی و آزمایشی شکسته می‌شود. در مرحله آموزش الگوریتم بر اساس مجموعه داده‌های آموزشی مدلی برای وفاداری و بی‌وفایی می‌سازد. حال ویژگی‌های مربوط به مشتری جدید را به مدل می‌دهیم. مدل بر اساس آن‌ها تصمیم می‌گیرد که آیا این فرد وفادار خواهد بود یا بی‌وفا.

گردآورنده: مهناز شرفخانی
منبع: مرکز علوم مدیریت آریا مدیر


مطالب مرتبط

پیش بینی
خوشه بندی
قواعد وابستگی

 

راهنمای مشاوره و خدمات مرکز علوم مدیریت آریا مدیر

انجام تحلیل فصل چهارم پایان نامه و مقالات    

انجام تحلیل داده های آماری با نرم افزار spss

انجام تحلیل عاملی تاییدی و مدل معادلات ساختاری با نرم افزارهای LISREL وAMOS 

اولویت بندی شاخص ها به کمک روش های تصمیم گیری چند معیاره مانند AHP و ANP

شناسایی روابط درونی میان شاخص ها با استفاده از روش DEMATEL

اولویت بندی گزینه ها با استفاده از روش های TOPSIS و VIKOR

روش های فرا ابتکاری مانند الگوریتم ژنتیک، شبکه های عصبی