شکل ۲- ۱۷: تنظیم مرزهای دستهبندی با بهره گرفتن از درجه قطعیت [۸۲]
همانطور که در بخش قبلی توضیح داده شد، دسته نتیجه هر قانون فازی توسط الگوهای آموزشی و به کمک رابطه (۲-۳۱) مشخص میشود. یعنی دسته نتیجه به عنوان دسته غالب در فضای فازی متناظر با جزء مقدم تعیین میشود.
شکل ۲- ۱۸: تعیین دسته نتیجه و درجه قطعیت [۸۲]
برای تعیین درجه قطعیت باید گامهای زیر را طی کرد [۸۲]:
گام ۱: تعیین درجه سازگاری هر نمونه ورودی بر اساس رابطه (۲-۳۰).
گام ۲: برای هر کلاس مجموعه درجات سازگاری را به ازای قانون Rj محاسبه کن:
(۲-۳۲)
که مجموع درجات سازگاری نمونههای آموزشی کلاس Classh برای Rj میباشد و NClassh تعداد نمونههای آموزشی میباشد که کلاس متناظر آنها h میباشد.
گام ۳: با بهره گرفتن از رابطهی زیر درجهی قطعیت CFj را حساب کن:
(۲-۳۳)
که با بهره گرفتن از رابطهی (۲-۳۴) محاسبه میشود.
(۲-۳۴)
اکنون میتوان کلاس هر نمونه ورودی را بر اساس درجه قطعیت و درجه سازگاری مشخص کرد.
۲-۶-۴- استنتاج فازی
فرض کنیم که S مجموعه قوانین فازی هستند به طوری که |S|=s به صورت زیر باشد:
R1: If <condition1> then Ci with CF=CF1
R2: If <condition2> then Ci with CF=CF2
…
R: If <conditions> then Ci with CF=CFs
→Input pattern: if <Condition>
Target class: C
چندین قانون میتوانند کلاس یک نمونه مانند xp=(xp1,xp2,…,xpn) را با درجه قطعیت و سازگاری متفاوت پیشبینی کنند. بنابراین الگوریتم دستهبند نیازمند یک روش استنتاج برای انتخاب یکی از قوانین فازی کاندید میباشد. یک روش استنتاج مناسب، روشی است که بتواند با درصد اطمینان بالایی کلاس نمونه ورودی را پیشبینی کند حتی اگر هیچ کدام از قوانین ورودی کامل ارضا[۷۵] نشوند.
تک قانون قالب[۷۶] و روش استنتاج مبتنی بر رای گیری[۷۷] دو روش مهمی هستند که Ishibuchi و همکارانش ارائه کردهاند. در روش تک قانون قالب [۸۳]، قانونی میتواند نمونه ورودی را دستهبندی کند که دارای بیشترین مقدار حاصلضرب میزان سازگاری و درجه قطعیت باشد.
(۲-۳۵)
مهمترین مشکل این روش هنگامی آشکار میشود که چندین قانون با میزان تطبیق مساوی، میتوانند نمونه ورودی را دستهبندی کنند. در این شرایط روش تک قالب نمیتواند کلاس نمونه ورودی را پیش بینی کند. این وضعیت هنگامی پیش میآید که یک نمونه ورودی دقیقاً روی مرز دو یا چند کلاس باشد. در چنین وقتی که میزان تطبیق چندین قانون با نمونه ورودی تقریباً نزدیک به یکدیگر باشد، روش ممکن دچار مشکل شود. چرا که در این شرایط، روش تک قانون قالب فقط یکی از آنها را انتخاب میکند و مابقی قوانین را نادیده میگیرد. در صورتی که قوانین حذف شده، ممکن است به صورت گروهی بر روی یک کلاس اتفاق نظر داشته باشند. به عبارت دیگر این روش برای تصمیمگیری نهایی از انعطاف فازی بودن قوانین سودی نمیبرد و به سمت تصمیمگیری قطعی میل میکند.
ایشیبوچی[۷۸] و همکاران [۸۴] برای حل مشکلات مطرح شده برای روش تک قانون قالب، روش استنتاج مبتنی بر رای گیری را ارائه کردند. در این روش تمامی قوانینی که دارای میزان تطبیق بزرگتر از صفر هستند در تعیین کلاس نمونه ورودی نقش دارند. برای هر کلاس میزان تطبیق (رای) کلیهی قوانین با هم جمع میشود و کلاسی که دارای بیشترین میزان تطبیق باشد به عنوان کلاس خروجی نمونه ورودی برگزیده میشود. برای این منظور از رابطهی زیر استفاده میشود:
(۲-۳۶)
این روش مشکلاتی را که برای روش تک قانون قالب ذکر شد، بر طرف میکند. چرا که از چندین قانون برای دستهبندی نمونهها استفاده میکند. اما از طرفی دیگر مشکلی جدید را مطرح میکند. فرض کنیم تعداد کمی قانون با میزان تطبیق بالا کلاس A را به عنوان متغیر هدف نمونه ورودی انتخاب کنند و تعداد بسیار زیادی قانون B را با میزان تطبیق پایین به عنوان متغیر هدف انتخاب کنند و مجموع میزان تطبیق قوانینی که کلاس B را انتخاب کردهاند، بیشتر باشد. در این صورت کلاس B به عنوان کلاس خروجی نمونه ورودی انتخاب میشود. یعنی در حالی که قوانینی که کلاس A را انتخاب کرده بودند دارای قاطعیت بیشتری هستند، ولی نادیده گرفته میشوند و به نوعی عدالت در رای گیری رعایت نشده است. این مشکل وقتی بیشتر مشهود میشود که مجموعه داده ورودی نامتوازن[۷۹] (تعداد نمونههای کلاسهای مختلف با هم اختلاف زیادی دارد) باشد. این به آن علت است که برای کلاس با نمونههای بیشتر قوانین بیشتری استخراج میشود و رویه استنتاج به نوعی دارای سمتگیری به سوی کلاس با نمونههای بیشتر میشود.
۲-۷- معیارهای ارزیابی دستهبندها
معیارهای زیادی برای ارزیابی کارایی الگوریتمهای دستهبندی ارائه میشود که مهمترین این معیارها عبارتند از: نرخ صحت[۸۰] دستهبندی، سرعت یادگیری در مرحله آموزش و دستهبندی، سادگی و شفافیت مدل، پایداری (توانایی مدل در مواجهه با دادههای غیر معمول یا مقادیر مفقوده)، نحوه برخورد الگوریتم با صفتها با دامنه مقادیر مختلف (پیوسته گسسته و دودویی) و قابلیت تفسیر.
همانطور که اشاره شد روشهای مختلفی برای دستهبندی به کار میروند و این روشها در شرایط مختلف، رفتارهای متفاوتی را بروز میدهند. میزان صحت یک روش دستهبندی بر روی مجموعه دادههای آموزشی، درصد مشاهداتی از مجموعه آموزشی است که به درستی توسط روش مورد نظر دستهبندی شدهاند. اگر میزان صحت یک روش دستهبندی را با Acc() نمایش دهیم، میزان خطای آن برابر با ۱-Acc() خواهد بود [۸۵].
ماتریس اغتشاش[۸۱] ابزاری مفید برای تحلیل چگونگی عملکرد روش دستهبندی در تشخیص دادهها یا مشاهدات دستهه ای مختلف است. اگر دادهها در m دسته قرار گیرند، یک ماتریس دستهبندی، جدولی با حداقل اندازه m*m است. عنصر Cij در i امین سطر و j امین ستون، نشان دهنده تعداد مشاهداتی از دسته i است که توسط دستهبند به عنوان دسته j تشخیص داده شده است. حالت ایدهآل این ماتریس که نشان دهنده صحت بالای روش دستهبندی است آن است که دادههای غیر از قطر اصلی ماتریس صفر یا نزدیک به صفر باشند.
در حالت دستهبندی دودویی ماتریس اغتشاش به صورت جدول (۲-۴) در میآید که در آن [۸۲]TP به مشاهداتی از دسته c1 دلالت دارد که توسط روش دستهبندی به درستی تشخیص داده شدهاند. TN[83] به مشاهداتی از دسته c2 دلالت دارد که توسط روش دستهبندی به درستی تشخیص داده شده است. به طور مشابه FP[84] تعداد مشاهداتی از دسته c2 که به اشتباه در دسته c1 قرار گرفته و FN[85] تعداد مشاهداتی از دسته c1 که به اشتباه در دسته c2 قرار گرفتهاند.
جدول ۲-۴: ماتریس اغتشاش دودویی [۱]
C2 | C1 | |
FN | TP | C1 |
[جمعه 1400-07-30] [ 08:08:00 ب.ظ ]
|