۳-۲-۴- فیلدهای مجموعه داده خسارت
­­از مجموعه داده خسارت فقط فیلدهای مشخص کننده میزان خسارت و جزئیات لازم استخراج شده است. متاسفانه اطلاعات مفید تری مثل سن راننده مقصر، میزان تحصیلات و. . . در این مجموعه داده وجود نداشته است و چون هنگام ثبت خسارت برای یک بیمه نامه از اطلاعات کلیدی داده های صدور استفاده می شود، با توجه به اینکه از مرحله قبل مهمترین فیلدهای داده های صدور را در دسترس داریم بنابراین با ادغام فیلدهای خسارت و صدور به اطلاعات جامعی در خصوص یک بیمه نامه خاص دسترسی خواهیم داشت. مشخصه ها استخراج شده از داده های خسارت طبق جدول ۳-۵ است.
پایان نامه
۳-۲-۵-پاکسازی داده ها
داده ها در دنیای واقعی ممکن است دارای خطا[۲۳]، مقادیر از دست رفته[۲۴]، مقادیر پرت و دورافتاده[۲۵] باشند . در مرحله پاکسازی با توجه به نوع داده ممکن است یک یا چند روش پاکسازی بر روی داده اعمال شود.
۳-۲-۶- رسیدگی به داده های از دست رفته
در این قسمت از کار اقدام به رفع Missing data نموده که خود مرحله مهمی از پاکسازی داده بحساب می آید. در مرحله ابتدایی با مرتب سازی تمام ویژگی های قابل مرتب سازی در نرم افزار Microsoft Excel اقدام به کشف مقادیر از دست رفته کرده و از طریق دیگر ویژگی های هر رکورد مقدار از دست رفته را حدس زده ایم. همچنین درحین انتقال داده به محیط داده کاوی مقادیر از دست رفته نیز مشخص می گردند. در بعضی موارد بدلیل تعداد زیاد ویژگی های از دست رفته اقدام به حذف کامل رکورد نمودیم. این کار برای زمانی که داده ها در حجم انبوهی وجود دارند مفید واقع میشوند اما زمانی که تعداد رکوردها کم می باشد اجتناب از این عمل توصیه می شود. برای ویژگی نوع بیمه که از نوع چند اسمی بوده است فقط دو مقدار"کارمندی” و “عادی” وجود داشته که تعداد ۴۹ مورد فاقد مقدار بوده است. کل تعداد بیمه کارمندی ۲۷ مورد بوده است. با توجه به کم بودن تعداد داده های ازدست رفته این فیلد و پس از مقایسه نام بیمه گذاران با اسم کارمندان مشخص شد هیچ کدام از موارد فوق کارمندی نبوده و همه از نوع عادی بوده اند.
از جمله فیلدهای دارای مقادیر از دست رفته و روش رفع ایراد آنها عبارتند از:
سیستم*** ۷۰ مورد***تشخیص با توجه به دیگر ویژگی ها
نوع وسیله نقلیه***۳۳مورد***تشخیص با توجه به دیگر ویژگی ها
شرح مورد استفاده***۱۱مورد***تشخیص با توجه به دیگر ویژگی ها
تعدادسیلندر***۲مورد***تشخیص با توجه به دیگر ویژگی ها
دولتی***۲۸ مورد***تشخیص از روی پلاک
ماه***۱۳۰ مورد***تشخیص از روی تاریخ صدور
نوع بیمه***۴۹مورد***تشخیص از روی نام بیمه گذار
تعداد رکوردهایی که مقادیرازدست رفته در چند ویژگی مهم را داشته اند و حذف شده اند حدود ۳۵۰ مورد بوده است.
۳-۲-۷-کشف داده دور افتاده[۲۶]
بعضی از مقادیر بسته به نوع داده علی رغم پرت تشخیص داده شدن مقادیر صحیحی می باشند. بنابراین حذف اینگونه داده ها برای کاستن پیچیدگی مساله میتواند موجب حذف قوانین مهمی در الگوریتم های مبتنی برقانون یا درختهای تصمیم شود. پس بررسی خروجی الگوریتم توسط یک فردخبره در موضوع مساله می تواند مانع از این اتفاق شود. نوع برخورد با داده پرت میتواند شامل حذف داده پرت، تغییر مقدار، حذف رکورد و در مواردی حذف مشخصه[۲۷] باشد.
برای تشخیص داده پرت از نمودار boxplot نرم افزار minitab 15 استفاده گردید. در این نمودار از مفهوم درصدک استفاده میشود که داده های بین ۲۵% تا ۷۵% که به ترتیب با Q1 و Q3 نشان داده می شوند مهم ترین بخش داده ها هستندX50% نیز میانه را نشان می دهد و با یک خط در وسط نمودار مشخص می شودInterquartile range (IQR) نیز مفهوم دیگری است که برابر است با IQR = Q3-Q1 .
مقادیر بیشتر از Q3 + [(Q3 - Q1) X 1. 5] و کمتر از Q1 - [(Q3 - Q1) X 1. 5]داده پرت محسوب می شوند. برای انجام اینکار نمودار boxplot را روی تک تک مشخصه های داده ها به اجرا در آورده و نتایج مطابق جدول ۳-۶ حاصل گردید.
جدول ۳-۶: نتایج نمودار boxplot

 

 

نام فیلد

 

محاسبه مقادیر پرت

 

توضیحات

 

 

 

تعداد زیاندیدگان متوفی

 

Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0

 

مقدار ۱و۲ نشان داده شده صحیح می باشد

 

 

 

تعداد زیاندیدگان مصدوم

 

Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0

 

۱و۲و۳ نشان داده شده صحیح می باشد

 

 

 

بیمه گر زیاندیده اول

 

Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0

 

مقدار ۱و۲و۳و. . . نشان داده شده صحیح می باشد و عدد ۹۹ مقداری صحیح است که به معنی ندارد استفاده میگردد

 

 

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...