تحلیلگر احساس یک مجموعه از اسناد D را که حاوی نظرات کاربران پیرامون یک شئ خاص O است را دریافت می‌کند و جهت گیری آنها را نسبت به آن شئ خاص تشخیص می‌دهد، به نحوی که هر سند D بطور قطعی نظر مثبت یا منفی را درباره شئ O بیان می کند.
بسیاری از تکنیک‌های تحلیل احساس در سطح سند بر پایه الگوریتم های یادگیری نظارت شده[۵] هستند؛ تعداد از روش های یادگیری بدون نظارت[۶] نیز وجود دارد [۲۳]. در این رساله تمرکز بر روش‌های یادگیرنده‌ی مبتنی بر ناظر است.
گام اول تحلیل احساس در متن
سال ۲۰۰۲ pang و همکارانش تحقیقی را انجام دادند که سر آغاز این راه نامیده می‌شود. هر چند قبل از آن نیز کارهایی انجام شده‌اند که بطور ضمنی از تحلیل احساسات و عقاید سخن به میان آورده‌اند ولی pang و همکارانش اولین بار بطور صریح در سال ۲۰۰۲ به تحلیل احساس در متن پرداخته‌اند [۴].
pang و همکارانش از مجموعه خصیصه‌های unigram، bigram، صفات و ترکیبی از این سه نوع مجموعه خصیصه‌ها استفاده کردند. همچنین برای طبقه‌بندی از الگوریتم‌های SVM[7]، بیز ساده و حداکثر آنتروپی بهره گرفته‌اند. روش‌های متفاوتی برای نمایش بردار خصیصه‌ها وجود دارد pang و همکارانش از دو روش فرکانس خصیصه[۸] و حضور خصیصه[۹] برای نمایش بردار خصیصه‌ها استفاده کرده‌اند. نتایج نشان داد روش حضور خصیصه نسبت به سایر روش‌های مورد استفاده نتایج بهتری به همراه خواهد داشت. روش‌های که آنها برای نمایش بردار خصیصه‌های بکار برده‌اند، تاکنون در تحقیقات متفاوت به کار گرفته شده است. نتایج تحقیق نشان داد خصیصه‌های unigram نسبت به سایر خصیصه‌های زبان شناختی عملکرد بهتری دارند و باعث بهبود طبقه‌بندی می‌شوند. خصیصه‌های bigram نسبت به خصیصه‌های unigram دقت کمتری در طبقه‌بندی از خود نشان دادند. در این تحقیق برای طبقه‌بندی اسناد از روش‌های بیز ساده SVM و حداکثر آنتروپی استفاده شده است. نتایج طبقه‌بند SVM نسبت به سایر الگوریتم‌های طبقه‌بندی دقت بهتری از خود نشان داد. علاوه بر مطالب ذکر شده آنها مجموعه داده‌های بازبینی فیلم‌ها را ارائه دادند. این مجموعه داده‌ها از سایت IMDB[10] جمع‌ آوری شده است، مجموعه داده بازبینی فیلم‌ها داده متشکل از ۲۰۰۰ فایل بازبینی فیلم بود، ۱۰۰۰ فایل آن حاوی نظرات مثبتی پیرامون فیلم‌ها و ۱۰۰۰ فایل دیگر نیز حاوی نظرات منفی پیرامون فیلم‌ها بودند. بهترین دقت بدست آمده توسط pang و همکارانش با بهره گرفتن از ۱۶۱۶۵ خصیصه unigram و در الگوریتم طبقه‌بندی SVM حاصل شده بود[۴].
پایان نامه - مقاله - پروژه
مهم‌ترین ویژگی این تحقیق ارائه زمینه تحقیقی جدید برای طبقه‌بندی متون بوده‌است. همچنین نمایش بردار خصیصه ارائه شده در این تحقیق، تا کنون به عنوان یکی از بهترین روش‌ها نمایش بردار خصیصه مورد استفاد قرار می‌گیرد. pang و همکارانش در این تحقیق بر غیر مفید بودن خصیصه‌های bigram و خصیصه‌های N-gram n>1 تاکید داشتند.
روش‌های مبتنی بر خصیصه‌های N-gram
یکی از مهمترین فازهای فرایند تحلیل احساسات و عقاید، مدلسازی متون با بهره گرفتن از خصیصه‌هایی است که قادرند بخوبی بیان کننده صفات اسناد باشند. این رساله بر روی خصیصه‌هایN-gram تاکید دارد.
خصیصه‌های N-gram به دو دسته تقسیم می‌شوند:
N-gram ثابت؛ یک توالی دقیق در سطح کاراکتر یا توکن می‌باشد. مانند unigram یا biram.
N-gram متغیر؛ الگوهایی برای استخراج اطلاعات از متن هستند. مانند <subj> Pass VP یا <subj> dealt bow.
خصیصه‌های N-gram متغیر قادرند مفاهیم پیچیده‌تر زبان شناختی را بیان کنند [۱]. در این رساله هدف اصلی خصیصه‌های N-gram مانند، بسته کلمات[۱۱] همچنین N-gram با درجات بالاتر مانند bigram و trigram می باشند. N-pos ترکیب n تایی از ادات سخن می‌باشد. همچنین n-posword ترکیب n تای از کلمات به همراه برچسب ادات سخن آنها می‌باشد. در ادامه مثال‌هایی برای هر یک از انواع خصیصه‌های N-gram بیان خواهیم کرد(جدول ۲-۱).
همانطور که در بخش قبلی بیان شد، pang و همکارانش نشان داده‌اند استفاده از خصیصه‌های bigram برای تحلیل احساسات و عقاید عملکردی بدتری نسبت به خصیصه‌های unigram در پی خواهند داشت. تحقیقی که وینسنت و همکارانش سال ۲۰۰۶ انجام داده‌اند خصیصه‌های unigram، bigram و trigram را برای مدلسازی اسناد به کار بردند [۲۵]. اسناد متنی به دو دسته حقایق و عقاید دسته‌بندی می‌شوند و مثال بخش ۱-۲ نشان می‌دهد اغلب متون حاوی ترکیبی از حقایق و عقاید هستند، بنابراین بیشتر اسناد متنی ترکیبی از متون جهت‌دار (عقاید و نظرات) با متون عینی و واقعی (حقایق) هستند. متون عینی و واقعی درون اسناد در واقع همان خصیصه‌های غیر مرتبط با تحلیل احساس هستند چون اطلاعات مفیدی برای الگوریتم یادگیری ماشین در جهت تحلیل احساس موجود در متون را فراهم نمی‌کنند. تعداد زیاد خصیصه‌ها و غیر مرتبط بودن بسیاری از این خصیصه‌ها به تحلیل احساس، مشکلات زیادی را موجب می شود، از جمله این مشکلات می‌توان کاهش دقت طبقه‌بندی وکاهش سرعت عملیات طبقه‌بندی را نام برد. بهتر است قسمتی از متن که حاوی حقایق است در فاز اول از متون حاوی نظرات و عقاید مجزا شود. وینسنت و همکارانش در ابتدا، بخش‌هایی از اسناد که عقاید و نظرات را بیان می‌کردند را تشخیص داده، از متن جدا کرده‌اند. آنها با فیلتر کردن متون حاوی حقایق از متون احساسی توانستند برای خصیصه‌ها unigram و bigram نتایج بهتری را نسبت به pang و همکارانش بدست آورند. همچنین آنها نشان دادن خصیصه‌های N-gram n>1 قادرند وابستگی کلمات موجود در متن، را در مدلسازی وارد کنند بنابراین به دقت عملکرد الگوریتم یادگیری ماشین در جهت طبقه‌بندی متون کمک می‌کنند. در این تحقیق دقت حاصله از طبقه‌بندی اسناد با بهره گرفتن از خصیصه‌های unigram به میزان ۸۷٫۱ درصد گزارش شده است. این میزان نسبت به نتیجه بهترین روش ارائه شده توسط pang و همکارانش ۵ درصد بهبود یافته است. همچنین با بهره گرفتن از خصیصه‌های unigram+bigram+trigram (ترکیب هر سه نوع خصیصه) فرایند طبقه‌بندی اسناد را با دقت ۸۹٫۲ درصد انجام داده‌اند. در این تحقیق به بررسی اثر گذاری خصیصه‌های N-gram پرداخته شده است وینسنت و همکارانش نشان دادند استفاده از خصیصه‌های bigram به همراه unigram باعث بهبود عملکرد طبقه‌بندی می‌شود. همچنین به این نتیجه دست یافتند که خصیصه‌های bigram به تنهایی بهبودی در طبقه‌بندی ایجاد نمی‌کنند، دلیل این موضوع نیز پراکندگی خصیصه‌های bigram است؛ برخلاف آنچه در [۴] اعلام شده، که خصیصه‌های bigram ذاتا به بهبود طبقه‌بندی کمک نمی‌کنند. بنابراین چنانچه بتوانیم پراکندگی موجود در خصیصه‌های bigram را کاهش دهیم می‌توانیم دقت عملکرد این نوع خصیصه‌ها را بهبود دهیم.
در برخی از تحقیقات برای مدلسازی اسناد از خصیصه‌های N-POS[12] استفاده شده‌است. فی و همکارانش در سال ۲۰۰۴ از خصیصه‌های ۱-pos و ۲-pos استفاده کرده‌اند و بهترین دقت حاصل از طبقه‌بندی در این تحقیق ۸۶% بوده است [۲۶]. آنها الگوهایی نحوی را ارائه دادند که اغلب متون جهت‌دار در این الگوها قرار می‌گیرند، مثلا یکی از الگوهای ارائه شده n+adj[13] بوده است. ابتدا متن را برچسب گذاری کرده‌اند و الگوهای مورد نظر را از متن استخراج کرده‌اند. مدلی که در این روش ارائه شده همانند روش وینسنت و همکارانش سعی دارد در ابتدا متن را فیلتر کند و فقط متن جهت‌دار(متن حاوی نظرات مثبت یا منفی کاربران درباره یک موجودیت مشخص) را برای مرحله طبقه‌بندی و مدلسازی استفاده کند. اما مشکل این روش آن است که نمی‌توان برای همه حالت های متن جهت‌دار الگویی ارائه داد و همواره ممکن است متن خاصی با الگوهای ارائه شده سازگار نباشد. مدلسازی متن با بهره گرفتن از الگوهای N-POS حتی نسبت به مدل unigram دقت کمتری را برای طبقه‌بندی به همراه داشت. لذا روش مناسبی برای مدل‌سازی اسناد نیست.
گامن سال ۲۰۰۴ ۴ گروه خصیصه را مورد بررسی قرار داد. گروه اول خصیصه‌های N-gram از ترکیب خصیصه‌های unigram، bigram و trigram تشکیل شده‌اند. گروه دوم خصیصه‌های متشکل از ترکیب N-gram و ۳-POS بوده‌اند. گروه سوم، خصیصه‌های مانند طول جمله، طول عبارات، تعداد کلمات بوده‌اند و گروه چهارم ترکیب سه گروه خصیصه ذکر شده بوده‌اند. تعداد خصیصه‌ها در این روش از ۱۰۰۰ تا ۴۰۰۰۰ خصیصه بوده‌اند. بهترین دقت حاصله برای طبقه‌بندی متون با بهره گرفتن از خصیصه‌های گروه چهارم بدست آمده است که نشان می‌دهد ترکیب خصیصه‌ها مدل بهتری از اسناد به منظور تحلیل احساس در متن را ارائه می‌دهد. در بهترین حالت دقت طبقه‌بندی ۸۹ درصد گزارش شده است. در این تحقیق ترکیب‌های متفاوت از خصیصه‌ها مورد بررسی قرار گرفت و میزان اثر گذاری آنها بحث شده‌است [۲۰].
مدل N-gram کاراکترها(N-char) توسط عباسی و همکارانش مورد استفاده قرار گرفت. مثلا مدل Bigram عبارت Like بصورت “li ik ke” خواهد بود [۲]. در این مدل تعداد بسیار زیاد خصیصه‌ها مشکل‌ساز خواهد بود و استفاده از الگوریتم‌های انتخاب خصیصه به دلیل تعداد بسیار زیاد خصیصه‌ها ما را با مشکل پیچیدگی زمانی روبرو خواهد کرد. استفاده از خصیصه‌ها N-char همواره باعث افزونگی و افزایش تعداد خصیصه‌های غیر مفید می‌شود، به این دلیل که همپوشانی بسیاری زیادی در خصیصه‌های n-char وجود دارد.
تحقیقات اندکی از مدل POSWORD[14] (برچسب نقش کلمه در سخن به همراه خود کلمه) استفاده کرده‌اند. ویب و همکارانش در سال ۲۰۰۴ . به منظور کاهش ابهام کلمات در فرایند تحلیل احساس از ۳-POSWORD استفاده کرده‌اند. با توجه به اینکه خصیصه‌های POS-Tag به همراه خود کلمه می‌تواند باعث کاهش ابهام کلمات شود در نتیجه باعث بهبود دقت ارزیابی و طبقه‌بندی اسناد می‌شود [۱۲]. مهمترین دلیل استفاده از ۳-POSWORD وارد کردن وابستگی به متن در مدل مورد استفاده می‌باشد. لذا اگر بتوان مشکلات ناشی از پراکندگی و افزونگی را مدیریت کرد به نظر می‌رسد استفاده از خصیصه‌های N-gram n>1 به بهبود نتایج کمک زیادی کند.
جدول ۲-۱ مثالی برای هر یک از خصیصه‌های N-gram مطرح شده را نشان می‌دهد.
عباسی و همکارانش در سال ۲۰۱۱ مجموعه کاملی از خصیصه‌های N-gram که در کارهای پیشین استفاده شده بود را جمع آوری کرده و برای مدلسازی اسناد از آنها استفاده کردند [۱]. این مجموعه خصیصه‌ها در جدول ۲-۲ بیان شده‌اند. آنها در این تحقیق با بهره گرفتن از طبقه بند SVM به دقت ۹۰ درصد برای طبقه‌بندی مجموعه داده‌های بازبینی فیلم‌ها دست یافتند. مدل ارائه شده که در جدول ۲-۲ قابل مشاهده است، بسیاری از خصیصه‌ها همدیگر را پوشش می‌دهند لذا باعث تشدید افزونگی در مدل حاصله می‌شوند. هر گروه از این خصیصه‌ها دارای تعداد زیادی خصیصه‌های غیرمرتبط با تحلیل احساس موجود در متن هستند، استفاده همزمان از همه این خصیصه‌ها باعث افزایش چشم‌گیر خصیصه‌های غیر مرتبط در نتیجه کاهش اثر گذاری خصیصه‌های مرتبط با تحلیل احساس و در نهایت کاهش دقت طبقه‌بندی می‌شود. آنها برای حل این مشکل یک روش انتخاب خصیصه شبکه ارتباطی خصیصه[۱۵] را ارائه دادند، که پیچیدگی زمانی بالایی دارد. می‌توان با بهره گیری از خصیصه‌های مطلوب‌تر خصیصه‌های افزونه و خصیصه‌های غیر مرتبط را کاهش داد و برای تعیین سودمندی خصیصه‌ها از الگوریتم انتخاب خصیصه ساده‌تر با پیچیدگی زمانی کمتر بهره برد.
جدول ۲-۱ مجموعه خصیصه‌ها N-gram و مثال برای هر خصیصه

 

جمله مثال I go home.
خصیصه‌های N-gram Unigram I, go, home
Bigram I go, go home
Trigram I go home
خصیصه‌های N-POS ۱-pos FW, VBP,NN
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...