مطالب در رابطه با مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی- فایل ... |
TEP
میزان
۱۲/۸۶
۸۸/۷۴
۱۱/۸۰
۸۵% میزان+۱۵% TEP
TEP
۶۰/۷۷
۹۷/۹۴
۴۱/۸۵
۸۵% TEP+15%میزان
میزان
۴۶/۹۴
۴۸/۷۶
۵۲/۸۴
۸۵% میزان+۱۵% TEP
میزان
۷۸/۹۴
۸۲/۸۵
۰۸/۹۰
۸۵% TEP+15%میزان
TEP
۰۳/۸۷
۳۳/۸۹
۱۶/۸۸
با توجه به جدول ۵-۴، دو سطر اول حالاتی را نشان میدهد که در آنها دامنه دادههای آموزشی و آزمایشی مشابه هستند، میتوان دید معیارF برای این دو حالت مقدار تقریبا یکسانی است، و این ثبات کارآیی طبقهبند را نسبت به مجموعه دادههای متفاوت نشان میدهد. از طرفی دیگر سطرهای دوم و سوم جدول ۵-۴ که در آنها دامنه دادههای آزمایشی و آموزشی کاملا متفاوت است، همان نتیجهگیری بدست آمده از جدول ۵-۳ را خاطر نشان میکنند. چرا که در اینجا نیز کارآیی از دید تمامی معیارها به شدت افت داشته است.
سطرهای پنجم و ششم جدول ۵-۴ نشانگر حالاتی است که ۸۵% از دادههای آموزشی متفاوت با دامنه دادههای آزمایشی و ۱۵% مشابه دادههای آزمایشی است. از مقایسه این حالتها به ترتیب با سطرهای دوم و سوم جدول مشاهده میشود که دقت، بازخوانی و معیارF به میزان قابل توجهی افزایش یافتهاند. این مقایسه ما را به یک نتیجهگیری مهم سوق میدهد. به عبارتی، در زمانی که میخواهیم با بهره گرفتن از طبقهبند، جملات موازی موجود در یک پیکره را شناسایی کنیم و در عین حال دادههای آموزشی همدامنه با این جملات بهاندازه کافی دردسترس نیست (حالتی که اغلب اتفاق میافتد)، میتوان با افزودن مقدار کمی از جملات موازی همدامنه، کارآیی طبقهبند را افزایش داد. به معنای دیگر، میتوان با انجام فرایند شناسایی جملات موازی بهصورت تکرار شونده رفته رفته کارآیی طبقهبند را بالا برد.
در سطرهای هفتم و هشتم جدول ۵-۴، ۸۵% دادههای آموزشی همدامنه با دادههای آزمایشی هستند و ۱۵% از دامنه متفاوت هستند. از مقایسه این سطرها با سطرهای اول و دوم میتوان مشاهده کرد که معیارF کمی افزایش داشته است. بنابراین میتوان نتیجه گرفت که افزودن مقداری داده آموزشی متفاوت با دامنه دادههای آزمایشی نیز در بالا بردن کارآیی مؤثر است.
تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی
پیکره تطبیقی مورد استفاده
پیکره تطبیقی مورد استفاده برای استخراج جفت جملات موازی بخش مهمی از مدل ارائه شده است. چرا که کیفیت و کمیت جفت جملات موازی استخراج شده به شدت به این پیکره بستگی دارد. در آزمایشات انجام شده از دو پیکره تطبیقی استفاده شد، پیکره تطبیقی فارسی–انگلیسی دانشگاه تهران (UTPECC) و مقالات ویکی پدیا که در ادامه بیشتر شرح داده میشوند.
پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC)
پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران (UTPECC) [50] از دو مجموعه اخبار متفاوت از دو مبدأ مجزا یعنی اخبار فارسی خبرگزاری همشهری و اخبار انگلیسی خبرگزاری بیبیسی ساخته شده است. همچنین برای همترازی اسناد این دو زبان، علاوه بر تاریخ انتشار اخبار، شباهت محتوای اسناد نیز در نظر گرفته شده است. شکل ۵-۱ نمونهای از سندهای خبری جفت شده در این پیکره را نشان میدهد.
نمونهای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران
فرم در حال بارگذاری ...
[جمعه 1400-07-30] [ 11:36:00 ق.ظ ]
|