مطالب در رابطه با مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی- فایل ...

بهمن 1404

شن

یک

دو

سه

چهار

پنج

جم

<< <

> >>

TEP

میزان

۱۲/۸۶

۸۸/۷۴

۱۱/۸۰

۸۵% میزان+۱۵% TEP

TEP

۶۰/۷۷

۹۷/۹۴

۴۱/۸۵

۸۵% TEP+15%میزان

میزان

۴۶/۹۴

۴۸/۷۶

۵۲/۸۴

۸۵% میزان+۱۵% TEP

میزان

۷۸/۹۴

۸۲/۸۵

۰۸/۹۰

۸۵% TEP+15%میزان

TEP

۰۳/۸۷

۳۳/۸۹

۱۶/۸۸

با توجه به جدول ۵-۴، دو سطر اول حالاتی را نشان می‌دهد که در آنها دامنه داده‌های آموزشی و آزمایشی مشابه هستند، می‌توان دید معیارF برای این دو حالت مقدار تقریبا یکسانی است، و این ثبات کارآیی طبقه‌بند را نسبت به مجموعه داده‌های متفاوت نشان می‌دهد. از طرفی دیگر سطر‌های دوم و سوم جدول ۵-۴ که در آن‌ها دامنه داده‌های آزمایشی و آموزشی کاملا متفاوت است، همان نتیجه‌گیری بدست آمده از جدول ۵-۳ را خاطر نشان می‌کنند. چرا که در اینجا نیز کارآیی از دید تمامی معیار‌ها به شدت افت داشته است.

سطرهای پنجم و ششم جدول ۵-۴ نشانگر حالاتی است که ۸۵% از داده‌های آموزشی متفاوت با دامنه داده‌های آزمایشی و ۱۵% مشابه داده‌های آزمایشی است. از مقایسه این حالت‌ها به ترتیب با سطرهای دوم و سوم جدول مشاهده می‌شود که دقت، بازخوانی و معیارF به میزان قابل توجهی افزایش یافته‌اند. این مقایسه ما را به یک نتیجه‌گیری مهم سوق می‌دهد. به عبارتی، در زمانی که می‌خواهیم با بهره گرفتن از طبقه‌بند، جملات موازی موجود در یک پیکره را شناسایی کنیم و در عین حال داده‌های آموزشی هم‌دامنه با این جملات به‌اندازه کافی دردسترس نیست (حالتی که اغلب اتفاق می‌افتد)، می‌توان با افزودن مقدار کمی از جملات موازی هم‌دامنه، کارآیی طبقه‌بند را افزایش داد. به معنای دیگر، می‌توان با انجام فرایند شناسایی جملات موازی به‌صورت تکرار شونده رفته رفته کارآیی طبقه‌بند را بالا برد.
در سطرهای هفتم و هشتم جدول ۵-۴، ۸۵% داده‌های آموزشی هم‌دامنه با داده‌های آزمایشی هستند و ۱۵% از دامنه متفاوت هستند. از مقایسه این سطرها با سطرهای اول و دوم می‌توان مشاهده کرد که معیارF کمی افزایش داشته است. بنابراین می‌توان نتیجه گرفت که افزودن مقداری داده آموزشی متفاوت با دامنه داده‌های آزمایشی نیز در بالا بردن کارآیی مؤثر است.
تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی
پیکره تطبیقی مورد استفاده
پیکره تطبیقی مورد استفاده برای استخراج جفت جملات موازی بخش مهمی از مدل ارائه شده است. چرا که کیفیت و کمیت جفت جملات موازی استخراج شده به شدت به این پیکره بستگی دارد. در آزمایشات انجام شده از دو پیکره تطبیقی استفاده شد، پیکره تطبیقی فارسی–انگلیسی دانشگاه تهران (UTPECC) و مقالات ویکی پدیا که در ادامه بیشتر شرح داده می‌شوند.
پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC)
پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران (UTPECC) [50] از دو مجموعه اخبار متفاوت از دو مبدأ مجزا یعنی اخبار فارسی خبرگزاری همشهری و اخبار انگلیسی خبرگزاری بی‌بی‌سی ساخته شده است. همچنین برای هم‌ترازی اسناد این دو زبان، علاوه بر تاریخ انتشار اخبار، شباهت محتوای اسناد نیز در نظر گرفته شده است. شکل ۵-۱ نمونه‌ای از سندهای خبری جفت شده در این پیکره را نشان می‌دهد.

نمونه‌ای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب