شکل ۵-۱٫ نمونهای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران ۶۴
شکل ۵-۲٫ کلمات پرتکرار انگلیسی ۶۷
فصل اول
مقدمه
مقدمه
مقدمه
به دلیل افزایش ارتباطات متقابل منطقهای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به ترجمه دارند از جمله مستندات علمی و فنی، دستورالعملهای راهنما، مستندات حقوقی، کتابهای درسی، بروشورهای تبلیغاتی، اخبار روزنامهها و غیره؛ که ترجمه برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفهای دشوار است. در چنین موقعیتی ترجمه ماشینی میتواند به عنوان یک جایگزین به کار گرفته شود.
ترجمه ماشینی بعد از ۶۵ سال یکی از قدیمیترین کاربردهای کامپیوتر است. در طول سالها، ترجمه ماشینی مرکز توجه تحقیقات زبانشناسان، روانشناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به طور قابل ملاحظهای در توسعه زمینههایی نظیر زبان شناسی رایانهای، هوش مصنوعی و پردازش زبانهای طبیعی برنامهگرا، مشارکت کرده است.
ترجمه ماشینی را میتوان به این صورت تعریف کرد: “ترجمه از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با بهره گرفتن از سیستمهای کامپیوتری شده و به همراه یا بدون کمک انسان". کار پژوهشی در حوزه ترجمه ماشینی به هدف بزرگ ترجمه تمام خودکار با کیفیت بالا (قابل نشر) محدود نمیشود. غالبا ترجمههای ناهموار برای بازبینی موضوعات خارجی کافی است. تلاشهای اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاههای دستی میباشند. ترجمه ماشینی میتواند به عنوان پایهای برای ویرایشهای بعدی به کار گرفته شود، مترجمها معمولا با ابزارهایی نظیر حافظههای ترجمه که از فناوری ترجمه ماشینی استفاده میکنند اما آنها را در کنترل خود قرار میدهند، استفاده میکنند.
ترجمه ماشینی یکی از حوزههای پژوهشی «زبانشناسی رایانهای» است. تا کنون روشهای مختلفی جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشینی به صورتهای مختلفی دستهبندی شدهاند. شکل ۱-۱ انواع روشهای ترجمه ماشینی موجود را در قالب دستهبندی که در [۱] آمده است نشان میدهد.
مبتنی بر متن
روشهای ترجمه ماشینی
مبتنی بر فرهنگ لغت
مبتنی بر قانون
مبتنی بر دانش
مبتنی بر پیکره متون
مستقیم
انتقالی
میان زبانی
آماری
مبتنی بر مثال
دستهبندی روشهای ترجمه ماشینی
ترجمه ماشینی مبتنی بر فرهنگ لغت[۱]
این نوع ترجمه ماشینی مبتنی بر مدخلهای فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید ترجمه استفاده میشود. اولین نسل ترجمه ماشینی (از اواخر دهه ۱۹۴۰ تا اواسط دهه ۱۹۶۰) کاملا بر مبنای فرهنگ لغتهای الکترونیک بودند. این روش همچنان تا حدی در ترجمه عبارات و نه جملات مفید است. اکثر روشهایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره میگیرند [۱].
ترجمه ماشینی مبتنی بر قانون[۲]
ترجمه ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبانهای مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته میشوند. این روش میتواند با پدیدههای مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم میافزاید. همچنین فرایند پژوهشی آن نیاز به سرمایهگذاری زیادی دارد. هدف ترجمه ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد است. این روش رویکردهای مختلفی دارد.
-
- رویکرد مستقیم[۳]: کلمات زبان مبدأ بدون عبور از یک نمایش میانی ترجمه میشوند. در این روش به بستر متن، معنی و دامنه توجه نمیشود.
-
- رویکرد انتقالی[۴]: مدل انتقالی متعلق به نسل دوم ترجمه ماشینی است (از اواسط دهه ۱۹۶۰ تا دهه ۱۹۸۰). در این مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان است، انتقال مییابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با بهره گرفتن از فرهنگ لغات دوزبانه و قوانین گرامری تولید میشود.
-
- میان زبانی[۵]: این روش متعلق به نسل سوم ترجمه ماشینی است. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل میدهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه برای زبان مقصد از این نمایش کمکی به دست میآید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز است. همچینن به دلیل مستقل بودن این روش از زبانهای مبدأ و مقصد، بیشتر در ماشینهای ترجمه چندزبانه استفاده میشود. این روش بر یک نمایش واحد از زبانهای مختلف تأکید میکند.
ترجمه ماشینی مبتنی بر دانش[۶]
این روش با واژهنامهای مفهومیکه یک دامنه را نشان میدهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید است. اجزای پایهای یک ماشین ترجمه مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژهنامه و گرامر زبان مبدأ برای فرایند تحلیل، واژهنامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبانهای مبدأ و مقصد.
ترجمه ماشینی مبتنی بر پیکره[۷]
رویکرد ترجمه ماشینی مبتنی بر پیکرههای متنی از سال ۱۹۸۹ ظهور پیدا کرد و به طور وسیعی در حوزه ترجمه ماشینی به آن پرداخته شد؛ و به دلیل دقت بالای این روش در ترجمه، بر دیگر روشها غلبه یافت. در این روش، دانش یا مدل ترجمه به طور خودکار از پیکرههای متنی (مجموعه متون) دوزبانه گرفته میشود. از آنجایی که این رویکرد با حجم زیادی از دادهها کار میکند، ترجمه ماشینی مبتنی بر پیکره نامیده شده است. برخی از انواع روشهای مبتنی بر پیکره در ادامه شرح داده میشوند.
ترجمه ماشینی آماری[۸]
با اینکه ایده اولیه ترجمه ماشینی آماری توسط وارن ویور در سال ۱۹۴۱ معرفی شد، اما از سال ۱۹۹۳ که این روش توسط محققان آی بی ام مدل شد به طور گستردهای مورد استفاده قرار گرفت؛ به طوریکه در حال حاضر ترجمه ماشینی آماری رایجترین رویکرد در ترجمه ماشینی به شمار میآید. در روش ترجمه ماشینی آماری از مدلهای آماری استفاده میشود که پارامترهای این مدلها از متون دوزبانه یا همان «پیکرههای موازی» استخراج میشوند. به عبارت دیگر سیستم ترجمه ماشینی آماری، احتمالات ترجمه را از پیکره موازی میآموزد و با بهره گرفتن از این احتمالات برای جملات ورودی که در فرایند آموزش دیده نشدهاند، ترجمهای مناسب تولید میکند. در این روش از دو مدل عمده به نام مدلهای مبتنی بر کلمه و مدلهای مبتنی بر عبارت استفاده میشود.
ترجمه ماشینی مبتنی بر مثال[۹]
روش های ترجمه ماشینی مبتنی بر مثال، روش های مبتنی بر حافظه[۱۰] نیز نامیده شدهاند. ایده این روش از سال ۱۹۸۰ در ژاپن شروع شد. این نوع سیستمها تلاش میکنند تا جملهای مشابه جمله ورودی در پیکره موازی پیدا کنند، و سپس با اِعمال تغییراتی بر روی جمله ترجمه شده که قبلا ذخیره شده، ترجمه جمله ورودی را تولید کنند.
ایده اولیه در این روش، استفاده از ترجمههای انسانی موجود برای ترجمه متنهای جدید است. لذا کافی است متون جدید به قطعههای کوچک شکسته شود و ترجمه معادل این قطعات، در پایگاه دادهای از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر تولید گردد. این روش دارای محدودیت دادگان میباشد. جمع آوری مجموعه مثالهای بسیار بزرگ نیز کل زبان را پوشش نمی دهد. بنابراین معمولا این روش برای زیر مجموعههای محدودی از یک زبان استفاده میشود.
ترجمه ماشینی مبتنی بر متن[۱۱]
ترجمه ماشینی مبتنی بر متن نوعی از ترجمه ماشینی مبتنی بر پیکره است که نه به قوانین و نه به پیکرههای موازی نیاز دارد. در عوض این روش برای اجرای الگوریتم خود به یک پیکره عظیمی از متون تک زبانه (به زبان مقصد)، یک فرهنگ لغت دوزبانه کامل و به صورت اختیاری یک پیکره تک زبانه از متون مبدأ (جهت بهبود کیفیت ترجمه) نیاز دارد. این روش یک رویکرد جدید برای ترجمههای ماشینی مبتنی بر پیکره است.
ضرورت ساخت پیکره موازی
در طول چند قرن گذشته، ماشینها در بسیاری از کارهای انسان به کار گرفته شدهاند، و اخیرا با ظهور کامپیوترهای دیجیتالی حتی کارهایی که نیاز به فکر و هوش دارند توسط ماشینها انجام میشود. ترجمه بین زبانها نیز یکی از این کارهاست، کاری که حتی انسانها هم برای انجام آن نیاز به آموزشهای ویژه دارند.
ترجمه ماشینی سابقه بسیار طولانی دارد، اما در یکی دو دهه اخیر تحولش در مسیر جدیدی صورت گرفت- مسیری که در دیگر رشتههای وابسته به پردازش زبانهای طبیعی منعکس شده است. این مسیر جدید بر این فرض مبتنی است که زبان بسیار غنی و پیچیده است، در نتیجه هیچ گاه نمی توان زبان را به طور کامل در قالب مجموعهای از قوانین -که بصورت یک برنامه کامپیوتری کد شده در میآید- خلاصه کرده و تجزیه و تحلیل کرد. در عوض، مسیر جدید در جهت توسعه یک ماشین است که قوانین ترجمه را به طور خودکار از یک پیکره بزرگ از متون ترجمه شده کشف میکند، و این کار را با جفت کردن ورودی و خروجی فرایند ترجمه و با یادگیری از روی آمارهای مربوط به دادهها انجام میدهد.
ترجمه ماشینی آماری شتاب فوق العادهای را هم در جامعه پژوهشی و هم در بخش تجاری به دست آورده است. نزدیک به یک هزار مقاله آکادمیک بر روی این موضوع منتشر شده است که حدود نیمی از آن تنها مربوط به سه سال گذشته است. در همین زمان، سیستمهای ترجمه ماشینی آماری راهشان را در بازار کار پیدا کردهاند، از زبان ویور، اولین شرکت ترجمه آماری محض گرفته تا سیستمهای آنلاین آزاد گوگل و مایکروسافت.
همانطور که گفته شد، مرز دانش در ترجمه ماشینی برپایه رویکردهای آماری است که یک فرایند داده محور است. در نگاه به ترجمه به عنوان یک مسئله یادگیری ماشین، الگوریتم ترجمه ماشینی آماری قوانین ترجمه را از متون ترجمه شده قبلی یاد میگیرد [۲]. بنابراین کارآیی سیستم به شدت به کیفیت و کمیت پیکره مورد استفاده برای یادگیری بستگی دارد. عموما، متنهای دوزبانه بزرگتر منجر به کارآیی بیشتر میشوند. سیستمهای ترجمه ماشینی آماری از متنهای دوزبانه موازی برای مدل ترجمه و از پیکرههای تک زبانه برای مدل کردن زبان مقصد به عنوان مواد آموزشی استفاده میکنند. برخلاف اینکه دادههای تک زبانه کافی برای اکثر زبانها وجود دارد، دادههای موازی بسیار کمیاب هستند.
ثابت شده است که پیکره متنی، یک منبع ضروری برای ترجمه ماشینی آماری است [۳,۴] همانطور که برای دیگر برنامههای کاربردی پردازش زبانهای طبیعی از جمله برای ساخت و توسعه واژهنامههای دوزبانه و مجموعه اصطلاحات دوزبانه ضروری میباشد. با این حال غیر از تعداد کمی از زبانها مانند فرانسوی-انگلیسی، انگلیسی-عربی و انگلیسی-چینی و زمینههای معدودی از جمله مذاکرات پارلمانی و متون حقوقی، مانند شرح مذاکرات مجلس کانادا یا اروپا [۵]، و یا سازمان ملل متحد، منابع کمی باقی میماند، که اغلب به دلیل هزینههای انسانی و مالی است که برای تولیدشان نیاز است. بعلاوه اصطلاحات مخصوص صنفی به کاررفته در اینگونه پیکرهها برای ترجمههای روزمره و یا ترجمه در دیگر زمینهها مناسب نیستند؛ بنابراین نیاز شدیدی برای پیکرههای موازی بیشتر که مناسب ترجمههای منطبق بر دامنه هستند احساس میشود.
پیکره موازی برای ترجمه ماشینی باید در اندازه بسیار زیاد باشد – بیلیونها جمله – تا بتواند موثر باشد. و به همین دلیل است که در زبان فارسی با مشکل روبه رو هستیم. به دلیل کمبود شدید مواد زبانی ذخیره شده بصورت دیجیتال و مستندات موازی برخط، ساخت پیکره موازی فارسی بسیار سخت است [۶].