شکل ۱-۱، ارتباط میان دو عبارت اسمی ‏را با در نظر گرفتن چند حوزه مشخص نمایش می‏دهد. ما این حوزه‏ها را با توجه به مفاهیم هم‏مرجعی و پیشایندی تفسیر خواهیم نمود. دو عبارت اسمی‏در صورتی که با یکدیگر مرتبط باشند، می‏توانند هم دارای ارتباط هم‏مرجعی و هم دارای ارتباط پیشایندی باشند. مانند آنچه در مثال۴ آمده است.
مثال ۴: (علی کریمی)Ant,1 در نیمه دوم، ۲ گل به ثمر رساند. به طوری که به عنوان (محبوب‏ترین بازیکن پرسپولیس)Ana.1 در این بازی تشویق شد.
در میان عبارت‏های اسمی‏ای که دارای چنین ارتباط دو‏جانبه‏ای هستند می‏توان به برخی از ضمایر و مراجع آن‏ها نیز اشاره کرد. البته مثال‏های ۵ و ۶ نشان می‏دهند که همه ضمایر و مراجعشان در این رابطه صادق نیستند.
مثال ۵: )هر سگیAnt( زندگی )خودشAna( را دارد.
مثال ۶: اگر (یک خانه)Ant داشتم (آن)Ana را به تو اجاره می‌دادم.
در مثال ۵، ارتباط میان «هر سگی» و «خودش» یک ارتباط پیشایندی از نوع «ارتباط دهنده[۵۱]» یا «با‏هم‏آیی» می‏باشد؛ و یا در مثال ۶، «یک خانه» در دنیای واقعی وجود خارجی ندارد. بنابراین طبق تعریفِ ارتباطِ هم‏مرجعی، «یک خانه» نمی‏تواند به عنوان هم‏مرجع برای «آن» در نظر گرفته‏شود.[۷۶] همان طور که در شکل ۱-۱ مشاهده می‏شود، عبارت‏های اسمی‏که از نوع پیشایندی هستند اما ارتباط هم‏مرجعی ندارند در حوزه پیشایند‏های «ارتباط‏دهنده» قرار می‏گیرند [۸۰،۸۷] اغلب پژوهشگران این نوع پیشایند را زمانی به کار می‏برند که در جفت عبارت (مقدم و تالی)، عبارت مقدم به وضوح در متن ظاهر نشده باشد و با بهره گرفتن از برخی از موجودیت‏هایی که قبلاً در متن اشاره شده است می‏توان وجود آن‏ها را اثبات کرد. مثال ۳، یک نمونه مناسب برای این نوع از پیشایندها می‏باشد. در این مثال ارتباط میان دو عبارت «درب» و «اتاق» از نوع مرونیمیک[۵۲] است به این معنا که «درب» جزئی از «اتاق» محسوب می‏شود.[۵۳]

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

یکی دیگر از انواع ارتباط پیشایندی، پیشایند صفر[۵۴] است. مثال ۷ نمونه‏ای از این ارتباط را نشان می‏دهد.
مثال ۷: (دو جاده به سمت اصفهان)Ant می‏رود، (یکی اتوبانی و سریع)Gap1 و (دیگری خاکی و خطرناک)Gap2 است.
در حقیقت پیشایندهای صفر، یکی از انواع پیشایندهای کاهش یافته می‏باشند به این ترتیب که لزوماً به صورت عبارت‏های اسمی‏ نیستند بلکه به صورت یک شکاف در یک عبارت ظاهر می‏شوند.[۳۵] در مثال۷ منظور از «اتوبانی و سریع» و «خاکی و خطرناک»، دو جاده‏ای است که به سمت اصفهان می‏روند. هدف از تحلیل پیشایندهای صفر، شناسایی چنین روابطی است.
یکی از حالتهای ارتباط پیشایند صفر، ضمایر صفر[۵۵] می‏باشد که تحلیل آن در برخی زبان‏ها مانند ژاپنی[۹۲]، اسپانیایی[۶۲] و حتی پارسی بسیار حیاتی است. در این نوع از پیشایندها، یکی از ارکان در جفت(مقدم،تالی) حذف می‏شود. نمونهای از این نوع پیشایند، مثال ۶ می‏باشد که منظور از گوینده چنین است: «اگر من یک خانه داشتم آن‏را به تو اجاره می‏دادم».
در نهایت دو عبارت اسمی‏می‏توانند تنها از نوع هم‏مرجع خالص[۵۶]باشند. ما این ارتباط را با مثال «پرفسور زاده»، «پدر منطق فازی» و «بنیان‏گذار منطق فازی» تفسیر می‏نماییم. همان طور که می‎دانید هر سه عبارت مذکور به شخص«پروفسور لطفعلی عسگر‏زاده» اشاره دارند اما اگر عبارت اسمی‏اول، یعنی «پرفسور زاده» در متن عنوان نشود، باز هم می‏دانیم که عبارت‏های اسمی‏ «پدر منطق فازی» و «بنیان‏گذار منطق فازی» با یکدیگر هم‏مرجع هستند. نمونه‏ی دیگری از یک ارتباط هم‏مرجعِ خالص، ارجاع انواع عبارت‏های اسمی‏به «باراک اوباما»، در پاراگراف‏ها، مکالمات با حتی متون متمایز است. اغلب نمونه‏هایی از روابط هم‏مرجع خالص در مستندات متقاطع مشاهده می‏شود. با تکیه بر این مفهوم برخی از پژوهشگران مانند [۸۸] به تحلیل مرجع‏مشترک در متون متقاطع پرداخته‏اند.
نکته‏ی دیگر اینکه، در همه پژوهش‏هایی که برای شناسایی مرجع ضمیر در زبان‏هایی مانند انگلیسی انجام شده است، همیشه مرجع ضمیر پیش از ضمیر قرار می‏گیرد. اما در زبان پارسی این امکان وجود دارد که مرجع یک ضمیر پس از آن قرار گیرد. مثال ۸ ، نمونه‏ای از زبان پارسی می‏باشد که این مسئله را نشان می‏دهد.
مثال ۸: سی.ان.ان به آمریکا و جهان چنان شوکی وارد کرد که حتی (خود)Ana,1( ترنر)Ant,1 نیز آن‏را باور نمی‏کرد.
بطورکلی، آنچه مبرهن است برای شناسایی و بررسی هر کدام از روابط پیشایندی و یا هم‏مرجعی، نیاز به دانش‏های واژگانی و زبان‏شناسی در زبان مورد نظر می‏باشد. به طوری که هر چقدر یک رابطه هم‏مرجعی بیشتر پیشایندی باشد به دانش زبان‏شناسی بیشتری نیاز دارد. در همین راستا، شکل ۱-۲، میزان ارتباط میان حوزه‏ها‏ی گفته شده را با هر کدام از انواع دانش‏های زبان‏شناسی و واژگانی نمایش می‏دهد.

شکل ۱-۲: میزان ارتباط میان حوزه‏ها‏ با انواع دانش‏های زبان‏شناسی و واژگانی

۱-۲-۲.تحلیل پیشایند:
یکی از وظایف مهم پردازش زبان طبیعی است که موجب کاهش ابهام عبارت‏های اسمی‏ به کار رفته در متن می‏شود. به طور کلی این فرایند وابستگی و پیوند میان دو عبارت تالی و مقدم را به گونه‏ای تشخیص می‏دهد که عبارت مقدم، عبارت تالی را تفسیر نماید.
۱-۲-۳.تحلیل مرجع‏مشترک:
با توجه به آنچه گفته شد، تحلیل مرجع‏مشترک، به فرایند مرتبط کردن تمام عبارت‏هایی گفته می‏شود که به یک موجودیت واحد در دنیای واقعی اشاره دارند. این عبارت‏های اسمی‏هم‏مرجع، با هم تشکیل یک زنجیره واحد را می‏دهند که شامل ضمایر صفر تا اسامی‏خاص خواهد بود. تمام اعضای تشکیل دهنده‏ی این زنجیره باید از نظر تعداد، جنس و… با یکدیگر هم تراز باشند.
۱-۲-۴.تقابل تحلیل مرجع‏مشترک و تحلیل پیشایندی:
با توجه به آنچه تا کنون درباره دو مفهوم تحلیل مرجع‏مشترک و تحلیل پیشایند گفته شد، این دو وظیفه با وجود شباهت زیادی که با یکدیگر دارند، دو وظیفه مجزا محسوب می‏شوند. بدین‏ترتیب که با به کارگیری فرایند تحلیل مرجع‏مشترک، سیستم می‏تواند تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. از طرفی دیگر تفسیر درست پیشایندها در متون به رفع ابهامات موجود در متن می‏انجامد؛ لذا استفاده از این دو وظیفه با در نظر گرفتن حوزه‏ها‏ی تشابه و اختلاف آن‏ها به درک و استخراج اطلاعات مفید در متن کمک فراوانی خواهد نمود. در این بخش با بهره گرفتن از مثال‏هایی لزوم اجرای این دو فرایند را در کنار یکدیگر بررسی می‏کنیم.
پس از شناخت فرآیندهای تحلیل مرجع‏مشترک و تحلیل پیشایند و اینکه یک سیستم چه انتظاراتی را باید برآورده نماید، لازم است تا روال کار را برای اجرای هر فرایند را مشخص نماییم. استفاده از الگوریتم‏های یادگیری، از پرکاربردترین روش‏های ارائه شده برای شناسایی روابط مثبت و منفی در مرجع‏مشترک و پیشایند می‏باشد. به این ترتیب که الگوریتم با بهره گرفتن از برخی ویژگی‏ها (مانند [۱۰۵]( آموزش می‏بیند تا روابط مثبت و منفی را پیش‏بینی نماید[۵۷]. البته شایان ذکر است که برخی از ویژگی‏ها برای این دو فرایند مشترک و برخی دیگر متفاوت می‏باشد. به عنوان مثال ویژگی تطابق رشته‏ای[۵۸] از جمله مواردی است که برای تحلیل مرجع‏مشترک بسیار مورد توجه قرار گرفته است اما در فرایند تحلیل پیشایند کاملاً بی معنا است( دو عبارت یکسان چگونه می‏توانند یکدیگر را تفسیر نمایند). به عبارت دیگر فرض بر این است که دو عبارت اسمی‏که در یک متن تکرار می‏شوند به احتمال خیلی زیاد هم‏مرجع هستند.
مثال ۹: دیروز دو تیم محبوب «الف» و «ب» به مصاف یکدیگر رفتند. تیم «الف»، در نیمه اول بسیار درخشید به طوری که طرفداران این تیم به پیروزی تیمشان امیدوار بودند. اما دیری نپایید که تیم «ب» روال بازی را به نفع خود تغییر داد که منجر به شادمانی طرفداران این تیم شد.
همان طور که در مثال ۹ مشاهده می‏شود، عبارت اسمی‏«طرفداران این تیم» در خطوط ۲ و ۳ عیناً تکرار شده است. بنابراین طبق ویژگی تطابق رشته‏ای در فرایند تحلیل مرجع‏مشترک این دو عبارت با یکدیگر هم‏مرجع در نظر گرفته خواهند شد، اما واقعیت این است که این دو عبارت با یکدیگر هم‏مرجع نیستند. به عبارتی قرار گرفتن این دو عبارت در یک زنجیره واحد یکی از خطاهای تحلیل مرجع‏مشترک محسوب می‏شود. در حالی که استفاده از فرایند تحلیل پیشایندی موجب رفع این خطا خواهد شد. این کار به این ترتیب انجام خواهد گرفت که عبارت «طرفداران این تیم» در خط ۳ با اولین و نزدیک‏ترین مفسر خود یعنی «تیم ب»، تشکیل یک جفت تالی و مقدم را می‏دهند و به همین ترتیب «طرفداران این تیم» در خط ۲ با «تیم الف» جفت خواهد شد. این مثال نمونه‏ایست که در آن دقتِ[۵۹] تحلیل پیشایندی از تحلیل مرجع‏مشترک پیشی می‏گیرد.
طبق آنچه در فرایند تحلیل پیشایندی رایج است. هنگام شناسایی مقدم برای هر عبارت تالی، حرکت از تالی به سمت عبارت‏های اسمی‏ماقبل آن انجام خواهد شد تا به این ترتیب، جفت عبارت‏های (مقدم و تالی) شناسایی شوند. همان طور که پیش از این اشاره شد، فرایند تشخیص مرجع ضمیر نیز از همین رویکرد پیروی می‏نماید، با این تفاوت که در برخی موارد مقدم (در اینجا منظور مرجع ضمیر است) بعد از تالی قرار می‏گیرد (مانند مثال ۸). بنابراین حرکت الگوریتم (راست به چپ) نمی‏تواند به شناسائی مرجع صحیح برای ضمیر مورد نظر منجر شود. در حالی که اجرای وظیفه‏ی تحلیل مرجع‏مشترک، با شناسایی عبارت‏های هم‏مرجع، تا حد زیادی این مشکل را برطرف خواهد نمود. حرکت الگوریتم در تحلیل مرجع‏مشترک نیز از راست به چپ خواهد بود با این تفاوت که نقطه‏ شروع آن می‏تواند انتهای متن باشد، هر عبارت اسمی‏جدید که با عبارت‏های پیش از خود هم‏مرجع باشد به زنجیره های موجود اضافه می‏شود، در غیر این صورت خودش تشکیل زنجیره‏ای جدید را خواهد داد. در چنین حالتی فراخوانی[۶۰] و دقت در تحلیل مرجع‏مشترک نسبت به تحلیل پیشایندی پیشی می‏گیرد.
به همین ترتیب نیز راهکار‏ها‏ی ارائه شده برای هر کدام از این فرآیندها تا حدودی با یکدیگر متفاوت می‏باشد. به عنوان نمونه یک رویکرد در فرایند تحلیل پیشایندی افراز پس از آموزش الگوریتم یادگیری است که تنها به منظور افرازِ جفت‏های (مقدم و تالی) صورت می‏گیرد. به این ترتیب که پس از ایجاد نمونه‏ها‏ی مثبت و منفی که عموماً توسط یک رده‏بند ایجاد می‏شوند، نزدیک‏ترین و مناسب‏ترین مقدم برای تالی مورد نظر مشخص می‏شود. در مقابل برخی پژوهشگران برای تحلیل مرجع‏مشترک را یک فرایند دومرحله‏ای در نظر می‏گیرند؛ در مرحله‏ی اول به جای استفاده از دو اصطلاح تالی و مقدم، اصطلاحاتی مانند «قابل برچسب[۶۱]» و یا «اشاره» جایگزین می‏شود. هر اشاره می‏تواند خروجی فرایند کشف و شناسایی اشاره باشد. توجیه این جایگزینی این است که ما در تحلیل مرجع‏مشترک به مفاهیم مفسر یا ارجاع دهنده نیاز نداریم و به جای آن اصلاحِ مستقلِ اشاره را جایگزین می‏نماییم. هر اشاره به عنوان یک ارجاع به هر گروه از موجودیت‏ها در نظر گرفته می‏شود و می‏تواند یکی از انواع اسم عام، اسم خاص و حتی ضمیر (یا شبه ضمیر) باشد. همچنین سایر عبارت‏های موجود در متن که برای تحلیل مرجع‏مشترک کاربرد ندارند، به عنوان خارج ‏از اشاره[۶۲] در نظر گرفته میشوند. در مرحله‏ی دوم نیز فرایند تحلیل عبارت‏ها‏ی اسمی‏هم‏مرجع انجام خواهد شد.
۱-۳.جمع‏بندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرایند به دنبال پیدا کردن ارتباطات هم‏مرجع در متن می‏باشد. در پژوهش‏ها‏ی انجام شده گاهی یک ارتباط هم‏مرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب می‏شود. حتی گاهی ما یک ارتباط را هم‏مرجع می‏پنداریم که هم‏مرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکره‏ای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکره‏ای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت می‏تواند به انتخاب راهکار‏های مناسب برای فرایند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهایت نیز شناخت روابط و راهکارهای مناسب برای تشخیص هر کدام از انواع روابط میان عبارت‏های اسمی مرتبط با هم، می تواند به ایجاد یک سیستم چند گذری، مانند آنچه لی ۲۰۱۱، بنسکو۲۰۱۲ ارائه داده اند کمک کند. [۴۱،۸۰]به این ترتیب که در هر گذر، یکی از انواع و حالت‏های موجود مورد بررسی و تحلیل قرار گیرد و در نهایت با اجماع نتایج حاصل شده، فرایند تحلیل اتمام یابد.
فصل دوم
بخش اول
۲-۱-۱. پیشینه تشخیص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشاره‏هایی) که به یک موجودیت واحد اشاره دارند، همراه می‏باشد.[۵۸]به این ترتیب که این اشاره‏ها تشکیل یک زنجیره‏ی هم‏مرجع را می‏دهند. در این فصل برخی از روش‏هایی که در زمینه تشخیص مرجع مشترک بکارگرفته شده‏اند را بررسی می‏نماییم. از آنجائی­که تا کنون پژوهش منتشر شده‏ای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روش‏های ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و…) می‏پردازیم.
به طور کلی روش‏های تشخیص مرجع مشترک به دو دسته کلی زبان‏شناسی و روش‏های یادگیری ماشین تقسیم می‏شوند. به این ترتیب که در روش‏های زبان‏شناسی، بسیار نیازمند دانش زبان‏شناسی هستیم. استخراج این دانش از متن، فرآیندی زمان‏بر و پر‏خطاست. نخستین الگوریتم‏های زبان‏شناسی مرتبط با تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آن‏ها از دانش زبان‏شناسی و معنایی بسیاری استفاده شده‏است.[۱۹،۶۰] پس از آن، با گذر زمان و فراهم شدن پیکره‏های زبان‏شناسی، این روش‏ها، جای خود را به روش‏های آماری دادند. در روش‏های آماری، دانش مورد نیاز بیشتر با بهره گرفتن از پیکره‏های بزرگ و روش‏های آماری کسب می‏شود و نسبت به روش قبل، به دانش زبان‏شناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست می‏آید.[۱۰۵] در ادامه‏ی این بخش نخست به مرور مختصری از شیوه‏های کلی روش‏های زبان‏شناسی می‏پردازیم. سپس روش‏های یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.
۲-۱-۲. روش‏های زبان‏شناسی
عموماً روش‏های زبان‏شناسی به منظور تشخیص مرجع مشترک، از مجموعه‏ای از فاکتورها بهره می‏گیرند. تطابق[۶۳] جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیت‏های تطبیق معنایی، مشابهت معنایی[۶۴]، مشابهت نحوی[۶۵]، بارز بودن[۶۶]، مجاورت[۶۷] و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک می‏باشند. این فاکتورها می‏توانند «حذف‏کننده[۶۸]» یا «امتیاز‏دهنده[۶۹]» باشند. جدول ۲-۱ این فاکتورها را به تفکیک «حذف‏کننده» و «امتیازدهنده» نمایش می‏دهد.

جدول۲-۱: فاکتورهای متداول برای تشخیص مرجع مشترک

«حذف‏کننده»

«امتیاز‏دهنده»

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...