بر خلاف معیار که برای اندازه‌گیری شباهت دو افراز طراحی شده است معیار روشی برای اندازه‌گیری میزان شباهت یک خوشه در یک افراز است که توسط عـلیزاده و همکاران [۸, ۶۷] معرفی شده است رابطه ۲-۲۹ این معیار را معرفی می‌کند.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

(۲-۲۹)
در رابطه ۲-۲۹ پارامتر خوشه i-ام در افراز می‌باشد و افراز متناظر با خوشه در خوشه‌بندی است. پارامتر تعداد کل نمونه‌های مجموعه داده و تعداد نمونه‌های مشترک بین خوشه‌های و می‌باشد. همچنین، تعداد خوشه‌های موجود در افراز می‌باشد. در این روش برای محاسبه پایداری خوشه از رابطه ۲-۳۰ استفاده می‌کنیم [۸, ۶۷].
(۲-۳۰)
در رابطه ۲-۳۰ پارامتر نشان‌دهنده j-امین افراز از مجموعه مرجع است و تعداد کل افرازها است [۸, ۶۷]. از آنجایی که این معیار برای ارزیابی شباهت یک خوشه است می‌توان هم برای ارزیابی خوشه و هم برای ارزیابی افراز استفاده کرد. جهت استفاده از این معیار برای ارزیابی یک افراز کافی است آن را برای تک‌تک خوشه‌های آن افراز استفاده کنیم و در نهایت از کل مقادیر میانگین بگیریم.
۲-۳. خوشه‌بندی ترکیبی
کلمه’Ensemble‘ ریشه فرانسوی دارد و به معنی باهم بودن یا در یک زمان می‌باشد و معمولاً اشاره به واحدها و یا گروه‌های مکملی دارد که باهم در اجرای یک کار واحد همکاری می‌کنند. ترکیب تاریخ طولانی در دنیای واقعی دارد، نظریه هیئت‌منصفه ی کندورست که در سال ۱۷۸۵ میلادی مطرح شده است و این ایده را مطرح می‌کند که، احتمال نسبی درستی نظر گروهی از افراد (رأی اکثریت) بیشتر از نظر هر یک از افراد به تنهایی می‌باشد را می‌توان دلیلی برای ترکیب نتایج در دنیای واقعی دانست [۱۰, ۲۷]. خوشه‌بندی ترکیبی روشی جدید در خوشه‌بندی می‌باشد که از ترکیب نتایج روش‌های خوشه‌بندی متفاوت به دست می‌آید از آنجایی که اکثر روش‌های خوشه‌بندی پایه روی جنبه‌های خاصی از داده‌ها تاکید می‌کنند، در نتیجه روی مجموعه داده‌های خاصی کارآمد می‌باشند. به همین دلیل، نیازمند روش‌هایی هستیم که بتواند با بهره گرفتن از ترکیب این الگوریتم‌ها و گرفتن نقاط قوت هر یک، نتایج بهینه‌تری را تولید کند. هدف اصلی خوشه‌بندی ترکیبی جستجوی نتایج بهتر و مستحکم‌تر، با بهره گرفتن از ترکیب اطلاعات و نتایج حاصل از چندین خوشه‌بندی اولیه است [۱۸, ۵۴]. خوشه‌بندی ترکیبی می‌تواند جواب‌های بهتری از نظر استحکام[۸۳]، نو بودن[۸۴]، پایداری[۸۵] و انعطاف‌پذیری[۸۶] نسبت به روش‌های پایه ارائه دهد [۳, ۲۱, ۵۴, ۵۷]. به طور خلاصه خوشه‌بندی ترکیبی شامل دو مرحله اصلی زیر می‌باشد : [۳۴, ۵۴]
۱- تولید نتایج متفاوت از خوشه‌بندی‌ها، به عنوان نتایج خوشه‌بندی اولیه بر اساس اعمال روش‌های مختلف که این مرحله را، مرحله ایجاد تنوع یا پراکندگی[۸۷] می‌نامند.
۲- ترکیب نتایج به دست آمده از خوشه‌بندی‌های متفاوت اولیه برای تولید خوشه نهایی؛ که این کار توسط تابع توافقی[۸۸] (الگوریتم ترکیب‌کننده) انجام می‌شود.
۲-۳-۱. ایجاد تنوع در خوشه‌بندی ترکیبی
در خوشه‌بندی ترکیبی، هرچه خوشه‌بندی‌های اولیه نتایج متفاوت تری ارائه دهند نتیجه نهایی بهتری حاصل می‌شود. در واقع هرچه داده‌ها از جنبه‌های متفاوت‌تری مطالعه و بررسی شوند (تشخیص الگوهای پنهان داده) نتیجه نهایی که از ترکیب این نتایج حاصل می‌شود متعاقباً دارای دقت بالاتری خواهد بود که این امر منجر به کشف دانش ضمنی پنهان در داده نیز خواهد شد. تنوع در این بخش به این معنا می‌باشد که با بهره گرفتن از روش‌های متفاوت مجموعه داده را از دیدگاه‌های گوناگونی مورد بررسی قرار دهیم. در این فصل برای ایجاد پراکندگی در بین نتایج حاصل چند راه‌کار مختلف پیشنهاد می‌کنیم و به بررسی مطالعات انجام‌شده در هر یک از آن‌ها می‌پردازیم. راه‌های مختلفی برای ایجاد پراکندگی در خوشه‌بندی ترکیبی وجود دارد که عبارت‌اند از:

    1. استفاده از الگوریتم‌های متفاوت خوشه‌بندی.
    1. تغییر مقادیر اولیه و یا سایر پارامترهای الگوریتم خوشه‌بندی انتخاب‌شده.
    1. انتخاب بعضی از ویژگی داده‌ها یا ایجاد ویژگی‌های جدید.
    1. تقسیم‌بندی داده‌های اصلی به زیرمجموعه‌هایی متفاوت و مجزا.

در حقیقت به خاطر ماهیت بدون ناظر بودن مسئله خوشه‌بندی این اصل که آیا پراکندگی به وجود آمده مفید می‌باشد یا مفید نیست را نمی‌تواند مورد مطالعه قرارداد اما نتایج تجربی نشان داده است که ایجاد پراکندگی در خوشه‌بندی‌های اولیه به طور معمول موجب بهبود خوشه‌بندی در اکثر مواقع می‌شود لذا در روش‌های ارائه‌شده هدف تنها بررسی مجموعه داده از زوایای مختلف است [۴۲] .
۲-۳-۱-۱. استفاده از الگوریتم‌های مختلف خوشه‌بندی ترکیبی
به طور معمول بیشتر روش‌های خوشه‌بندی ترکیبی از الگوریتم جهت خوشه‌بندی اولیه خود استفاده می‌کنند [۳۷, ۴۷, ۵۶, ۵۷]. اما در روش‌های ارائه‌شده نشان داده شده است که با توجه به رفتار هر مجموعه داده گاهی اوقات یک روش خوشه‌بندی خاص پیدا می‌شود که دقت بهتری از برای بعضی از مجموعه داده‌ها می‌دهد [۵۴]. اما الگوریتم به دلیل سادگی و توانایی مناسب در خوشه‌بندی همواره به عنوان انتخاب اول در خوشه‌بندی ترکیبی مورد مطالعه قرار گرفته است. نکته مهمی که در انتخاب الگوریتم‌ها باید به آن دقت کرد این است که الگوریتم‌هایی همانند که بر اساس فاصله اقلیدسی تمامی ‌ویژگی‌ها کار می‌کنند، در صورتی که حتی یک ویژگی یک نمونه دارای یک مقدار غیرمنتظره باشد، نمونه به طور نادرست دسته‌بندی می‌شود. با توجه به این مسئله می‌توان از روش‌هایی مشابه این الگوریتم‌ها که مقاوم در برابر نویز هستند جهت رسیدن به پایداری و کیفیت بیشتر استفاده کرد. نکته دیگری که در انتخاب الگوریتم‌های پایه باید به آن توجه کرد این است که برخی از روش‌ها همانند الگوریتم‌های سلسله مراتبی پیوندی[۸۹] همواره با تکرار مکرر روی یک داده یک جواب منحصربه‌فرد ایجاد می‌کنند که در صورت ایجاد نتایج با این‌گونه الگوریتم‌ها باید فقط یکی از هر نوع آن را در ساخت نتایج نهایی استفاده کرد.
۲-۳-۱-۲. تغییر پارامترهای اولیه خوشه‌بندی ترکیبی
یکی دیگر از راه‌های افزایش پراکندگی تغییر پارامترهای اولیه الگوریتم‌های خوشه‌بندی می‌باشد. برای مثال در الگوریتم می‌توان با تغییر تعداد خوشه‌ها در الگوریتم، یا تعداد دفعات تکرار[۹۰] اجرای الگوریتم و یا تغییر نمونه‌های اولیه[۹۱] الگوریتم میزان پراکندگی را افزایش داد. در شکل ۲-۱۶ اثر نمونه‌های اولیه در خوشه‌بندی نهایی به وضوح قابل‌مشاهده می‌باشد. در شکل زیر در سمت چپ ابتدا نحوه توزیع نمونه‌ها[۹۲] نمایش داده شده است و سپس نتایج سه بار اجرای مختلف الگوریتم با سه نمونه شروع مختلف نمایش داده شده است [۲, ۶].
شکل۲-۱۶. نمونه‌های اولیه در نتایج الگوریتم . شکل‌ها به ترتیب از چپ به راست ۱) نمایش فضایی۱۴ نمونه پراکنده در فضا. ۲) نتایج به دست آمده با نمونه‌های اولیه ۱ و ۸. ۳)نتایج به دست آمده با نمونه‌های اولیه ۲ و ۳ . ۴)نتایج به دست آمده با نمونه‌های اولیه ۱ و ۱۳ [۲].
۲-۳-۱-۳. انتخاب یا تولید ویژگی‌های جدید
استفاده از برخی از ویژگی‌های کل فضای مجموعه داده و یا تولید ویژگی‌های جدید یکی دیگر از راه‌کارهای افزایش پراکندگی در خوشه‌بندی ترکیبی می‌باشد. بسیاری از مطالعات در حیطه طبقه‌بندی اطلاعات اقدام به انتخاب زیرمجموعه‌ای از ویژگی‌ها می کند که باعث افزایش میزان پراکندگی، کاهش حجم محاسبات و بالا بردن دقت طبقه‌بندی کننده می‌شود [۵۴]. ولی به دلیل ماهیت بدون ناظر بودن مسئله در خوشه‌بندی، انتخاب زیرمجموعه‌ای از ویژگی‌ها کمتر مورد توجه بوده است و بیشتر سعی در تولید ویژگی‌های جدید بوده است. روش‌های گوناگونی برای تولید ویژگی و استفاده از آن در خوشه‌بندی ترکیبی وجود دارد که ساده‌ترین آن‌ها نرمال سازی داده‌ها می‌باشد. معمولاً داده‌های مسائلی که از فاصله اقلیدسی برای خوشه‌بندی آن‌ها استفاده می‌شود نرمال می‌شوند. نتایج تجربی نشان داده است که علیرغم اینکه نرمال سازی داده‌ها در بعضی مواقع موجب بهبود کار می‌شود در بعضی موارد موجب افت کارایی یک روش می‌شود [۱۲].
۲-۳-۱-۴. انتخاب زیرمجموعه‌ای از مجموعه داده اصلی
یکی از راه‌های به دست آوردن این پراکندگی استفاده از تعداد محدودی از نمونه‌ها به جای کل نمونه‌ها می‌باشد که این امر دو مزیت دارد اول کاهش میزان محاسبات و دوم افزایش پراکندگی. روش‌های متعددی تاکنون برای ایجاد زیرمجموعه‌ها پیشنهاد گردیده است. در روش‌های معمولی، شانس نمونه‌ها برای انتخاب شدن در زیرمجموعه برابر ( ) می‌باشد [۵۷]. یکی از روش‌های معروف در انتخاب زیرمجموعه‌ای از مجموعه داده اصلی نمونه‌برداری[۹۳] می‌باشد که می‌تواند با جایگزینی یا بدون جایگزینی و یا با انتخاب تصادفی[۹۴] باشد.
۲-۳-۲. ترکیب نتایج با تابع توافقی
ترکیب نتایج خوشه‌بندی‌های اولیه (پایه) و دست‌یابی به نتیجه نهایی یکی از مهم‌ترین مراحل خوشه‌بندی ترکیبی می‌باشد. روش‌های گوناگونی برای ترکیب نتایج خوشه‌بندی‌های اولیه مختلف و ایجاد خوشه‌بندی نهایی وجود دارد که در زیر به معرفی چند روش جدید و معروف در این زمینه می‌پردازیم ولی به طور کل می‌توان آن‌ها را در سه گروه مبتنی بر ابر گراف‌ها، روش رأی‌گیری و روش‌های مبتنی بر ماتریس همبستگی دسته‌بندی کرد.
۲-۳-۲-۱. روش مبتنی بر مدل مخلوط
این روش توسط تاپچی و همکاران [۵۷] معرفی شده است. فرض کنید یک دسته تایی از نقاط داده و یک دسته تایی افراز از اشیای داریم. افرازهای متفاوت از برای هر نقطه از یک مجموعه از برچسب‌ها را برمی‌گرداند:
(۲-۳۱) ،
در اینجا، خوشه‌بندی مختلف نشان داده شده است و نشان‌دهنده برچسب تخصیص‌یافته توسط الگوریتم j-ام است. روش مدل مخلوط[۹۵]، با بهره گرفتن از تعداد محدودی از مدل‌های مخلوط شده با توجه به احتمال وقوع برچسب‌های خوشه از الگو یا اشیاء روشی برای حل تابع توافقی پیشنهاد می‌دهد. فرض اصلی در این روش این است که برچسب‌های مدلی از ترسیمم تغییرهای تصادفی[۹۶] از یک توصیف توزیع احتمال[۹۷] در یک مخلوط از مؤلفه‌های متراکم چند متغیره است.
(۲-۳۲)
در رابطه ۲-۳۲ مؤلفه توسط پارامتر تعریف شده است. مؤلفه در مخلوط با خوشه‌های افراز توافقی شناسایی می‌شوند. ضریب مخلوط متناظر با احتمالات قبلی از خوشه‌ها تعیین می‌شود. در این مدل نقاط داده بر اساس تولید دو مرحله ذیل فرض می‌شود: اول، برای طراحی مؤلفه بر اساس احتمال جرم تابع و پس از آن ساده‌سازی یک نقطه از توزیع . تمام داده به صورت مستقل و به صورت یکسان توزیع‌شده فرض می‌شوند. این امر اجازه می‌دهد تا برای تعیین پارامترهای در مجموعه داده از نمایش تابع احتمال لگاریتمی رابطه ۲-۳۳ استفاده کنیم.
(۲-۳۳)
با این کار هدف خوشه‌بندی توافقی به یک مسئله تخمین احتمال حداکثر فرموله شده است. برای پیدا کردن بهترین چگالی مخلوط مناسب برای داده ، باید تابع احتمال نسبت به پارامتر ناشناس بیشینه شود. رابطه ۲-۳۴ نشان‌دهنده این مسئله می‌باشد:
(۲-۳۴)
مرحله مهم بعدی مشخص کردن تراکم مولفه-شرطی است. توجه داشته باشید، که مسئله اصلی در خوشه‌بندی در فضای داده با کمک الگوریتم‌های متعدد به فضای ویژگی‌های جدید چند متغیره تبدیل شده است. برای ساده‌سازی بیشتر مسئله، یک استقلال مشروط برای ساخت مؤلفه‌های بردار فرض می‌شود، برای مثال احتمال شرطی زیر را می‌توان برای در نظر گرفت.
(۲-۳۵)
در توجیه این کار، می‌توان ذکر کرد که حتی اگر الگوریتم‌های خوشه‌بندی متفاوت (که با شاخص گذاری می‌شوند) واقعاً مستقل نباشند، تقریب به وجود آمده در (۲-۲۱) را می‌تواند با کارایی عالی در طبقه‌بندی بیز ساده در حوزه‌های گسسته توجیه کرد [۴۳]. هدف نهایی تخصیص برچسب‌های مجزا به داده از طریق مسیریابی غیرمستقیم برآورد چگالی است. الگوهای تخصیص‌یافته به خوشه‌ها در حساسیت کمتری به تقریب استقلال شرطی که با مقادیر احتمال محاسبه می‌شود دارد. آخرین مرحله از مدل مخلوط انتخاب احتمال چگالی برای مؤلفه‌های بردارهای است. تا موقع‌هایی که متغیرهای دارای ارزش اسمی از یک دسته از برچسب‌های خوشه در افراز باشد، طبیعی است که آن‌ها را به عنوان نتایج حاصل از یک آزمایش چندجمله‌ای زیر فرض کنیم:
(۲-۳۶)
در اینجا، بدون، فراموش کردن اصل کلی، برچسب‌های خوشه‌ها در توسط اعداد صحیح در انتخاب می‌شود. برای وضوح بیشتر این مطلب، باید توجه داشته باشید که احتمال نتایج توسط تعریف می‌شود و نتایج حاصل شامل همه مقادیر ممکن از برچسب‌های در افراز است. همچنین، خلاصه احتمالات به صورت زیر است:
(۲-۳۷)
به عنوان مثال، اگر j-امین افراز فقط شامل دو خوشه باشد، و برچسب‌های ممکن و باشند، آنگاه رابطه (۲-۳۷) می‌تواند به صورت زیر ساده شود:
(۲-۳۸)
بیشینه کردن مسئله احتمال[۹۸] در رابطه (۲-۳۸) عموماً موقع‌هایی که تمام پارامترهای معلوم نباشند، نمی‌تواند بافرم بسته حل شود. لیکن، تابع احتمال رابطه (۲-۳۸) می‌تواند با به‌کارگیری الگوریتم بهینه شود. به منظور اتخاذ الگوریتم ، داده پنهان و احتمال کل داده‌های فرض می‌شود. توزیع باید مطابق با مقادیر مشاهده شده باشد:
(۲-۳۹)
اگر مقدار معلوم باشد آنگاه می‌توان فوراً گفت که مؤلفه‌ی مخلوطی در تولید نقطه استفاده شده است. این به این معنی است که به ازای هر نقطه مشاهده‌شده، یک متغیر بردار پنهان وجود دارد به طوری که اگر متعلق به m-امین مؤلفه باشد و در غیر این صورت می‌باشد. برای نوشتن احتمال داده کامل رابطه زیر مناسب است:

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...