۳-۴-۱-۱۰ -۳ -۲ مزایای استفاده از شاخص محکم متن
این شاخص برای غنی سازی صفحاتی معرفی شد که توصیف متنی خوبی را ندارد و یا متعلق به مرز وب بهدستآمده توسط عنکبوت ها است. در شکل ۳-۱۰ ، مقادیر مختلف از P @ N ، برای پرسوجوی “یاهو” و بدون استفاده از شاخص محکم متن گزارش شدهاست. یک پدیده زیبای رایج برای بسیاری از پرسوجوها مشاهده میشود( افزایش متون -محکمP @ N برای مقادیر پایین تر از N)[34].
شکل۳-۱۰. P @ N با بهره گرفتن از شاخص محکم[۲۱]
۳-۴-۱-۱۰ -۳ -۳ مزایای استفاده از موتورهای چندگانه
موتورهای چندگانه، پوشش بهتر از وب را به دلیل هم پوشانی کمتر از موتورهای جستجوی کنونی ارائه میدهد. معمولا این مورد به عنوان یک محدودیت دیده میشود، نه یک منبع که دلیل ان مشکل در ترکیب لیست های متعدد رتبهبندی شده ان است. شکل۳-۱۱، گزارش یک دیدگاه متفاوت در مورد این موضوع است. استفاده از نتایج پرسوجوی آمده از بسیاری از موتورهای جستجو، یک سلسله مراتب پوشه با برچسب دقیق تر و معنی دار را ایجاد می کند. این امر به کاربر در استفاده از اشکال مختلف از شخصیسازی ارائه شده توسط اسنکت بهتر کمک می کند[۱۵,۱۳].
شکل ۳-۱۱. تعداد سطوح پوشه بالا[۲۱]
۳-۴-۱-۱۰ -۳ -۴ مزایای استفاده از جملات فاصله دار به عنوان برچسبهای پوشه
از آنجا که برخی از نرم افزارها از جملات به هم پیوسته به عنوان برچسب پوشه استفاده می نمایند، سعی به بررسی تاثیر جملات فاصله دار اسنکت در معنی دار بودن برچسبهای انتخاب شده، شدهاست. توزیع شکاف ها برای این جفت کلمات مربوطه در کدهای آماده از مجموعه دادههای خود مورد مطالعه قرارگرفتهاست. شکل۳-۱۲ گزارش توزیع، در مقیاس لگاریتمی، برای چهار جفت کلمه مربوط برای پرسوجوی “اجاره اتومبیل” با شکاف های متن مختلف است. با توجه به این مشاهدات تجربی، اسنکت ، حداکثرچهار شکاف را برای تولید جملات فاصله دار اتخاذ می کند[۲۱].
دقت برچسب روی مجموعه دادهها، برای همه ۷۷ پرسوجوی تشکیل دهنده مجموعه دادهها، دقت متوسط را روی برچسبهای پوشه سطح بالا از P @ 3 = 91٪، P @ 5 =٪ ۸۳، P @ 7 = 78٪ و P @ 10 = 79٪، بهدستآورده است که در شکل۳-۱۳ نشان داده شدهاست[۲۱].
تعداد برچسبهای سطح بالا اسنکت تنها برای تولید برچسبهای سطح بالا معنی دار و صرفه نظر کردن از آنهایی که در زیر یک رتبه ثابت هستند تنظیم شدهاست. بنابراین همه پرسوجوها، ده برچسب سطح بالا (و از این رو ده پوشه سطح بالا) را تولید نمیکنند. در شکل ۳-۱۴ ، تعداد دقیق برچسبهای سطح بالای تولید شده (پوشهها) برای همه ۷۷ پرسوجو از مجموعه دادههای خود گزارش شدهاست. تمام پرسوجوها، حداقل سه و بسیاری از آن ها تا ده برچسب سطح بالا را تولید می نمایند[۲۱].
شکل ۳-۱۲. توزیع-ورود جفت کلمات مرتبط [۲۱]
شکل ۳-۱۳. P @ N در مجموعه داده [۲۱]
شکل۳-۱۴. تعداد پرسوجوهای تولیدکنندهN برچسب سطح بالا در مجموعه دادهها(TopLabels @ N)[21]
در شکل۳-۱۵،P @ Nsnippets را برای نتایج شخصی شده در مقابل شخصی نشده در پرسوجو “divx” مقایسه شدهاست.
۳-۴-۱-۱۰ -۳ -۵ تعداد کدهای آماده وب موجود در پوشهها
وزن یک پوشه، تعداد کدهای آماده در آن است. یک سلسله مراتب در صورتی با وزن متعادل تعریف میشود که گره ها در یک سطح دارای وزن های قابل مقایسه باشند.توزیع وزن ها برای پوشههای سطح بالای تولید شده برای “داده کاوی” پرسوجو گزارش شدهاست. برای محدودیتهای فضایی، تنها “نرم افزار” پوشه بالا گسترش داده شدهاست.سلسله مراتب اسنکت متعادل است، و این پدیده در بسیاری از پرسوجوها از مجموعه دادههای ما رخ میدهد. یک تعادل خوب برای شخصیسازی بسیار مهم است زیرا سلسله مراتب پوشه را به همان اندازه با جزئیات تمام مفاهیم پشت پرسوجو اجرا می کند[۲۱].
شکل ۳-۱۵. P @ N روی کدهای آماده برای “divx’’ [۲۱]
۳-۴-۲ مدل سازی کاربر
کارهای انجام شده برای مدل سازی کاربر به صورت زیر است:
۳-۴-۲-۱مدل سازی صریح کاربر
در رویکرد اول اطلاعات شخصی کاربر به صورت صریح از او پرسیده میشود و بر اساس پاسخ هایی که کاربر به سیستم اعلام میکند پروفایل شخصی او ساخته میشود[۶].
-
- از یک کلاسترینگ سلسله مراتبی استفاده می کند که اسنکت نامیده می شود که نتایج حاصل از۱۶ موتور جستجوی کالا در پوشههای بر چسب زده سلسله مراتبی مرتب می شوند. حالت سلسله مراتبی دید کاملی از نتایج مرتب شده موتورهای جستجو ارائه می دهد.که کاربران با این حالت سلسه مراتبی به نیازهای جستجوی خودشان هدایت می شوند.ابتدا کاربر یک پرس وجو را به اسنکت می فرستد و اسنکت نیز پس از خوشهبندی سلسله مراتبی نتایج جستجو و برچسب گذاری خوشه ها با جملات با طول متغیر، یک سلسله مراتب برچسب گذاری شده را به کاربر ارائه می دهد. کاربر نیزگروه هایی را که برچسب آن ها بیشترین تناسب با اطلاعاتی مورد نیازش را دارد انتخاب می کند .سپس اسنکت با فیلترکردن نتایج جستجوی متعلق به سایرخوشه ها، نتایج جستجوی شخصی سازی شده را به کاربر ارائه می دهد.( این روش در دیدگاهی دیگر برای مرحله شناخت کاربر میباشد)[۲۱].
-
- از یک پایگاه دانش استفاده شده که از رفتار کاربران بهدست آمده است سیستم رفتار کاربران را مانیتور می کند سپس کاربر خودش حیطه علایقش را معین می کند و بر این اساس مدل علایق کاربر بهدستمی آید. در این سیستم ابتدا با کمک فایل Result.htm که نتایج حاصل از موتور جستجو رالیست میکند صفحات لیست میشود سپس کاربر صفحاتی را که مورد علاقه اش است انتخاب میکند که به آن Hit می گویند و صفحاتی که انتخاب نمیکند Miss گفته میشود و سپس در یک Rerank صفحات Hit .و صفحاتی که بیشتر مشابه این صفحات هستند لیست می شوند.به این صورت سعی میشود نتایج نزدیک به علاقه و نیاز کاربر باشد.همانطور که دیده میشود در این روش نیز کاربر دخالت صریح دارد[۶].
-
- روند کار به این صورت است که ابتدا همه صفحات بازیابی شده در کلاس بد قرار میگیرند. پس ازاینکه کاربر بر روی یکی از نتایج موجود در لیست بردا[۷۲]کلیک نمود، با این فرض که صفحه کلیک شده موردعلاقه کاربر می باشد، آن را به کلاس خوب منتقل می کند و با بهره گرفتن از طبقه بندی کننده Naive Bayesian یک نمره به هر صفحه در لیست بردا اختصاص میدهد. سپس لیست بر اساس نمرات اختصاص یافته رتبه بندی شده و به کاربر ارائه می شود تا کاربر صفحه دیگری را به عنوان صفحه مورد علاقه انتخاب نماید و مراحل قبلی مجددا تکرار می شود. Excalibur سمت سرور کار می کند و پروفایل کاربر را به صورت یک کوکی روی سیستم او ذخیره می کند .در این سیستم نیز چون کاربر باید درحین جستجو هر بار صفحات مورد علاقه خود را انتخاب نماید و سیستم چندین بار با توجه به علاقه کاربر Rerank میشود حالت ضمنی وجود ندارد[۶].
کاربران معمولا به انتشار علایقشان در اینترنت بد بین هستند و همچنین این کار برایشان وقت گیر و هزینه بر است و ممکن است که در بیان علایقشان دچار اشتباه شوند یا به خاطر عدم اعتمادی که به فضای وب دارند اطلاعات صحیحی را به سیستم ندهند, مجموع این دلایل باعث میشود که جمع آوری پروفایل کاربر به صورت اتومات نتایج بهتری را بهدستآورد[۶].
۳-۴-۲-۲ مدل سازی ضمنی کاربر
در رویکرد دوم سعی شده که دخالت کاربر به حداقل برسد و پروفایل او به صورت ضمنی از روی تعاملاتی که سیستم با کاربر دارد مثل مرورهای کاربر،پرس وجوهای گذشته او،ایمیل هایی که مشاهده کرده و…شناخته می شود[۲,۵۶].
-
- در اینجا سعی شده که کمترین دخالت کاربر وجود داشته باشد. پروفایل کاربران بر اساس سابقه جستجویشان در موتور جستجوساخته میشود.منابع مختلف پروفایل، پرسوجو ها و نتایج جستجو ها است.این پروفایل با کلاس بندی اطلاعات در محتویات پروژه دایرکتوری ساخته می شود و سپس برای دوباره مرتبکردن نتایج جستجو استفاده می شود از بازخورد های کاربر استفاده می شود تا ترتیب نتایج گوگل با ترتیب جدید مقایسه شود وتا حدی نتایج بهبود یابد. پایه این کار بر ساختن پروفایل کاربر از تعاملات کاربر با یک موتور جستجوی خاص است.در این کار از Google wrapper استفاده شدهاست یعنی یک لفافه حول موتور جستجوی گوگل برای ثبت کردن پرس وجو ها و نتایج جستجوها وکلیک ها بر پایه هر کاربر قرار می گیرد.ایراد این کار این است که اولا فقط یک موتور جستجوی خاص را بررسی میکند و ثانیا سمت سرور است و به غیر از جستجوهای کاربر از وب گردی ها ورفتار کلی او در وب اطلاعاتی در دسترس نیست[۶,۵۶].
-
- به منظور دستیابی به بازخورد ضمنی، نصب یکسری نوارابزار و افزونه بر روی مرورگر یا در سیستم کاربر ,وجود دارد به عنوان مثال می توان به Seruku Toolbar و Surf Saver اشاره کرد که اطلاعات صفحات مشاهده شده کاربر و URL آن ها را در مخزنی نگهداری میکنند[۶].
-
- Furl نمونه دیگری از این روش است که صفحات و عناوین مورد علاقه کاربر را ذخیره میکند.[۶]
-
- سایت آمازون از تکنیکی به نام a9 استفاده میکند که بر اساس کوکی ها سلایق کاربر را شناسایی میکند[۶].
-
- همچنین در موتور جستجوی Ujiko.com ، کاربران از طریق کوکی های ثبت ساده قابل شناسایی هستند[۶].
-
- روش دیگر استفاده از تاریخچه جستجو در میان سرورهای پراکسی یا فعالیت های دسکتاب با نصب Bot در سیستم کاربر است که مشکل کوکی در ثبت اطلاعات یک سایت خاص را مورد بررسی قرار داده و با این روش میتواند تمام فعالیت های وب را ثبت نماید. در این روش برای مسئله امنیت اطلاعات کاربران، برای هر فرد شماره منحصر به فردی در کوکی ذخیره میشود که از دسترس همگان خارج است. تمام این اطلاعات به صورت جداگانه ذخیره میشود و از فایل هویت کاربران و پرس وجوی وارد شده مستقل است و تنها از طریق آن شماره، این دو فایل نگاشت میشود. همچنین از روی پروفایل کاربر می توان به بخشی از سلایق او دست یافت مانند موتور جستجوی ترجیح داده شده، نوع اسناد دریافتی و علاقهمندی های خاص کاربر مثلا در یک ورزش یا رشته خاص تحصیلی. در واقع می توان از پرس وجویی که کاربر وارد میکند به عنوان یکی از موضوعات مورد علاقه او نام برد که در بسیاری از تکنیک ها از این شیوه استفاده میشود[۶].
در سالهای اخیر روش غیرمستقیم یا بازخورد ضمنی تحت عنوان کلیک از گذر داده بیان میشود که دارای هزینه پایین تر ولی نویزدار است. در واقع،در این روش اطلاعات مهمی که در لاگهای موتور جستجو در حین عمل جستجوی کاربر و مشاهده صفحات مختلف ثبت میشود، مورد استفاده قرارمیگیرد. این اطلاعات شامل نحوه کلیک کاربر بر روی لیست نتایج ارائه شده، مدت زمان توقف در یک صفحه، متن پرس وجوی کاربر و بسیاری ازاطلاعات مفید دیگر است. فرض بر این است که کاربر در صورتی روی لینکی کلیک میکند که دارای اطلاعات مرتبط با پرس وجوی او باشد، در واقع کسی به صورت تصادفی کلیک نمیکند. همچنین می توان از ترکیب دو روش فوق یعنی بازخورد مستقیم و ضمنی در رتبهبندی استفاده نمود که در این صورت نیز نتایج قابل قبولی بدست می آید. در واقع می توان با بهره گرفتن از اطلاعات کلیک کاربران، ضریب اطمینانها در موتور جستجو را محاسبه نمود[۲].
تاکنون مطالعات وسیعی در بررسی تاثیر رفتار کاربر در فرایند جستجو صورت گرفته و الگوریتم های مختلفی مطرح شدهاست .
-
- Captain nemo: یک ابرجستجوگر با فضای جستجوی سلسله مراتبی شخصی شده برای مدل سازی است[۵۲].
۳-۴-۲-۲-۱ Caption Nemo
آخرین نظرات