Journal of Information Technology Management University of Tehran
ISSN: 2008-5893 Faculty of Management
EISSN: 2423-5059
Vol. 9, No. 1; PP. 61 – 82
Spring 2017

A New Similarity Method to Optimize Business in the Online Stores Using the Rating Time Technology
Nayereh Zaghari 1, Ardeshir Zamani 2
Abstract: These days, Emergence of e-commerce web sites is one of the important consequences of the Internet in modern times, but products data is growing exponentially. In such environment, customers face a problem in finding optimized information among huge data bases about the items or desired products. In order to assist buyers, large e-commerce companies are planning to introduce their own recommender systems to help their customers in making a better choice among the items. Due to high percentage error , a basic method to build such systems is not usually being applied. In this essay, two methods have been suggested in order to improve recommendations in recommender systems. Collaborative filtering method is one of the most successful methods used in the system, but using this method that it has common problem the increasing number of users and products, therefore system do not inability to request the requirement of cold start and data sparsity. Two methods have been suggested in order to improve recommendations in recommender systems. To resolve this problem, a new method has been introduced in which by integrating rating time by Pearson also combining semantic technology with social networks offers a solution to reduce issues such as “cold start” and generally “data sparsity” in recommender systems. The result of simulating showed that the proposed approach provided better performance and more accurate predictions in addition of more consistent with user preferences.

Key words: Data sparsity, Internet store, Recommender systems, Users rating time.

Ph.D. Candidate in Computer Engineering, Azad University, Tehran, Iran
Ph.D. Candidate in Business Management, Tehran University, Tehran, Iran

Submitted: 17/ May / 2016
Accepted: 27/ February / 2017
Corresponding Author: Nayereh Zaghari Email: Nasrin.zaghari@gmail.com

Journal of Information Technology Management د ناوری اطلاعات
دانشكدة مديريت دانشگاه تهران دورة 9، شمارة 1 بهار 1396
صص. 82- 61

ارائة روش جديد شباهتيابي براي بهينه سازي كسب وكار در
فروشگاه هاي اينترنتي با استفاده از تكنولوژي هاي زمان نرخ دهي
نيره زاغري1، اردشير زماني2
چكيده: يكي از پيامدهاي مهم گسترش اينترنت در عصر حاضر، پيدايش وبگـاه هـاي تجـارت الكترونيكي است؛ اما تنوع اقلام عرضـه شـده مـي توانـد انتخـاب محصـولات مناسـب را بـراي مشتريان به فرايند پيچيده اي تبديل كند. شركت ها براي رفع اين مشكل استفاده از سيستم هاي پيشنهاددهنده را توصيه مي كنند. به دليل درصد زياد خطا در پالايش و ارائة پيشـنهادها، معمـولاً در اين گونه سيستم ها از چند روش پايه براي پيشنهاد اقلام مورد علاقة كاربر استفاده مـي شـود . روش پالايش همكارانه، يكي از موفقترين روش هاي بـه كاررفتـه در ايـن سيسـتم هاسـت؛ امـا استفاده از اين روش با افزايش تعداد كـاربران و محصـولات ، مجموعـه را بـا مشـكلاتي ماننـد ناتواني در پاسخگويي به نيازهاي كاربران جديد و تُنُكي داده مواجـه مـي كنـد . بـهمنظـور رفـع مشكل يادشده، در اين پژوهش روش جديدي معرفي شده است كه بـا ادغـام زمـان نـرخ دهـي كاربران با معيار شباهتيابي پيرسون و همچنين ادغام تكنولوژيهاي معنايي و شبكة اجتماعي، راه حلي براي كاهش مشكل كاربران جديد و تنكي دادههـا ارائـه مـي كنـد . نتـايج پيـاده سـازي الگوريتم ها نشان ميدهد رويكرد ارائه شده عملكرد بهتر و صحت بيشتري دارد و پيشبينيهـاي آن با سليقة كاربران همخواني بيشتري دارد.

واژه هاي كليدي: تنكُي داده، زمان نرخدهي كاربر، سيستم هـا ي پيشـنهاددهنده ، فروشـگاه هـاي اينترنتي.

دانشجوي دكتري مهندسي كامپيوتر، گرايش هوش مصنوعي، دانشگاه آزاد، تهران، ايران
دانشجوي دكتري مديريت بازرگاني، گرايش استراتژيك، دانشگاه تهران، تهران، ايران

تاريخ دريافت مقاله: 28/02/1395 تاريخ پذيرش نهايي مقاله: 09/12/1395 نويسندة مسئول مقاله: نيره زاغري
E-mail: Nasrin.zaghari@gmail.com
مقدمه
با گسترش و پوياترشدن فعاليت ها در قرن بيست ويك، ديگر استفاده از شيوه هاي سنتي مديريتفرايندها پاسخگوي نياز شركتها نيست و شركت ها بايد از سيستم هاي نويني براي بهينه سازيفرايندهاي كسب وكار خود استفاده كنند (زماني و رحمتي، 2014). سيستمهاي پيشنهاددهنده از جمله اين سيستمهاي نوين است. سيستم هاي پيشنهاددهنده، نوع ويژهاي از سيستم هاي پالايش اطلاعات اند كه آيتم ها را بر اساس اين كه كدام يك براي كاربر جذاب است، از مجموعة بزرگي از آيتمها و كاربران پالايش مي كنند. اين سيستم رويكردي است كه براي مواجهه با مشكلات حجم فراوان و رو به رشد اطلاعات، ارائه شده است و به كاربر كمك مي كند تا در ميان حجم عظيم اطلاعات، سريع تر به هدف خود نزديك شود. برخي سامانة پيشنهادگر را معادل پالايش گروهي مي دانند (هيل، استيد، رسنستين و فورناس، 1995).
سيستم پيشنهاددهنده يا سامانة پيشنهادگر با تحليل رفتار كاربر خود، مناسب ترين آيتم ها (داده، اطلاعات، كالا و…) را پيشنهاد مي دهد. به زبان سادهتر، در سيستم هاي پيشنهاددهنده تلاش مي شود با پيش بيني شيوة تفكر كاربر (به كمك اطلاعاتي كه از نحوة رفتار كاربر يا كاربران مشابه وي و نظر آنها ذخيره شده است)، مناسب ترين و نزديك ترين كالا به سليقة او شناسايي و پيشنهاد شود. سيستم هاي پيشنهاددهنده براساس تخمين نرخ و چگونگي پيشنهادها به چهار گروه دسته بندي مي شوند: 1. محتوامحور؛ 2. هم بستگي (يا اشتراكي)؛ 3. پالايش تركيبي و 4. دانش محور.
به طور معمول، سيستم پيشنهاددهنده پروفايل كاربر را با برخي ويژگي هاي مرجع مقايسه ميكند و به دنبال پيشبيني بهايي است كه كاربر به كالايي كه هنوز در نظر گرفته نشده است، مي دهد (شايند و كولكارني، 2012). از طرفي مي توان با استفاده از دو روش پاية محتوامحور و اشتراكي، به پيشبيني نرخ پرداخت. روش محتوامحور، براساس ميزان شباهت محتوايي آيتم هدف
با آيتمهاي ديگري كه كاربر قبلاً نرخ داده است، نرخ پيش بينيشدة كاربر به آيتم مدنظر را محاسبه مي كند. در روش اشتراكي، مي توان از هر دو مورد كمك گرفت؛ به بيان ديگر، هم با استفاده از بهاي آيتم هاي همسايه و هم براساس تشخيص كاربران همسايه، به پيش بيني بها پرداخت. نام اين دو انتخاب به ترتيب »اشتراكي آيتم محور« و »اشتراكي كاربرمحور« است. در نوع آيتم محور، بايد آيتم هاي نزديك به آيتم مدنظر را از لحاظ نزديكي بهايي كه كاربران ديگر به آنها داده اند، تشخيص داد؛ سپس مقدار ميانگين بهاي آنها را با توجه به ميزان شباهتشان به آيتم هدف، به عنوان نرخ پيش بيني شده اي كه در اختيار كاربر هدف قرار ميگيرد، درنظر گرفت. درنوع كاربرمحور، نيز از ميانگين گيري استفاده ميكنيم، اما ميانگين نرخ كاربران همسايه با تأثيرپذيري از شباهت هر يك به كاربر هدف، به منزلة بهاي پيش بيني شده تلقي مي شود (شارداناد و مائز، 1995).
سيستم پيشنهاددهنده محصولات فروشگاههاي آنلاين را با توجه به سليقة مشتري غربالمي كند. سيستم بر پاية پروفايل مشتري ساخته مي شود و به همين دليل، امكان پيداكردن محصولمدنظر كاربر را افزايش مي دهد. از اين رو، براي درك نياز مشتريان و پاسخ مناسب به اين نيازها،ضروري است از الگوريتمهاي كارآمدي استفاده شود. بر همين اساس، پژوهش حاضر قصد دارد با مطالعه و تحقيق در اين حوزه و ارائة الگوريتمي براي بهبود سيستم پيشنهاددهندة مبتني بر راهكار پالايش همكارانة كاربر، به اين مسئله پاسخ دهد و از اين طريق پيشنهادهايي ارائه دهد كه با سليقه و ترجيح مشتريان همخواني بيشتري داشته باشد. استفاده از روش پالايش همكارانة مبتني بر حافظه، يكي از روش هاي موفق و شناخته شده در توسعة سيستم هاي پيشنهاددهنده است (شامبور و لو، 2012). در اين پژوهش براي پيشنهاد كالا به مشتري، از نظر كاربراني استفاده مي شود كه آن كالا را ديده اند يا تهيه كردهاند. يكي از چالش هاي پيش روي اين روش، ورود كاربران جديد و نداشتن پيشينة اطلاعاتي از آنها و يافتن كاربراني است كه سليقه و ترجيح مشابهي با كاربران جديد دارند؛ در اين صورت، سيستم نمي تواند پيشنهادي در اختيار آنها قرار دهد. از اين رو پژوهش حاضر قصد دارد از اطلاعات فردي كاربران، به منظور بهبود نتايج سيستم پيشنهاددهنده استفاده كند. بدين منظور، بر اساس اطلاعات فردي كاربران ماتريسي تشكيل داده و معيار جديدي براي محاسبة شباهت با تركيب درصد وزن دار زمان و معناي شباهت پالايش همكارانه ايجاد مي شود. براي پيشگيري از مشكل يادشده، مي توان شباهت كاربران جديد را با درصد وزن بزرگ تري همراه كرد و برعكس آن، براي كاربران قديمي تر درصد وزن شباهت را كاهش داد. روش كاربرمحور پيشنهادي در اين پژوهش، از تأثير زمان نرخ دهي بر علاقة كاربران در گذشت زمان براي بهبود برخورد با مشكل تنُكُي داده و روابط اعتماد بين كاربران در شبكههاي اجتماعي، به منظور تشخيص هرچه بهتر علايق كاربر و در نتيجه بهبود توصيه ها، استفاده مي كند. براي تشخيص بهتر شباهت ميان آيتم ها، روش آيتم محور پيشنهادي از طبقه بندي موضوعي و معنايي آيتم ها نيز بهره مي برد. همچنين از كلمات كليدي استخراجشده با روش هاي معنايي از محتواي آيتم ها در جهت بهبود توصيه ها، به خصوص هنگام برخورد با مشكل »كاربر جديد«، استفاده شده است. نوآوري اين پژوهش در اين است كه با ادغام زمان نرخدهي كاربران با معيار شباهتيابي پيرسون براي كاهش تنُكُي داده و ادغام تكنولوژيهاي معنايي و شبكة اجتماعي، مشكلات »كاربر جديد« و بهطور كلي »تنُكُي داده ها« در سيستم هاي پيشنهاددهنده حل شده است. اين نوشتار تلاش مي كند سيستم هاي پيشنهاددهنده را بررسي كند و نسل حاضر از روش هاي سيستم هاي پيشنهاددهنده را كه به چهار گروه كلي دسته بندي مي شوند، معرفي نمايد. همچنين پژوهش حاضر درصدد است با ارائة روشي بتواند ترافيك داده ها را با توجه به سيستم هاي ذكر شده برطرف كند.
پيشينة پژوهش
كاهش پيوستة هزينه هاي ذخيره سازي و پردازش داده ها موجب شده است كسب وكارهاي برخطبتوانند به مجموعة گستردهاي از اطلاعات كه از طريق تعاملات مجازي يا انواع گوناگون تراكنشمشتريان قابل استخراج است، دست يابند ؛ اين اطلاعات عبارتاند از: دفعات تكرار خريد مشتري و وفاداريش، زمان شروع يا پايان مشاهدة وب سايت فروشگاه، نوع كالاهايي كه قبلاً كاربر پسنديده، زمان خريد كالا توسط كاربر و همچنين اطلاعاتي مانند رتبه بندي، پيشينة خريد و اطلاعات كالاها. ايواتا در سال 2008 نشان داد فروشگاه با درك علاقه و سليقة اخير كاربران، مي تواند پيشنهادهاي مؤثرتري ارائه دهد؛ زيرا علايق و سلايق كاربران روزبه روز تغيير مي كند. با پيشنهاد محصولاتي كه اغلب توسط كاربران وفادار خريداري شده است، فروشگاه ميتواند فروش را افزايش دهد؛ چرا كه به شمار كاربران وفادار افزوده مي شود. همچنين فروشندگان مي توانند در تعيين قيمت محصولات انعطافپذيري بيشتري داشته باشند (گوپال، تريپادي و والتر، 2006).
در پژوهشي ديگر كه كيپور و همكارانش با عنوان »ارائة روشي جديد براي پيشگويي پيوند بين رأسهاي موجود در شبكههاي اجتماعي« انجام دادند، دو رويكرد سراسري و محلي پيمايش گراف شبكه را پيشنهاد دادند و با توجه به مطالعات خود بر دو شبكة اجتماعي فيسبوك و اپ. نيونز و استفاده از معيار آداميك ـ آدار، به اين نتيجه رسيدند كه رويكرد محلي بهدليل محلي بودن مي تواند پيشگويي خوبي براي يالهايي انجام دهد كه قرار است در آينده شكل بگيرند (كي پور، براري و شيرازي، 1393).
كرامتي و خالقي (1393) در مقالة خود با استفاده از شيوههاي دادهكاوي، به ارائة مدلي براي توسعة سيستمهاي پيشنهاددهندة محصول به مشتريان در سطح خردهفروشي اقدام كردند. در اين مقاله با استناد به چارچوب پيشنهادي مدل، نخست مشتريان با تكيه بر رويكرد بخش بندي مبتني بر
ارزش طول عمر و با لحاظ نسبي ترجيحات، بر اساس مشخصههاي مدل RFM، خوشهبندي شدند ؛ سپس با بهره مندي از ساختار پيشنهاددهي دومرحله اي، پيشنهادهاي گوناگوني در دو سطح متمايز از رده بندي محصول به هر يك از مشتريان هدف ارائه دادند. نتيجة اين پژوهش نشان داد استفاده از مدلهاي تركيبي در مقايسه با مدلهاي مشابه سنتي، موجب كاهش مشكلات عدم تراكم و مقياس پذيري مي شود و عملكرد بهتري دارد.
دسته اي از پژوهش ها نيز بر مبناي اطلاعات زماني اجرا شده اند؛ براي نمونه، لي، پارك و پارك (2008) در پژوهشي با استفاده از دو شاخص زمان خريد كاربر و زمان عرضة آيتم كه دقت توصيه كنندهها را افزايش مي دهند، دو تابع رتبه بندي براي محاسبة وزن مبتني بر اطلاعات زماني پيشنهاد دادند. آنها پيش تر يك نوع اطلاعات زماني شامل زمان عرضة آيتم و زمان خريد كاربر و تفاوت زماني بين اين دو را بررسي كردند و نتيجه گرفتند اينگونه اطلاعات زماني مي تواند دقتتوصيه گرها را در سيستم هاي توصيه گر مبتني بر فيلتر همبستگي براي كاراكترهاي شرح داده شدهدر محيط تجارت الكترونيك، افزايش دهد.
كريمي، عسگري و پيراسته (1394) با توجه به اطلاعات جمعيت شناختي جامعة آماري و خوشه بندي و همچنين با استفاده از پالايش همكارانة مبتني بر كاربر، به ارائة الگوهايي براي پيشنهادهاي نزديكتر به سليقة مشتريان در فروشگاههاي آنلاين و فيلم پرداختند. آنها بر اين عقيده بودند كه استفاده از يكي از روشها به تنهايي نمي تواند پيشنهادهايي نزديك به نظر كاربران ارائه كند و در كنار پالايش همكارانه، اطلاعات جمعيت شناختي هم تأثير شايان توجهي در شناسايي اولويتهاي كاربران دارد.
در پژوهشي ديگر، حسنقليپور و همكارانش در مقاله اي با عنوان »بررسي تأثير خصوصيات مشتريان بر تمايل آنها به پذيرش خريد اينترنتي« نشان دادند ويژگي هاي مصرف كنندگان، يكي از مهم ترين عوامل پذيرش خريد اينترنتي آنان است. روش استفاده شده در پژوهش، توصيفي از نوع همبستگي بود و دادهها از طريق توزيع پرسشنامه بين 231 نفر از دانشجويان دانشگاه تهران گردآوري شد. نتايج تحليل رگرسيون چندگانه نشان داد ويژگيهاي مصرفكنندگان بر اساس كالاها و خدمات متفاوت، تأثير متفاوتي دارد. پذيرش نوآوري در حوزة فناوري اطلاعات، خودكفايتي اينترنتي، ادراك از امنيت وب، نگرانيهاي حريم خصوصي و درخور بودن محصول، ويژگيهايي هستند كه بر اساس نوع كالا يا خدمت، بر نگرش افراد به پذيرش خريد اينترنتي آنان تأثيرگذارند (حسنقلي پور، اميري، فهيم و قادري عابد، 1392).
از ميان مطالعات انجام شده در اين حوزه، تنها اندكي از آنها بر مبناي اطلاعات زماني بودهاند؛ مثل زمان خريد كاربر و زمان عرضه كه دقت توصيه كنندهها را افزايش ميدهند. از يافته هاي اين پژوهشها ميتوان به اين نتيجه رسيد كه اطلاعات زماني ميتواند دقت پيشنهاددهندهها را در سيستمهاي پيشنهاددهندة مبتني بر پالايش مشاركتي، براي ويژگي هاي شرح دادهشده در محيط تجارت الكترونيك سيار بهبود بخشد؛ ولي در مقالات بررسي شده، از واحد زمان و تأثير آن در معيارهاي شباهتيابي و تأثير روابط معنايي در شبكه هاي اجتماعي استفاده نشده كه مقالة حاضر بر اين موضوع تمركز كرده است. با توجه به توضيحاتي كه بيان شد، ميتوان گفت هدف اصلي در اين مقاله، ارائة روشي جديد براي مشابهتيابي در سيستم ها ي پيشنهاددهنده و بررسي و تشخيص ميزان علاقة كاربران مشابه كاربر هدف با معيار زمان است. همچنين، ويژگي هايي كه مي تواند در افزايش دقت سيستمهاي پيشنهاددهنده اهميت داشته باشد و مطالعات ديگر كمتر به آنها توجه كرده اند را بررسي ميكند. از اين رو، بررسي و تشخيص ميزان تشابه آيتم هدف با آيتم هايي كه كاربر هدف از قبل به آنها نرخ داده با استفاده از معيار زمان، يكي از اهداف اين پژوهش است. دراين پژوهش تلاش مي شود تأثير افزايش دقت و زمان بر بهبود كلي عملكرد پيشنهادها و كاهشتنُكُي داده و تأثير تكنيك ادغام اطمينان در سيستم پيشنهاددهنده بر تُنكُي دادهها مشخص شود. در اين رابطه به منظور افزايش دقت، تأثير معيار زمان بر تشخيص ميزان تشابه آيتم هدف با آيتم هايي كه كاربر هدف از قبل به آنها نرخ داده و تأثير معيار زمان بر تشخيص ميزان علاقة كاربران مشابه كاربر هدف با درنظر گرفتن ويژگيهاي جانبي كه كمتر به آنها توجه شده، در روش پيشنهادي دخالت داده شده است تا مشخص شود، تكنيك ادغام اطمينان بر كمتر شدن تنُكُي دادهها مؤثر است.
روششناسي پژوهش
در اين پژوهش هم از سيستم هاي پيشنهاددهندة پالايش مشاركتي مبتني بر حافظه و هم مبتني بر مدل استفاده شده است. در بخشي كـه مبتنـي بـر مـدل1 اسـت، از روش پـالايش مشـاركتيپيشنهادي ادغام اعتماد صريح و پالايش مشاركتي كاربرمحور بهبوديافته اسـتفاده مـي شـود كـهبراي حل مشكل كاربر جديد در خصوص كـاربران و اقـلام پيشـنهاد داده شـده بـه كـار مـي رود.
به منظور حل مشكل تنُكُي داده در خصوص كاربران و اقلام نيز از روش مبتني بر حافظة2 پـالايش مشاركتي استفاده مي شود.
در روش اول، شاخص زمان با ضريب پيرسـوني كـه مبتنـي بـر حافظـة پـالايش مشـاركتيسيستم هاي پيشنهاددهنده است (در اين بخش نيز از زمان هاي نرخدهي كاربران به آيتم ها بهـرهاستفاده شده)، ادغام شده اند. سيستم هاي پيشنهاددهنده به طـور وسـيعي در سـايتهـاي تجـارتالكترونيك استفاده مي شوند. هدف از طراحي اين سيستم ها، كمك به كاربران براي يافتن اقـلام
مدنظرشان است. يكي از موفقترين و كـاراترين الگـوريتمهـاي ايجـاد پيشـنهاد، روش پـالايشگروهي است. پالايش گروهي بهمنظور پيشنهاد يك كالا به كـاربر هـدف، از سـوابق امتيـازدهيكاربران مشابه به آن كالا استفاده مي كند. پالايش گروهي ضمن برخورداري از مزيت هاي بسـيارو كارايي زياد، چندين مشكل عمده دارد. از جمله محدوديت هاي پالايش گروهـي مـي تـوان بـهمشكل كاربر جديد و تُنُك بودن ماتريس رتبه د هي اشاره كرد. كاربر جديد، به معناي ورود محصول جديد به سيستم است كه هنوز هيچ رتبه اي دريافت نكرده يا به طور كلي ايـن محصـول در نظـرگرفته نشده است. منظور از خلوت بودن يا تنُكُي داده اين است كه در ماتريس قلم ـ كاربر، تعـداد
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Model-base
Memory-base
رتبههايي كه وجود دارد نسبت به كل رتبه هايي كه مي تواند وجود داشته باشد بسيار كم است؛ بهبيان سادهتر، نسبت اين دو مقوله به هم اساساً منطقي نيست. در اين پـژوهش ، بـه منظـور بهبـودسيستم هاي پيشنهاددهنده در موقعيتي كه با مشكلات يادشده مواجه انـد، از دادههـاي موجـود در شبكههاي اجتماعي استفاده شده است. اطلاعات موجود در شبكههاي اجتماعي، شـامل پروفايـلكاربران و روابـط بـين آنهاسـت . در روش پيشـنهادي اول ، ابتـدا كـاربران براسـاس دو مـاتريسرتبه دهي و زمان رتبه دهي خوشه بندي مي شوند؛ سپس به منظور يافتن نزديك تـرين همسـايههـا،اطلاعات مربوط به محتواي اقلام و ماتريسهاي جديد تركيب خواهند شد.
روش پيشنهادشدة اول
در روش پيشنهادشده، استراتژي مبتني بر زمان و نرخدهي مدل هاي كلاسيك و مدل هاي پيشين مقايسه شدند و مشخص شد در حالت هاي قبلي، تنها يك ماتريس به نام مـاتريس كاربرــ آيـتموجود دارد، اما در اينجا از دو ماتريس كاربرـ آيتم و كاربرـ زمان استفاده شده است كـه مـاتريسكاربرـ آيتم نرخدهي و ماتريس كاربرـ زمان تاريخ نرخدهي را نشان ميدهد.
مدل كاري مبتني بر زمان
مراحل توليد پيشنهاد توسط سيستم پيشنهاددهندة مبتني بـر زمـان در شـبكه هـاي اجتمـاعي را مي توان به سه مرحلة زير دسته بندي كرد:
مرحلة نخست
در اين مرحله با توجه به اطلاعات كاربران و زمان امتيازدهي هـر منبـع از نظـر كـاربر ، مـاتريس كاربرـ منبع شكل ميگيرد. ماتريس رتبه بندي كه ماتريسي × است، ارتبـاط بـين منـابع و كاربران را نشان مي دهد و در آن تعداد كاربران و تعداد منابع را مشخص ميكنـد . مقـداري كه در سلول × ماتريس قرار مي گيرد، عددي است كه ميـزان علاقـة كـاربر بـه منبـع را نشان ميدهد. براي تشكيل ماتريس رتبهبنـدي بايـد ابتـدا مـاتريس منبـع ـ كـاربر هـر يـك از استراتژي هاي مبتني بر زمان تشكيل شود.
مرحلة دوم
در اين مرحله، ميزان شباهت بين كاربر فعال و ساير كـاربران كـه همسـايه هـاي آن را تشـكيل مي دهند، به دست مي آيد كه براي اين كار از ضريب شباهت پيرسوني استفاده مـي شـود . يكـي ازانواع روش پالايش مشاركتي، پژوهش همبستگي است. در اين نوع پژوهش رابطة ميان متغيرهـا براساس هدف پژوهش تحليل مي شود و اصولاً هدف پژوهش، تعيين رابطه ميان متغيرهاست.
مرحلة سوم
در اين مرحله كه آخرين مرحلة كار محسوب مي شود، بايد منابعي را به كاربر فعـال پيشـنهاد داد.
براي اين منظور از (رابطة 1) استفاده مي شود.
91134383089

( ,) = ∑|∈∑∈ℎ( )ℎ, ×(,)(,×)| × (1 رابطة
در اين رابطه، V همسايههاي كاربر فعال u اسـت و × (,) همميـزان شـباهت بين كاربر u وv را با تأثير زمان مشخص ميكند.
روش پيشنهادشدة دوم
14576972731006

روش پيشنهادشدة دوم در اين پژوهش از دو جزء كاربرمحور و آيتم محور تشكيل مي شود. به بيان ديگر، در اين روش با توجه به موقعيت و خصوصـيات كـاربر هـدف و آيـتم هـدف، از طريـق دوالگوريتم كاربرمحور و آيتم محور به پيش بيني نرخ پرداخته ميشود. به طور مشـخص ، در سيسـتمتوصيه گر نهايي كه قرار است از اين الگوريتم هاي پيشنهادشده به منظور پيش بيني نرخ هاي كاربر هدف به آيتم ها استفاده كند، اين دو الگوريتم با هم ادغام خواهند شد كه طريقة ادغام در رابطة 2 مشاهده مي شود. در اين رابطه مشخص است كه در صورت صفر نبودن هر دو نرخ پيش بيني شده توسط دو الگوريتم نام برده، ميانگين سازگاري اين دو نرخ به عنوان نرخ نهايي پيش بينـي شـده درنظر گرفته مي شود. دليل انتخاب اين نوع ميانگين اين است كه دو الگوريتم پيشنهادشده، مـوازيهم عمل ميكنند؛ بنابراين ميانگين سازگاري آنها بهترين گزينه براي ادغام نتايجشان است.
رابطة 2)
,
−1,= 0= 0
,,= 0
=,,= 0,≠ 0
331461134896

2 ×,×,
≠ 0
,,≠ 0
,+,
با توجه به اين رابطه ميتوان به ساختار سيستم توصيه گر نهايي و روند پيش بيني نـرخ در آنپي برد. اين ساختار نوعي روش تركيبي را نشان مي دهد كه در آن نرخ هاي پيش بيني شده توسط دو الگوريتم پيشنهادي با هم ادغام مي شوند تا نتيجة بهتـري در رونـد كـاهش خطـاي سيسـتم
كسب شود. شكل 1، مراحل پيش بيني نرخ در سيستم توصيه گر پيشنهادشده را نمايش مـي دهـد .
در اين شكل دو ماژول زير مشخص شده است:
ماژول فيلترينگ همكارانه (اشتراكي) كاربرمحور اجتماعي و آگاه از اعتماد؛ اين مـاژولهمان الگوريتم كاربرمحور پيشنهادي با نام EpTeUCF، است.
ماژول فيلترينگ همكارانه (اشتراكي) آيتم محور معنايي و محتوايي؛ اين مـاژول نيـز درواقع الگوريتم آيتم محور پيشنهادي است كه با نام CbShoShcSeICF در ارزيـابي هـامشخص مي شود.
روش كاربرمحور پيشنهادشده در اين پژوهش، از دو طريـق بـه محاسـبة فهرسـت كـاربرانمشابه با كاربر هدف مي پـردازد. در روش نخسـت ، شـباهت فيلترينـگ همكارانـة بهبوديافتـه بـا استفاده از داده هاي نرخ دهي كاربران به آيتم ها محاسبه مي شود. روش دوم نيز تشخيص كاربران مورد اعتماد كاربر هدف بر اساس روابط موجود در شبكة اعتماد كاربران يـا اسـنادFOAF آنـاناست. گفتني است در اين جا منظور از سند FOAF كاربري، سند روابط معمولي كـاربران نيسـت؛بلكه روابط اعتماد به نظر كاربران ديگر است كه خود كاربران به صراحت در شبكة اجتماعي بيان كرده اند. روش آيتممحور پيشنهادي نيز از طريق سه رويكرد به محاسبة شباهت بين آيتم هدف با ساير آيتم ها مي پردازد و در نهايت با ادغام موازي اين سه رويكرد، آيتم هايي كه بيشترين شباهت را دارند (يا همان آيتم هاي همساية آيتم هدف)، تشخيص مـيدهـد . رويكـرد نخسـت، محاسـبةشباهت معنايي بين آيتم ها از طريق اندازه گيري مشابهت محتوايي آنهاست. رويكرد دوم، محاسبة شباهت بين آيتم هدف با ساير آيتمهاي نرخ دادهشده توسط كاربر هدف، از طريـق انـدازه گيـريبيشترين همپوشاني موجود بين سر موضوعاتي است كه دو آيتم به آنها تعلق دارد و رويكرد سوم، محاسبة شباهت بين دو آيتم از طريق تعداد سر موضوعات مشترك آنهاست. ورودي اصلي روش دوم و سوم، طبقه بندي موضوعي آيتمهاست كه حاوي فهرسـت سلسـله مراتبـي 1 سرموضـوعاتياست كه آيتم ها به آنها تعلق دارند. شهرت آيتم هاي همساية آيـتم هـدف نيـز از روي داده هـاينرخ دهي كاربران به آيتمها محاسبه مي شود و علاوه بر نرخ كاربر هدف به هر آيتم همسـايه، وزندوم پيش بيني نرخ احتمالي كاربر هدف به آيتم هدف، محسوب ميشـود . در پايـان نيـز دو نـرخ پيش بينيشده از دو روش پيشنهادي فوق، با هم تركيـب شـده (بـا اسـتفاده از رابطـة 2) و نـرخ پيش بينيشدة سيستم توصيه گر پيشنهادي به دست مي آيد. حال از اين نرخ مـي تـوان آيـتم هـاياحتمالي مورد علاقة كاربر هدف (آيتم هاي با بيشترين نرخ پيش بيني شدة احتمـالي) را تشـخيص داد و به ساخت مجموعة توصيه هاي كاربر هدف پرداخت.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Hierarchical

شكل 1. ساختار كلي روند پيش بيني نرخ در سيستم توصيه گر پيشنهادي
يافتههاي پژوهشي
تجزيه و تحليل دادهها در روش پيشنهاد شدة اول
در حوزة داده كاوي و الگوريتم هاي يادگيري، بهرهمندي از مجموعة دادة مناسب، اهميت زيادي دارد. مطالعة مجموعة دادة انتخاب شده از نظر كمي و كيفي و نيز، انتخاب ويژگي هاي مناسب براي توصيف نمونه ها، يكي از گام هاي ضروري و مفصل در اين حوزه محسوب مي شود. مجموعة دادةاستفاده شده براي تحليل نتايج اين پژوهش، علاقة كاربران به مجموعه اي از فيلمهاست. اينمجموعة داده، شامل اطلاعات فردي كاربران، فيلم ها، انواع و تعداد آنها و اطلاعات امتيازدهي است. اطلاعات مجموعة داده در جدول 1 آورده شده است. مجموعة داده هاي مووي لنز1 حاوي فايل فشردة tar. براي بازسازي فايل هاي داده است و همچنين دربردارندة مجموعة كاملي از داده و نيز 100,000 رتبهبندي توسط 943 كاربر در 1682 اقلام است. اين فايل از نظر نرخ دهي كاربران، رتبة نسبتاً خوبي دارد؛ بهطوري كه در اين فايل هر كاربر حداقل به 20 فيلم امتياز داده است. اين فايل همچنين بخش جداگانه اي دارد كه شامل فهرستي از شناسة كاربر، كد آيتم، امتياز، نرخ زمان مي شود. جدول 1 نمونهاي از اطلاعات 4 كاربر و زمان نرخ دهي را نشان مي دهد كه از مجموعة دادة مووي لنز ارزيابي و سنجيده شده است. در اين جدول، زماني كه هر كاربر براي نرخدهي صرف كرده، در يك دورة زماني سه ماهه در نظر گرفته شده است و ارزيابي علايق كاربران در زمانهاي متفاوت نسبت به اقلامي كه نرخدهي شدهاند، نشان داده است.
جدول 1. اطلاعات مربوط به كاربر ـ منبع
1998/1/03 1997/6 /18 1997/5/12 زمان كاربر 1
5 1 3 رتبه 1997 /7/12 زمان كاربر 2
4 رتبه 1997/11 /2 1997/5/19 زمان كاربر 3
2 3 رتبه 1998 /2 /7 1997/11 /8 1997/10/5 زمان كاربر 4
3 2 5 رتبه
ارزيابي روش پيشنهادي اول
همان طور كه مي دانيم، دو پارامتر دقت1 و پوشش در ميزان كيفيت اطلاعات استخراجي بسيار مؤثرند. از پارامتر دقت و پوشش كه هر دو معيار از شناختهشدهترين معيارهاي ردهبندي هستند،
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Movie lens
.1 Precision
.2 Coverage
عموماً براي اندازهگيري كيفيت اعمال استخراج اطلاعات استفاده ميشود؛ رابطة دقت، بيانمي كند كه چند درصد از مجموعه پيشنهادهاي ارائه شده، واقعاً درست هستند. اين رابطه در واقعدرستي و دقت پيشنهادهاي ارائه شده توسط سيستم را ميسنجد؛ بنابراين هرچه مقدار اين معيار بيشتر باشد، نشاندهندة تعداد كم اشتباههاي محاسباتي سيستم است. اين معيار معمولاً مستقل از رابط كاربري است و ميتواند به صورت برونخط هم محاسبه شود (رابطة 3 را مشاهده كنيد).

رابطة 3) |

=
با محاسبة دقت و درستي پيشنهادها و استراتژي مبتني بر زمـان و رتبـه و الگـوريتم مبتنـي بـرزمان، ميتوان نمودار مقايسه اي ميزان پارامتر دقت با توجه به تعداد منابع پيشنهادي را ترسيم كـرد . مطابق شكل 2 كه در زير مشاهده مي شود، دقت و درسـتي اسـتراتژي مبتنـي بـر زمـان و رتبـه در مقايسه با الگوريتم مبتني بر زمان، مقدار بالاتري دارد. در واقع، هرچه مقـدار بـه دسـت آمـده از ايـنمحاسبه بيشتر باشد، از دقت و درستي بيشتري برخوردار است؛ يعني دو آيتم زمان و رتبـه بنـدي بـهمراتب بر دقت كار سيستم مي افزايند و خطاهاي احتمالي را به ميزان شايان توجهي كاهش مي دهند.

0
/
50
0
/
80
0
/
60
1
0
/
40
س
4
/
0
س
3
/
0
0
/
00
0
/
20
0
/
40
0
/
60
0
/
80
1
/
00
1
/
20
استرتژيمبتني
برزمان
ورتبه
1
الگوريتممبتني
برزمان
2



قیمت: تومان


پاسخ دهید