استفاده از فرمول پیرسون برای ساخت سیستم توصیه گر ریکامندرسیستم فیلم
معیار شباهت پیرسون (Pearson correlation coefficient) یکی از پرکاربردترین معیارهای محاسبه شباهت در ریکامندر سیستم ها مبتنی بر رویکرد پالایش مشارکتی (Collaborative Filtering) است.
فهرست عناوین این مطلب
ضریب همبستگی پیرسون
در این مطلب با استفاده از معیار شباهت Pearson correlation و رویکرد پالایش مشارکتی Collaborative Filtering چگونگی ساخت و کارکرد یک سیستم توصیه گر فیلم Movie Recommender System را بررسی می کنیم.
مثال برای ضریب همبستگی پیرسون
فرمول پیرسون
فرمول پیرسون یا به اختصار PCC به صورت زیر است.
با توجه به این فرمول میزان شباهت پیرسون بین دو کاربر عبارت است از مجموع تفاصل امتیازات ثبت شده توسط کاربر a منهای میانگین امتیازات ثبت شده توسط این کاربر، ضرب در تفاصل امتیازات ثبت شده توسط کاربر b منهای میانگین امتیازات ثبت شده توسط این کاربر تقسیم بر جذر مجموع تفاصل امتیازات ثبت شده توسط کاربر a منهای میانگین امتیازات ثبت شده توسط این کاربر، ضرب در تفاصل امتیازات ثبت شده توسط کاربر b منهای میانگین امتیازات ثبت شده توسط این کاربر. به بیان ساده تر در این فرمول
r = میزان شباهت پیرسون
= x در نمونه های x مینi مقدار
= x میانگین کل نمونه های
= y در نمونه های y مینi مقدار
= y میانگین کل نمونه های
کد فرمول پیرسون پایتون
کد پایتون برای حل کردن مثال مطرح شده در فایل ویدویی نیز از لینک زیر در دسترس است.
https://github.com/alifallahi/RecommenderSystem/blob/master/PearsonCorrelationCoefficient.py
فرمول پیرسون به صورت زیر محاسبه می شود:
(x(i)-mean(x))*(y(i)-mean(y)) / ((x(i)-mean(x))2 * (y(i)-mean(y))2