নেটফ্লিক্সের মতো সিনেমার সুপারিশ করার জন্য কোন পরিসংখ্যান পদ্ধতি রয়েছে?


14

আমি কোনও ব্যবহারকারীর কাছে সিনেমার প্রস্তাব দেওয়ার জন্য একটি গতিশীল মডেলটি বাস্তবায়নের সন্ধান করছি। প্রতিবার ব্যবহারকারী কোনও সিনেমা দেখলে বা এটি রেট করে তার সুপারিশটি আপডেট করা উচিত। এটিকে সহজ রাখতে আমি দুটি কারণ বিবেচনায় নেওয়ার চিন্তা করছি:

  • ব্যবহারকারীর দ্বারা অন্যান্য চলচ্চিত্রের অতীত রেটিং
  • যে সময় ব্যবহারকারী নির্দিষ্ট কিছু সিনেমা দেখেছিল

কীভাবে একজন এমন মডেল সেটআপ করবেন এবং একাডেমিক সাহিত্য কী প্রস্তাব দেয়?

আমি এই ক্ষেত্রে নতুন এবং অনুমান করছি যে প্যারামিটারের অনুমানগুলিতে অপ্রয়োজনীয় অনিশ্চয়তা চাপানো এড়াতে জটিল পদ্ধতিগুলির সাথে অভিনব না করে একটি লিনিয়ার রিগ্রেশন মডেল একটি ভাল ফলাফল সরবরাহ করতে পারে। তবে সম্ভবত ইতিমধ্যে কিছু প্রতিষ্ঠিত পদ্ধতি রয়েছে যা সাধারণত অনুশীলনে ব্যবহৃত হয়?


3
আমি জবাবদিহি করার পক্ষে এটি এত বিস্তৃত বলে মনে করি না। উদাহরণস্বরূপ, এটির 2 টি উত্তর রয়েছে।
গুং - মনিকা পুনরায়

2
কোর্সের মাইনিং ম্যাসিভ ডেটাসেট এবং এর বিনামূল্যে বই ব্যবহার করে দেখুন!
ফিলিপ জেরার্ড

2
আপনি সম্ভবত ম্যাট্রিক্স এবং / অথবা টেনসর ফ্যাক্টেরাইজেশন সন্ধান করতে চান।
মার্ক ক্লেসেন

1
@ usεr11852 আমার উত্তর প্রশ্নের চেয়ে বিস্তৃত।
শ্যাডট্যালকার

1
@ usεr11852, প্রশ্নের শিরোনাম জিজ্ঞাসা করে, "কোন পরিসংখ্যান পদ্ধতি আছে ...?" শেষ বাক্যে জিজ্ঞাসা করা হয়েছে যে রিগ্রেশন ব্যতীত অন্য কোনও পদ্ধতি রয়েছে কি না। আমি মনে করি নীচে বেশ কয়েকটি উত্তর এই ধরণের তথ্য সরবরাহ করে।
গুং - মনিকা পুনরায়

উত্তর:


14

এটি আসলে মেশিন লার্নিংয়ের ক্ষেত্রে তুলনামূলকভাবে বিখ্যাত সমস্যা। 2006-এ নেটফ্লিক্স অ্যালগরিদমকে 1 মিলিয়ন ডলার অফার করেছিল যা তাদের সুপারিশকারী সিস্টেমে সর্বোত্তম যুক্তিসঙ্গত উন্নতি সরবরাহ করে। বিজয়ী সমাধানের তত্ত্বটি সংক্ষেপে এই ক্যালটেক পাঠ্যপুস্তকে প্রবর্তনীয় মেশিন লার্নিংয়ে আলোচনা করা হয়েছে ।

মূলত একটি জড়ো শেখার পদ্ধতি ব্যবহৃত হত used বিশেষত, এক ধরণের মিশ্রণ বা স্ট্যাকিংয়ের কাজ ছিল। এটি অনানুষ্ঠানিক, তবে এক ধরণের স্বজ্ঞাত। সুসংগতভাবে বিভিন্ন পরিসংখ্যানগত পদ্ধতির ব্যবহারের অনুধাবন বুঝতে, বিভিন্ন লোক একই সিনেমাগুলির মতো বিভিন্ন কারণগুলি বিবেচনা করুন: অর্থ্যাৎ জো টপগান পছন্দ করতে পারে কারণ তিনি ৮০ এর দশকের অ্যাকশন চলচ্চিত্র পছন্দ করেন এবং জেন টপগান পছন্দ করেন কারণ কেনি লগগিনস সাউন্ডট্র্যাকগুলির সাথে তিনি মুভি পছন্দ করেন। সুতরাং উভয় দর্শকের (এবং মুভিটিকে উচ্চ রেট দেওয়া) সত্যই বোঝানো হয়নি যে তারা উচ্চ সম্ভাবনা সহ অন্যান্য সিনেমা পছন্দ করবেন। পূর্বাভাস অ্যালগরিদম আদর্শভাবে এই পার্থক্যগুলি সামঞ্জস্য করতে সক্ষম হবেন, কমপক্ষে কিছুটা ক্ষমতার ক্ষেত্রে।

এটি সমাধানটিকে বেশ সহজ করে তুলতে পারে তবে প্রতিযোগী অ্যালগরিদমগুলিতে ভারসাম্য বজায় রাখা এবং প্রতিটি ক্ষেত্রে সেরা অনুমানটিকে অগ্রাধিকার দেওয়া অবশ্যই সহজ নয়। নেটফ্লিক্স যে এত বড় অনুদানের প্রস্তাব দিয়েছিল তা চ্যালেঞ্জের পরিমাণকে বরং স্পষ্ট করে তুলবে।

আপনি যদি কেবল মেশিন লার্নিংয়েই শুরু করছেন, আপনার আগ্রহের স্তর এবং আপনার গণিতের পটভূমির উপর নির্ভর করে উপরের সংস্থানগুলি পরীক্ষা করে নেওয়া সহায়ক হতে পারে। সুতরাং রিগ্রেশন সম্ভবত ভাল-থেকে-ভাল কাজ করবে, তবে উল্লেখযোগ্যভাবে আরও ভাল পারফরম্যান্স সম্ভব।


2
নেটফ্লিক্স পুরষ্কারের জন্য +1। আপনি যেমন উল্লেখ করেছেন, সেই পুরস্কারটি এই চ্যালেঞ্জটি কতটা বিশাল তার একটি সূচক।
আম্মোন

11

এই সমস্যাগুলির অর্ধেক চ্যালেঞ্জটি কী সন্ধান করতে হবে তা জেনে।

আপনি ট্যাগটি না উপলব্ধি করে ট্যাগটি যোগ করতে পারেন, তবে আপনি আসলে সুপারিশকারী সিস্টেমে তথ্য অনুসন্ধান করছেন । আপনি সহযোগী ফিল্টারিং দিয়ে শুরু করতে চাইতে পারেন , বা আরও ভাল প্রস্তাবটি সিস্টেম হ্যান্ডবুকের জন্য রিসি, রোকাচ এবং শাপিরা দ্বারা পৃষ্ঠায় উদ্ধৃত হয়েছে।


আমি প্রকৃতপক্ষে ট্যাগটির গভীরতর দিকে চেয়েছিলাম এবং বেশিরভাগ ক্ষেত্রে সহযোগী ফিল্টারিংয়ের উদাহরণ পেয়েছি। এই পদ্ধতির সাথে আমার যে সমস্যাটি রয়েছে তা হ'ল এটি অন্য ব্যবহারকারীদের ইনপুটগুলির উপর নির্ভর করে, যদি আমি ধারণাটি বুঝতে পারি। আমি একজন ব্যবহারকারীর অবস্থার জন্য আরও পদ্ধতিগুলির সন্ধান করছি, অন্য কোনও ডেটা বা allyচ্ছিকভাবে অন্য ডেটা নেই। আপনার অন্যান্য উল্লেখ দেখুন।
অ্যান্ড্রুজ

1
@ জন অ্যান্ড্রুজ: আমার মনে হয় এসএসডেকট্রোল আপনাকে সর্বাধিক প্রাসঙ্গিক পরামর্শ দেয়। আপনাকে সুপারিশকারী সিস্টেম সাহিত্যের দিকে নজর দেওয়া দরকার। জড়িত অনেক কৌশল আছে, যেমন। এনএনএমএফ , ফানক এসভিডি , নিকটতম-প্রতিবেশী শ্রেণীবদ্ধকারী ইত্যাদির বিভিন্ন বিভিন্ন রূপ , ইত্যাদির নাম উল্লেখ করার জন্য। শেষ পর্যন্ত আপনি সহযোগী ফিল্টারিং ব্যবহার করতে চান তবে আপনি কোনও ব্যাকগ্রাউন্ড ছাড়াই কেবল "ডাইভ ইন" করতে পারবেন না।
usεr11852

@ জন অ্যান্ড্রুজ ক্রসভিলেটেড সাধারণত কোনও বিষয় সম্পর্কে শিখতে শুরু করার জন্য খুব খারাপ জায়গা , বিশেষত যদি আপনি কেবল ট্যাগ করে সন্ধান করেন। পরিবর্তে আমি সংযুক্ত রেফারেন্সগুলি কীভাবে দেখছি? উইকিপিডিয়া পরিসংখ্যান নিবন্ধগুলি সর্বদা নির্ভরযোগ্য নয় তবে এগুলি বেশ ভাল এবং প্রচুর উল্লেখ উল্লেখ করে।
শ্যাডটলকার

6

আপনার Coursera এ অ্যান্ড্রু এনজি এর কোর্সটি পরীক্ষা করা উচিত: https://www.coursera.org/learn/machine-learning এটির প্রস্তাবনা ব্যবস্থা তৈরির বিষয়ে একটি পাঠ রয়েছে, যা আপনি যা খুঁজছেন তা প্রদর্শিত হয়। মূলত এটি লিনিয়ার রিগ্রেশনের একটি রূপ যা চলচ্চিত্রগুলি রেট করে এমন ব্যক্তির চলচ্চিত্রগুলির জন্য সিনথেটিক বৈশিষ্ট্যগুলি শিখে এবং যেগুলি ছায়াছবি রেটিং / দেখেনি তাদের জন্য সুপারিশের পূর্বাভাস দেওয়ার জন্য ব্যবহার করে।


3
আমাদের সাইটে আপনাকে স্বাগতম! কিছু তথ্য অন্তর্ভুক্ত করার জন্য ধন্যবাদ যা কেবলমাত্র "বেয়ার" লিঙ্ক সরবরাহ করার পরিবর্তে লিঙ্কের বিষয়বস্তুগুলির সংক্ষিপ্তসার করে - আমরা এটির প্রশংসা করি।
সিলভারফিশ

4

ইন Netflix এর চ্যালেঞ্জ (অক্টোবর 2006 - সেপ্টেম্বর 2009) একটি খুব বড় পাঁচমিশেলি (107 পৃথক submodels) শেষ $ 1M গ্র্যান্ড পুরস্কার জিতেছে, কিন্তু এটা নোট যে প্রথম সহজ (অ ensembled) আলগোরিদিম Netflix এর Cinematch বীট করতে শিক্ষণীয় বেঞ্চমার্ক একটি জেনারেলাইজড (স্পার্স ম্যাট্রিক্স) এসভিডি ভিত্তিক ছিল। সিনেমাট্যাচকে মারধর করার এই প্রথম মাইলফলকটি ডাব্লুএক্সওয়াইজেডকনসাল্টিং নামে একটি দল প্রতিযোগিতা শুরু করার মাত্র 6 দিন পরে অর্জন করেছিল।

এসভিডি (একক মান ভঙ্গ) একটি ম্যাট্রিক্স ফ্যাক্টরীকরণ অ্যালগরিদম যেখানে আপনি [user, movie]প্রতিটি [u, m]পজিশনে (*) একটি রেটিং (1 থেকে 5 তারা) দিয়ে 2 ডি ম্যাট্রিক্স দিয়ে শুরু করেন এবং এটিকে 3 টি ম্যাট্রিকগুলিতে বিভক্ত করেন যেখানে মাঝারি ম্যাট্রিক্সটি একটি বর্গ-ম্যাট্রিক্স হয় ব্যবহারকারী এবং চলচ্চিত্রের মধ্যে সুপ্ত ইন্টারঅ্যাকশন।

এই জাতীয় সুপ্ত ফ্যাক্টর ইন্টারঅ্যাকশন যথাক্রমে অন্তত অন্তর্ভুক্ত করতে আপনি বর্গ ম্যাট্রিক্স র‌্যাঙ্কটিকে ছোট বা বৃহত্তর করতে পারেন।

দ্রুত / দক্ষ স্পার্স এসভিডি-র বেশ কয়েকটি বিনামূল্যে সফ্টওয়্যার বাস্তবায়ন রয়েছে। উদাহরণস্বরূপ redsvd, বা vowpal-wabbit তাই নিজের লেখার আগে আপনি এগুলি চেষ্টা করতে পারেন।

(*) এর মধ্যে বেশিরভাগ এন্ট্রি শূন্য, যেহেতু বেশিরভাগ ব্যবহারকারী বেশিরভাগ চলচ্চিত্রকে রেট করেননি। অর্থাত্ ম্যাট্রিক্সটি খুব বিরল।

তথ্যসূত্র:


নেটফ্লিক্স এর আগে কী ব্যবহার করত?
jona

2
"সিনেমাট্যাচ" নামক একটি অ্যালগরিদম যা সর্বজনীন নয় তবে "বছরের পর বছরগুলিতে সংশোধিত বিভিন্ন বিষয়গুলির রৈখিক সংমিশ্রণ" হিসাবে বর্ণনা করা হয়েছে যেমন: ওজনযুক্ত গড় গ্লোবাল রেটিং (জি) + ওজনিত গড় ব্যবহারকারী [u] রেটিং + ওজনিত গড় মুভি [মি] রেটিং, ... ইত্যাদি
আরিফেল

বিস্তৃত উত্তরের জন্য ধন্যবাদ। এটি খনন করা হবে। রৈখিক সংমিশ্রণগুলির জন্য, ওভার-প্যারামিটারাইজেশনটির একটি বড় সমস্যা নেই? এটি আমার পছন্দসই পদ্ধতি হবে। তবে এসভিডি আশাব্যঞ্জক বলে মনে হচ্ছে।
জনআন্ড্রুজ

কোনও সমস্যা নেই যদি আপনি কেবল এমন কারণগুলি যুক্ত করেন যা সাধারণীকরণের ত্রুটির উন্নতি করে । স্পষ্টতই, প্রয়োজনীয় আস্থা অর্জনের জন্য আপনাকে অদৃশ্য ডেটাতে এই জাতীয় সংযোজন পরীক্ষা করতে হবে।
আরিফেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.