মুভি রেটিং পূর্বাভাসের জন্য শ্রেণিবদ্ধকরণ মডেল


11

আমি ডেটা মাইনিংয়ের ক্ষেত্রে কিছুটা নতুন এবং আমি মুভি রেটিংয়ের পূর্বাভাসের জন্য একটি শ্রেণিবদ্ধকরণ মডেলটিতে কাজ করছি।

আমি আইএমডিবি থেকে ডেটা সেট সংগ্রহ করেছি এবং আমি আমার মডেলটির জন্য সিদ্ধান্ত গাছ এবং নিকটতম প্রতিবেশী পদ্ধতির ব্যবহার করার পরিকল্পনা করছি। আমি জানতে চাই যে কোন অবাধে উপলব্ধ ডেটা মাইনিং সরঞ্জাম আমার প্রয়োজনীয় কার্যকারিতা সরবরাহ করতে পারে।

উত্তর:


5

হেইন,

কার্যকারিতা উপলব্ধ সহ অনেকগুলি সরঞ্জাম এবং লিব রয়েছে।

কোনটি চয়ন করতে হবে তা নির্ভর করে আপনি নিজের কাজের জন্য কোনও গুই ব্যবহার করতে চান কিনা বা আপনি এটি অন্য কোনও প্রোগ্রামে এম্বেড করতে চান কিনা তা নির্ভর করে।

স্ট্যান্ডেলোন ডেটা মাইনিং সরঞ্জামগুলি (জাভা ইন্টারফেস সহ ডাব্লুইএইচএর মতো ওটার রয়েছে):

  • র‌্যাপিড মাইনার
  • কমলা
  • আর এর জন্য ফাঁদ গুই
  • KNIME

পাঠ্য ভিত্তিক:

  • জিএনইউ আর

libs:

  • পাইথনের জন্য সাইকিট
  • মাহবুড হাদোপ

আপনি যদি কোনও প্রোগ্রামিংয়ের ভাষা যথেষ্ট পরিমাণে জানেন তবে আমি সেই ভাষার জন্য একটি লিব ব্যবহার করব বা আর চেষ্টা করব। যদি না হয় আপনি গুই দিয়ে একটি সরঞ্জাম চেষ্টা করতে পারেন।

আর তে একটি গাছের উদাহরণ:

# we are using the iris dataset
data(iris)

# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)

# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)

# Plot the tree
plot(fit)
text(fit)

আর এর সাথে বিশ্লেষণে আপনার নিজের কোড করা প্রয়োজন বলে পরামর্শ দেওয়া হয়েছে, তবে আপনি বেশিরভাগ শ্রেণিবদ্ধকরণের জন্য একটি প্যাকেজ পাবেন যা বাক্সের বাইরে চলে যাবে। এখানে একটি ওভারভিউ পাওয়া যাবে মেশিন লার্নিং টাস্ক ভিউ

র‌্যাপিডমাইন্ডার দিয়ে শুরু করার জন্য আপনার ইউটিউবে একটি নজর দেওয়া উচিত। কিছু স্ক্রিনকাস্ট এমনকি সিদ্ধান্ত গাছের জন্যও রয়েছে।


1
আমি ডাউনওয়েট করতে চাই, তবে আপনি নতুন, সুতরাং: আপনি কেবলমাত্র সরঞ্জামগুলির একটি সেট (একটি বরং জেনেরিক উত্তর) কেবল কোনও প্রদর্শন ছাড়াই তালিকার জন্য কেন এটি ওপির নির্দিষ্ট কাজের জন্য উপযুক্ত। আমি আরও বিশদ সরবরাহ করার পরামর্শ দিই, অন্যথায় আপনার উত্তরটি stats.stackexchange.com/questions/2007/… দ্বারা প্রতিস্থাপন করা যেতে পারে । কোনও অপরাধ নয়, দয়া করে এটি একটি বন্ধুত্বপূর্ণ পরামর্শ হিসাবে গ্রহণ করুন :)
স্টেফেন

@ স্টেফেন: শ্রদ্ধার সাথে, অডিঞ্জেন্সের 4 টি upvotes এবং 0 ডাউনভোটের প্রাপ্তি অন্যথায় বলে। আমি বিশ্বাস করি যে তিনি প্রশ্নের উত্তর সুন্দরভাবে দিয়েছেন। এটি জিজ্ঞাসা করেছিল যে "কোন নিখরচায়ভাবে ডেটা মাইনিং সরঞ্জাম আমার প্রয়োজনীয় ক্রিয়াকলাপ সরবরাহ করতে পারে" জিজ্ঞাসা করেছিল এবং উত্তরটি আরও এবং আরও দেয়। আপনার লিঙ্কযুক্ত থ্রেডের উত্তরগুলির চেয়ে আসলে আরও অনেক কিছু।
Rolando2

1
@ রোল্যান্ডো 2 আমি এটি সম্পাদনা করার আগে মন্তব্যটি যুক্ত করেছি এবং ইতিমধ্যে আমি সম্পাদিত উত্তরটিকে উর্ধ্বে দিয়েছি;)।
স্টেফেন

@ স্টেফেন: আমি সংশোধন করছি!
Rolando2

5

ওয়েকা একটি ফ্রি এবং ওপেন সোর্স মেশিন-লার্নিং স্যুট। আপনি চাইলে আপনার জাভা কোড থেকে কল করার জন্য তাদের একটি জিইউআই পাশাপাশি একটি এপিআই রয়েছে।

বেশ কয়েকটি সিদ্ধান্ত গাছের অ্যালগোরিদম সহ তাদের অনেক শ্রেণিবদ্ধকরণ অ্যালগরিদম রয়েছে। এগুলি ইউআইতে উপলব্ধ। নিকটতম প্রতিবেশীরা কিছুটা কৃপণ এবং মনে হয় আপনাকে সরাসরি API ব্যবহার করতে হবে

আমি মনে করি র‌্যাপিড মাইনার সম্ভবত এই ধরণের জিনিসটিকে সমর্থন করে তবে আমি আগে এ জাতীয় উদ্দেশ্যে ব্যবহার করি নি।

আপনি আর কেও বিবেচনা করতে পারেন তবে এর জন্য আপনার হাতটি আরও খানিকটা দূরে পেতে হতে পারে।

নোটফ্লিক্স মুভি রেটিং শ্রেণিবিন্যাসে এক টন কাজ করেছেন তা নোট করুন। বেশ কয়েক বছর আগে তারা এই গোষ্ঠীকে একটি million 1 মিলিয়ন পুরষ্কার দিয়েছিল যা তাদের শ্রেণিবিন্যাসকে সবচেয়ে উন্নত করতে পারে। বিভিন্ন দল কীভাবে এই সমস্যায় পৌঁছেছিল তা আপনি পড়তে আগ্রহী হতে পারেন।


ধন্যবাদ মাইকেল, আমি সিদ্ধান্তের গাছের অ্যালগোরিদমগুলির জন্য ওয়েকার চেষ্টা করেছি, কিন্তু আমি দেখতে পেয়েছি যে সংখ্যাগরিষ্ঠ সিদ্ধান্তগুলি বেশিরভাগ সিদ্ধান্ত ট্রি অ্যালগরিদমের জন্য সমর্থন করে না। আমার ডেটা সেটগুলিতে, আমার কাছে রেটিং (ক্লাস লেবেল), বাজেট, পরিচালক আইডি, অভিনেতা আইডি ইত্যাদির মতো সংখ্যাসূচক মান রয়েছে তাই আমি কীভাবে এই সংখ্যাসূচক মানগুলি পরিচালনা করতে পারি? (আমার প্রশ্নের জন্য আমার কোনও নতুন থ্রেড খুলতে হবে কিনা তা নিশ্চিত নই)) অন্য কোন উপযুক্ত অ্যালগরিদম সম্পর্কে আপনার কোনও পরামর্শ আছে?
কে হেইন

2
@ কে হেইন ১) আমি ডিটিটির পরিবর্তে র্যান্ডম অরণ্য (আরএফ) ব্যবহার করার পরামর্শ দিই। উদাহরণস্বরূপ দেখুন stats.stackexchange.com/questions/10001/… । 2) সংখ্যার ভেরিয়েবল: আরএফ উভয় সংখ্যাসূচক এবং পৃথক লেবেল পরিচালনা করতে পারে, আপনার উভয় পদ্ধতির চেষ্টা করা উচিত; ডিরেক্টর_আইডি, অভিনেতা_আইডি একটি সাংখ্যিক বৈশিষ্ট্য নয়, এটি হয় বুলিয়ান (অভিনেতা অংশ নেন?) অথবা নামমাত্র (প্রধান অভিনেতা); বাজেট বিবেচনাধীন হতে পারে বা আরএফকে সেগুলি পরিচালনা করতে দেয়। এই ক্ষেত্রে অ্যালগরিদম অনুকূল বিভাজন পয়েন্টের জন্য অনুসন্ধান করে। আমি প্রায় খেলা এবং আরও নির্দিষ্ট প্রশ্নে পরে ফিরে আসার পরামর্শ দিই;)।
স্টিফেন

ধন্যবাদ স্টিফেন স্টেফেন! আমি আরএফ দিয়ে একটি চেষ্টা করব, তবে আপনার মন্তব্য সম্পর্কে আমার এখনও কিছু প্রশ্ন আছে। যাক আমি যদি অভিনেতা_আইডিকে বুলিয়ান হিসাবে নিতে চাই, তবে প্রতিটি অনন্য অভিনেতা_আইডির জন্য আমার কাছে আইসেক্টর 1 পার্টিকেটেড (অভিনেতা_আইড = 1 এর জন্য বলুন) এর মতো বুলিয়ান বৈশিষ্ট্য আছে? আমি যদি অভিনেতা_কে নামমাত্র বৈশিষ্ট্যে পরিবর্তন করতে চাই তবে আমি কীভাবে এটি এগিয়ে চলব? আমি খুব কৃতজ্ঞ হব যদি আপনি কিছু বিবরণ সরবরাহ করতে পারেন কারণ আমি ডেটা মাইনিংয়ের ক্ষেত্রে সত্যই নতুন।
কে হেইন

1
@KHein নামমাত্র পরামর্শের পিছনে আমার ধারণাটি ফার্স্ট_এক্টর, সেকেন্ড_এক্টর ইত্যাদির মতো বৈশিষ্ট্য তৈরি করে অভিনেতাদের সর্বাধিক গুরুত্বপূর্ণ ব্যক্তিদের মধ্যে সীমাবদ্ধ করা ছিল: যাইহোক: পরিবর্তনশীল দৈর্ঘ্যের (অভিনেতা, পরিচালক, কীওয়ার্ড ইত্যাদি) সম্পর্কিত তথ্যের সাথে কীভাবে আচরণ করা যায় তা একটি বিষয় for একটি পৃথক প্রশ্ন।
স্টেফেন

@ কেহিন আপনি যখন "পরিবর্তনশীল দৈর্ঘ্যের তথ্যের সাথে কীভাবে আচরণ করবেন" প্রশ্ন জিজ্ঞাসা করেন তবে দয়া করে এখানে এটি লিঙ্ক করুন :-)
ড্যারেন কুক

1

হতে পারে ... WEKA? http://www.cs.waikato.ac.nz/ml/weka/


1
(-1): যদিও ওয়েকা আসলেই একটি ডেটা মাইনিং সরঞ্জাম যা সত্যই এনএন এবং টিটি প্রয়োগ করে, উত্তরটি এত সাধারণ যে এটি এক টন প্রশ্নের উত্তর হতে পারে। আপনি যদি ভাবেন যে ওয়েকা অত্যন্ত উচ্চ মাত্রিক স্পার্স ডেটা দেওয়া রেটিং পূর্বাভাসের বিশেষ কাজের জন্য উপযুক্ত, তবে আপনি কেন একটি উদাহরণ দেখান না (বা উদাহরণের একটি লিঙ্ক)। কোনও অপরাধ নয়, দয়া করে এটি একটি বন্ধুত্বপূর্ণ পরামর্শ হিসাবে গ্রহণ করুন।
স্টেফেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.