অনুপস্থিত মান সহ একটি ম্যাট্রিক্সের এসভিডি


12

ধরুন আমার কাছে নেটফ্লিক্স-স্টাইলের সুপারিশ ম্যাট্রিক্স রয়েছে এবং আমি এমন একটি মডেল তৈরি করতে চাই যা কোনও প্রদত্ত ব্যবহারকারীর জন্য সম্ভাব্য ভবিষ্যতের চলচ্চিত্রের রেটিংয়ের পূর্বাভাস দেয়। সাইমন ফাঙ্কের পদ্ধতির ব্যবহার করে, কেউ এল 2 নিয়মিতকরণ শর্তের সাথে মিলিয়ে পূর্ণ ম্যাট্রিক্স এবং আইটেম-বাই-আইটেম * ব্যবহারকারী-দ্বারা-ব্যবহারকারী ম্যাট্রিক্সের মধ্যে ফ্রোবিনিয়াস আদর্শকে হ্রাস করতে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভুত ব্যবহার করবে।

অনুশীলনে, লোকেরা সুপারিশ ম্যাট্রিক্স থেকে অনুপস্থিত মানগুলি কী করে, যা গণনা করার পুরো বিষয়টি? সাইমনের ব্লগ পোস্টটি পড়ে আমার অনুমান যে ভবিষ্যদ্বাণী করতে তিনি মডেল তৈরি করতে (হাইপার-প্যারামিটারগুলি এবং নিয়মিতকরণের কিছু বিচারিক পছন্দ সহ) একটি মডেল তৈরি করতে কেবল অনুপস্থিত পদগুলি (যা প্রস্তাবনা ম্যাট্রিক্সের 1% সমন্বিত) ব্যবহার করেন তিনি কেবলমাত্র ব্যবহার করেন অন্যান্য 99% ম্যাট্রিক্স?

অনুশীলনে, আপনি কি সত্যিই এই সমস্ত মানগুলি এড়িয়ে যান? অথবা আপনি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত করার আগে যথাসম্ভব অনুমান করেন? নিখোঁজ মানগুলির সাথে আচরণের জন্য কিছু মানক সর্বোত্তম অভ্যাসগুলি কী কী?


1
এটি এই একই প্রশ্ন মনে হচ্ছে । আমি সেখানে প্রশ্নের উত্তর দিয়েছি।
d_ijk_stra

2
আমিও জবাব দিয়েছি ।
স্টম্পি জো পিট

2
@d_ijk_stra "উত্তর" পিডিএফ
কোনও

উত্তর:


6

হ্যাঁ, অনুশীলনে সেই মানগুলি এড়িয়ে যায়। আপনার বর্ণনায় একটি ফ্রোবিনিয়াস নিয়মের শর্তাবলী, এটি পরিমাপ করা যায় এমন আদর্শের উপাদানগুলি হ্রাস করার সাথে সম্পর্কিত, যেমন রেটিংগুলি জানেন। নিয়মিতকরণ শব্দটি বৈশিষ্ট্য ভেক্টরগুলির উপাদানগুলির পূর্বে বায়েশিয়ান হিসাবে দেখা যেতে পারে, এসভিডি সর্বাধিক সম্ভাবনা অনুমানকারী গণনা করে, এই পূর্ববর্তী এবং জ্ঞাত মানগুলির সাপেক্ষে।

অনুপস্থিত মানগুলি অনুমান করার জন্য একটি উপায় হিসাবে এসভিডিটিকে মনে করা ভাল। যদি আপনি ইতিমধ্যে এটি করার আরও ভাল উপায় পেয়ে থাকেন তবে আপনার এসভিডি কেন দরকার? আপনি যদি তা না করেন তবে এসভিডি খুশিতে আপনার জন্য শূন্যস্থান পূরণ করবে।


1
আপনি কীভাবে এই অনুপস্থিত মানগুলি নির্ণয় করতে এসভিডি ব্যবহার করবেন? আপনি কি অনুপস্থিত মানগুলি নির্ধারণের জন্য অন্যান্য পদ্ধতি ব্যবহার করে দেখেছেন, নিখোঁজ মানগুলি ব্যবহার করে একটি এলোমেলো-বনভূমি শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য বলেছিলেন, যা আপনার অনুপস্থিত মানগুলি অনুমান করার জন্য ব্যবহার করা যেতে পারে? আপনি কি আরও ভাল ফলাফল পান, না এটি আসলেই সমস্যা-নির্ভর?
বিশাল

1
এসভিডি পচে যাওয়ার প্রাসঙ্গিক উপাদানগুলি ব্যবহার করে আপনি ভবিষ্যতের মানগুলির পূর্বাভাস দিতে একইভাবে অনুপস্থিত মানগুলি নির্ধারণ করেন। ভবিষ্যতের রেটিংগুলির পূর্বাভাস দেওয়া অনুপস্থিত মানগুলি অনুমান করা ঠিক একই সমস্যা। যদি আপনি অনুপস্থিত মানগুলি নির্ধারণের জন্য ভাল উপায় পেয়ে থাকেন তবে ভবিষ্যতের রেটিংগুলির পূর্বাভাস দেওয়ার জন্য এটি ব্যবহার করুন। যদি আপনি না করেন তবে এসভিডি এটির জন্য।
মার্টিন ও'লিয়ারি

"এসভিডিটিকে অনুপস্থিত মানগুলি অনুমানের জন্য একটি পদ্ধতি হিসাবে মনে করা ভাল" " আহ, না, এসভিডি চালানোর আগে ব্যবহারকারীর উপর নির্ভর করে সমস্ত অনুপস্থিত মানগুলি অন্য কোনও উপায়ে প্রাক-অনুমান করা যায়। এসভিডি কিছুতেই ক্ষতি করে না।
জেফ্রি অ্যান্ডারসন

1

অনুশীলনে, লোকেরা সুপারিশ ম্যাট্রিক্স থেকে অনুপস্থিত মানগুলি কী করে, যা গণনা করার পুরো বিষয়টি? সাইমনের ব্লগ পোস্টটি পড়ে আমার অনুমান, তিনি কেবল মডেল তৈরি করতে অনুপস্থিত শর্তাদি ব্যবহার করেন।

এটি ঠিক - এটি তার এবং আপনার মডেলের মূল বিষয়, অনুপস্থিত পদগুলির পূর্বাভাস দেওয়ার জন্য, তাই না? এটি একটি গুরুত্বপূর্ণ বিষয় যা অনেকে আসলে ভুলে যায়। তারা মনে করে যে তারা বিশ্বে কোনও যত্ন ছাড়াই নিখরচায় থাকা ডেটাগুলির জন্য একটি ধ্রুবককে পূর্ব-নির্ধারিত করতে "অনুমান" করতে পারে এবং এসভিডি থেকে জিনিসগুলি যাদুতে যথেষ্ট ভাল কাজ করবে। ময়লা আবর্জনা, আবর্জনা বাইরে: এটি আসল এবং আপনি এটি আরও ভাল করে দেখেছিলেন। আপনি যদি কোনও ফলাফলের জন্য দরকারী কিছু চান তবে আপনি কোনও মডেলকে জাঙ্ক ডেটা না খাওয়ানো ভাল।

সংখ্যাগরিষ্ঠ স্পার্স ডেটাসেটে অবশ্যই "কোনও অনুপস্থিত মান নির্ধারণ করা" সেরা নয় এবং তারপরে এসভিডি চালানো আপনার জন্য কিছু মূল্যবান প্রত্যাশার আশা নিয়ে (যা আপনি এসভিডি চালানোর আগে ইতিমধ্যে দোষী সাব্যস্ত করেছেন, তাই না?)। আপনি কি মনে করেন, একটি মডেল যাদু? সংখ্যাগরিষ্ঠ জঞ্জাল ডেটা কাটিয়ে ওঠার জন্য কোনও জাদু বা প্রযুক্তি নয়। আপনি এমন কোনও মডেলের সাথে মিথ্যা বলতে পারবেন না যে ডেটা বাস্তব তথ্য যখন এটি একেবারে বাস্তব হয় না, তবে সত্যিকারের মাত্র কিছু আবর্জনা যা আপনি কেবল সরু বায়ু থেকে তৈরি করেছেন।

এসভিডি অন্যান্য দরকারী জিনিসগুলি করে তাই আমি অবশ্যই বলছি না যে এসভিডি কমপক্ষে মূল্যহীন। এগিয়ে যান এবং কেবল সম্পূর্ণ ডেটাসেটে এসভিডি ব্যবহার করুন, সম্ভবত আপনি বুদ্ধিমানভাবে এর বিকাশের সময় পক্ষপাত ত্রুটি এবং বৈকল্পিক ত্রুটির প্রতি সমস্ত প্রাসঙ্গিক মনোযোগ সহ একটি মেশিন লার্নিং মডেল ব্যবহার করার জন্য বুদ্ধিমানভাবে অনুপস্থিত মানগুলি চাপিয়েছেন।

মেশিন লার্নিংয়ের উপায়। সুতরাং আপনি যদি এখনও জানতে চান যে ম্যাট্রিক্স ফ্যাক্টেরাইজেশন ডিজাইন ব্যবহার করে মানগুলি কীভাবে কার্যকর করা যায় তবে মেশিন লার্নিং ব্যবহার করে ঠিক এটি করার ভাল উপায় রয়েছে এবং গুরুত্বপূর্ণভাবে তারা কোনও মডেলকে কোনও জঞ্জাল ডেটা ফিড করে না অর্থহীনভাবে শেখার চেষ্টা করার জন্য।

ঠিক এই জাতীয় মেশিন লার্নিং ম্যাট্রিক্স ফ্যাক্টেরাইজেশন মডেলটি স্ট্যানফোর্ড অনলাইন কোর্স মাইনিং ম্যাসিভ ডেটা সেটগুলির প্রশিক্ষকগণ মডিউল 5 তে বেশ ভালভাবে উপস্থাপন করেছেন। তারা আপনাকে গণিত দেখায় এবং মডেলটি ব্যাখ্যা করে। যদিও তারা আপনার জন্য এটি কোড করে না।

এটি ঠিক আছে কারণ আপনি যদি বেসিক মেশিন লার্নিং বুঝতে পারেন তবে আপনি নিজেরাই এটি কোড আপ করতে পারেন। আপনি কি জানেন যে ক্ষতির ফাংশন এবং ব্যয় কার্য কী? নিয়মিতকরণ? গ্রেডিয়েন্ট বংশোদ্ভূত? ম্যাট্রিক্সের গুণ এবং সংযোজন দিয়ে ঠিক আছে? বায়াস ত্রুটি এবং বৈকল্পিক ত্রুটি? যদি তাই হয় তবে আপনি ভাল। যদি তা না হয় তবে আপনার অ্যান্ড্রু এনগের অনলাইন কোর্স মেশিন লার্নিং এ কোর্সেরা নেওয়া উচিত , যা অনেক ভাল শুরু করার জায়গা। তারপরে মাইনিং ম্যাসিভ ডেটা সেটগুলি অনলাইন কোর্সেও যান যা মেট্রিক্স ফ্যাক্টেরাইজেশন এবং সুপারিশকারী মডেলগুলি তৈরির জন্য মেশিন লার্নিং সম্পর্কে ঠিক কথা বলে।

বলা বাহুল্য, আপনি পুরোপুরি ডিজাইন করার পাশাপাশি আপনার নিজস্ব ফ্যাক্টরিজেশন মডেলটিও কোডিং করতে পারেন যা নিখোঁজ ডেটাগুলি খুব ভালভাবে পরিচালনা করে, ঠিক যেমন সাইমন ফানক করেছিলেন এবং আপনি এটি স্ক্র্যাচ থেকে করতে পারেন তবে এটি আর আগের মতো শক্ত ছিল না back তার দিনে, কারণ এখন আপনি টেনসরফ্লো বা মাইক্রোসফ্ট সিএনটিকে মতো একটি সরঞ্জাম ব্যবহার করতে পারেন যা আপনার জন্য অনেক কিছু করে। একটি ক্ষতির ফাংশন এবং একটি ব্যয় ফাংশন সংজ্ঞায়িত করুন, একটি অপ্টিমাইজার চয়ন করুন, আপনার ডেটাসেটকে প্রশিক্ষণে ভাগ করুন, ডেভ, প্রকৃত উপলভ্য ডেটা (লেবেলযুক্ত ডেটা) থেকে পরীক্ষা করুন এবং এটি চালিত হতে দিন। সিরিয়াসলি, এটি কাজ করে। এটি সহজে ডিবাগিং টিএফ এবং এর গ্রাফ বিল্ডিংয়ের ত্রুটিগুলি নয় তবে শেষ পর্যন্ত এটি দুর্দান্ত কাজ করতে পারে এবং কোডের এক পৃষ্ঠারও কম লাগে।

বিশেষত, ম্যাট্রিক্স ফ্যাক্টরাইজেশন মেশিন লার্নিং মডেলটিতে জাল ডেটা না খাওয়ানোর একটি উপায় হ'ল আপনার ক্ষতি এবং ব্যয় কার্যকারিতাগুলিতে হারিয়ে যাওয়া ডেটার ম্যাট্রিক্স উপাদানগুলি এড়িয়ে যাওয়া


1

একটি থিসিস রয়েছে যা অনেকগুলি সুপারিশ সিস্টেমগুলি পর্যালোচনা করে তাদের তুলনা করে, তবে অনুপস্থিত আইটেমগুলির দীর্ঘমেয়াদী ট্র্যাকিং সম্পর্কে কথা বলে না, উদাহরণস্বরূপ, ভবিষ্যদ্বাণীগুলি পরীক্ষা করার জন্য। এটা আপনার প্রশ্নের অংশ? সময় উপাদানটি সেভাবে ব্যবহার করছেন? অনেকগুলি কাগজপত্র এবং পদ্ধতির মধ্যে থিসিস পর্যালোচনাগুলি হ'ল সময় সচেতন / সংবেদনশীল সিস্টেমগুলি যেমন রেন্ডেল পেপারগুলিতে গবেষণা। যদি আপনার প্রশ্নটি ডেটার স্বল্পতা পরিচালনা করার বিষয়ে হয় তবে তা পুরো থিসিস জুড়েও বিস্তারিত আলোচনা করা হয় এবং অনেকগুলি পদ্ধতি রয়েছে। জিরো বা ম্যাট্রিক্স ফ্যাক্টেরাইজেশনের সাথে স্পার্স ম্যাট্রিক্স এবং অভিব্যক্তি যা ব্যবহারকারীদের (একইভাবে আইটেমগুলিকে রেট দেয় এমন ব্যবহারকারীদের) বা আইটেমগুলির ক্লাস্টারিংয়ের একটি লিঙ্কিং ম্যাট্রিক্স যুক্ত করে।

থিসিস শিরোনামটি হ'ল প্রস্তাবিত সিস্টেমের জন্য লো রেঙ্ক মডেলগুলি সীমিত পছন্দসই তথ্যের সাথে "অ্যাভজেনি ফ্রোলভ https://www.skoltech.ru/app/data/uploads/2018/09/Frolov_Dissertation_Final1.pdf দ্বারা"

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.