আমরা কী * মিলিয়ন * সহগ / স্বতন্ত্র ভেরিয়েবলগুলি দিয়ে মাল্টিভারিয়েট রিগ্রেশন বিশ্লেষণ করি?


18

আমি কিছুটা সময় মেশিন লার্নিং শেখার জন্য ব্যয় করছি (পুনরাবৃত্তির জন্য দুঃখিত :) এবং মাল্টিভারিয়েট লিনিয়ার রিগ্রেশন ক্ষেত্রে গণনীয় রিগ্রেশন সহগগুলির জন্য সরাসরি সমীকরণ সমাধানের চেয়ে গ্রেডিয়েন্ট বংশোদ্ভূত বাছাইয়ের নিয়মের দ্বারা আগ্রহী হতে পারি না ।

থাম্বের বিধি: যদি বৈশিষ্ট্যগুলির সংখ্যা (পড়ুন সহগ / স্বতন্ত্র ভেরিয়েবলগুলি) বা এক মিলিয়নেরও বেশি হয়, গ্রেডিয়েন্ট বংশোদ্ভূত সঙ্গে যান, অন্যথায় ম্যাট্রিক্স বিপরীতমুখী গণনা কমার্শিয়াল হার্ডওয়্যারে মোটামুটি পরিচালনাযোগ্য এবং এইভাবে সহগের গণনা সরাসরি যথেষ্ট ভাল সম্পাদন করা উচিত ।10,000-1,000,000

গুণগতভাবে বলতে গেলে, আমি ট্রেড অফ / সীমাবদ্ধতা পাই। তবে একটি পরিসংখ্যানগত দৃষ্টিকোণ থেকে আমরা সত্যিই কখনও এতগুলি সহগের সাথে মডেলগুলি গণনা করি? যদি আমি গ্রেড স্কুলে আমার মাল্টিভারিয়েট লিনিয়ার রিগ্রেশন ক্লাসগুলি মনে করি তবে আমাদের অনেক বেশি স্বাধীন ভেরিয়েবল ব্যবহার করা সম্পর্কে সতর্ক করা হয়েছিল যেহেতু তাদের উপর নির্ভরশীল ভেরিয়েবলের উপর খুব নগণ্য প্রভাব থাকতে পারে বা তাদের বিতরণগুলি আমরা ডেটা সম্পর্কে যে অনুমানগুলি অনুসরণ করি তা মানবে না। "বহু আইভি" ভাবার জন্য যদি আমি আমার মনকে প্রসারিত না করি তবে আমি এখনও কয়েক মিলিয়ন লোকের মধ্যে ভাবিনি ।

প্রশ্ন (গুলি):

  • এটি কি সত্যিই ঘটে বা এটি একটি তাত্ত্বিক সমস্যা?
  • দশ লক্ষ আইভি বিশ্লেষণ করার মূল বিষয় কী? এটি কি আমাদের সত্যই তা উপেক্ষা করার বিরোধিতা হিসাবে অর্জিত তথ্যের মূল্যের এত বৃদ্ধি করে?
  • বা এটি কারণ, প্রাথমিকভাবে আমাদের কী দরকারী তা ধারণা নেই, তাই আমরা কী দরকারী তা দেখতে কেবল অভিশাপ চালাই এবং সেখান থেকে যাই এবং সম্ভবত আইভিগুলির সেট ছাঁটাই করি?

আমি এখনও বিশ্বাস করি কারণ আমরা "সবকিছু" বিশ্লেষণ করতে পারি তার অর্থ এই নয় যে আমাদের এটিকে একটি দ্রাবকের মধ্যে ফেলে দেওয়া উচিত (বা এটি করে) এবং আমার কিছু অতীত প্রশ্ন একই ধরণের পিওভিগুলি প্রতিফলিত করে।

আমি এখনও কোর্সটি শেষ করতে পারছি না এবং আমি খুব শীঘ্রই প্রশ্নটি জিজ্ঞাসা করতে পারি, তবে আমি কেবল এই "কেন" আমার মাথা থেকে চিন্তা করতে পারি না এবং এটি আমার সক্ষমতার সেরাটি বোঝার চেষ্টা করছি।

উত্তর:


14

এটি কি সত্যিই ঘটে বা এটি একটি তাত্ত্বিক সমস্যা?

এটি ঘটে, কম্পিউটার দর্শনের জন্য যে কোনও জনপ্রিয় ডিপলাইয়েরিং মডেল দেখুন। বলুন, অ্যালেক্সনেটের 2048 এবং 2048 ইউনিটের ঘন সংযোগ রয়েছে, এটি 4 মিলিয়ন সহগ রয়েছে ffic

দশ লক্ষ আইভি বিশ্লেষণ করার মূল বিষয় কী? এটি কি আমাদের সত্যই তা উপেক্ষা করার বিরোধিতা হিসাবে অর্জিত তথ্যের মূল্যের এত বৃদ্ধি করে?

যদি আপনি অত্যন্ত শ্রেণিবদ্ধ ডেটা বিশ্লেষণ করেন (বলুন, ইন্টারনেট বিজ্ঞাপনের ডেটা) তবে আপনার মডেলটিকে প্রতিটি বিভাগের জন্য কিছু অর্থপূর্ণ 'বিবরণ' রাখতে হবে (যেমন শহর, পৃষ্ঠার আইডি, সাইটনাম, বিজ্ঞাপন আইডি, ব্যবহারকারী আইডি ইত্যাদি), আসল 'বর্ণনার' আকারটি নির্বাচিত এমএল মডেলের উপর নির্ভর করে।

এমনকি সাধারণ লজিস্টিক রিগ্রেশনটিতে কয়েক লক্ষ প্যারামিটার লাগাতে হবে (প্রতি বিভাগে এক)। ফ্যাক্টরিয়েশন মেশিনের মতো আরও উন্নত মডেলগুলিতে আরও কয়েকগুণ বেশি হতে চলেছে।

বা এটি কারণ, প্রাথমিকভাবে আমাদের কী দরকারী তা কোন ধারণা নেই, তাই আমরা কী দরকারী তা দেখতে কেবল অভিশাপ চালাই এবং সেখান থেকে যাই এবং সম্ভবত আইভিগুলির সেট ছাঁটাই করি?

প্রকৃতপক্ষে, এই মডেলগুলির বেশিরভাগ ফিটযুক্ত পরামিতিগুলি বাদ দেওয়া যেতে পারে, তবে আপনি এটি আগে জানতে পারবেন না, সুতরাং আপনি মেশিন লার্নিংয়ের জন্য কোন পরামিতিগুলি গুরুত্বপূর্ণ তা নির্ধারণের সমস্যাটি ছেড়ে দেন এবং কার্যকর নম্বরে 'নরম সীমাবদ্ধতা' রাখার জন্য কিছু নিয়মিতকরণ চাপিয়ে দেন থাকার পরামিতি।

... এবং আমি মনে করি আপনি আপনার এমএল কোর্সে পরে এই জাতীয় উদাহরণগুলি খুঁজে পাবেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.