অনুদায়ী বড় ডেটা কীভাবে মডেল করবেন?


14

Ditionতিহ্যগতভাবে আমরা দ্রাঘিমাংশীয় তথ্য মডেল করতে মিশ্র মডেল ব্যবহার করি, যেমন ডেটা:

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

আমরা বিভিন্ন ব্যক্তির জন্য র্যান্ডম ইন্টারসেপ্ট বা opeাল ধরে নিতে পারি। তবে আমি যে প্রশ্নটি সমাধান করতে চাইছি তাতে বিশাল ডেটাসেট জড়িত থাকবে (লক্ষ লক্ষ ব্যক্তি, 1 মাসের দৈনিক পর্যবেক্ষণ, অর্থাত প্রতিটি ব্যক্তির 30 টি পর্যবেক্ষণ থাকবে), বর্তমানে আমি জানিনা প্যাকেজগুলি এই স্তরের ডেটা করতে পারে কিনা তা সম্পর্কে আমি অবগত নই।

আমার কাছে স্পার্ক / মাহআউটে অ্যাক্সেস রয়েছে তবে তারা মিশ্র মডেল সরবরাহ করে না, আমার প্রশ্ন হ'ল এমন কি কোনও উপায়ে আছে যে আমি আমার ডেটাটি সংশোধন করতে পারি যাতে আমি এই ডেটাসেটটি মডেল করতে র‌্যান্ডমফোরেস্ট বা এসভিএম ব্যবহার করতে পারি?

যে কোনও বৈশিষ্ট্য ইঞ্জিনিয়ারিং কৌশলটি আমি উপকৃত করতে পারি যাতে এটি আরএফ / এসভিএমকে স্বতঃসংযোগ সম্পর্কিত অ্যাকাউন্টে সহায়তা করতে পারে?

অনেক ধন্যবাদ!

কিছু সম্ভাব্য পদ্ধতি কিন্তু সেগুলি স্পার্কে লেখার জন্য আমি সময় সাধ্যের মধ্যে ফেলতে পারি নি

আমি কীভাবে এলোমেলো প্রভাবগুলিকে এলোমেলোভাবে অন্তর্ভুক্ত করতে পারি

দ্রাঘিমাংশীয় ডেটা সহ এসভিএম রিগ্রেশন


1
ডেটাসেটটি এত বড় নয়। 30 টি রেকর্ড সহ 1 মিলিয়ন বিষয়, রেকর্ড প্রতি 20 বাইট ডেটা 600MB আনতে পারে। এটা কিছু না. কোনও স্ট্যাটাস প্যাকেজ এটি পরিচালনা করবে
আকসাকাল

উত্তর:


4

উদাহরণস্বরূপ আপনার যদি কেবল কয়েকটি ভেরিয়েবল থাকে তবে আপনার কিছু বৈকল্পিক নিয়ে কোনও সমস্যা হবে না lme4

যখন আপনি প্রচুর ভেরিয়েবল পেয়ে থাকেন এবং আপনি যখন আপনার ভেরিয়েবলগুলির মধ্যে অরৈখিকতা এবং মিথস্ক্রিয়া মডেল করতে চান তখন মেশিন লার্নিংয়ের কৌশলগুলি সত্যিই জ্বলে ওঠে। কয়েকটি এমএল পদ্ধতির বিকাশ করা হয়েছে যা অনুদৈর্ঘ্যের ডেটা দিয়ে এটি করতে পারে। আরএনএনগুলি হ'ল একটি বিকল্প, যদিও এগুলি সাধারণত প্যানেল ডেটার পরিবর্তে সময় সিরিজের সমস্যার জন্য অনুকূলিত হয়।

নীতিগতভাবে, একটি ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক হ'ল একটি (সাধারণীকরণ) লিনিয়ার মডেল, রেজিস্ট্রারগুলির সাথে ইনপুট ডেটার ননলাইনারি ফাংশন। যদি উত্সাহিত রেজিস্ট্রারগুলি - আউটপুটের আগে মডেলের উপরের স্তরটিকে ননপ্যারমেট্রিক অংশ হিসাবে বিবেচনা করা হয়, তবে এটির সাথে প্যারামেট্রিক কাঠামো যুক্ত করা থেকে বিরত কিছু নেই - সম্ভবত এলোমেলো প্রভাবগুলির আকারে।

শ্রেণিবিন্যাস সমস্যার জন্য এটি তবে কার্যকর করা হয়নি, যা আমি ধরে নিয়েছি যে আপনি করছেন বলে আপনি প্রার্থী হিসাবে এসভিএমের প্রতি আগ্রহী।


2

অনুদায়ী তথ্যগুলির জন্য মেশিন লার্নিং কৌশলগুলি থেকে পুনরাবৃত্তি করা : ক্রস-বৈধতা স্কেলারন ডকুমেন্টেশনে গ্রুপযুক্ত ডেটার জন্য ক্রস-বৈধকরণ পুনরাবৃত্তি রয়েছে! গ্রুপ কেফোল্ড , লেভোঅনগ্রুপআউট এবং লিপপগ্রুপস আউট দেখুন

আপনি যদি খাঁটি ভবিষ্যদ্বাণীতে আগ্রহী হন, তবে সম্ভবত সবচেয়ে ভাল বিকল্পটি সম্ভবত পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি ব্যবহার করা । আর একটি বিকল্প হিডে মার্কভ মডেল


2

আপনার দ্রাঘিমাংশের তথ্যের জন্য আপনার কি সত্যিই এলোমেলো বন, এনএন, ইত্যাদি দরকার? lme4লক্ষ লক্ষ ব্যক্তিকে পরিচালনা করতে সক্ষম:

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

এটি সহজেই লিনিয়ার মিশ্রিত মডেলগুলির সাথে ডিল করতে পারে, এবং আপনি লিঙ্কটি থেকে দেখতে পাচ্ছেন, এটি অরৈখিক মিশ্র মডেলগুলির পক্ষে সমর্থনও রয়েছে (যদিও আমি ননলাইনার মডেলগুলির জন্যও এটি দ্রুত বজ্রপাতের আশা করব না)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.