রিগ্রেশন বিশ্লেষণে 'ডেটা জেনারেশন প্রক্রিয়া' এবং 'মডেল' এর মধ্যে পার্থক্য কী?
রিগ্রেশন বিশ্লেষণে 'ডেটা জেনারেশন প্রক্রিয়া' এবং 'মডেল' এর মধ্যে পার্থক্য কী?
উত্তর:
"মডেল" এর অর্থ কী হতে পারে সে সম্পর্কে আমাদের সবার ধারণা রয়েছে, যদিও এর প্রযুক্তিগত সংজ্ঞাটি শাখাগুলির মধ্যে পৃথক হবে। ডিজিপির সাথে এটির তুলনা করার জন্য, গুগলিংয়ের "ডেটা জেনারেশন প্রক্রিয়া" শীর্ষ পাঁচটি হিট (একইরকম লেখকের সাথে দুটি হিট গণনা করা) দেখে আমি শুরু করেছিলাম।
ইউএস এয়ার ফোর্স কীভাবে লজিস্টিক সাপোর্টে ডেটা তৈরি করে সে সম্পর্কে একটি কাগজ ।
"সিমুলেশন মডেলগুলি" কম্পিউটারের মাধ্যমে কীভাবে "সিন্থেটিক মাইক্রোপপুলেশনগুলি" তৈরি করা হয় সে সম্পর্কিত পরিবেশ এবং পরিকল্পনায় প্রকাশিত একটি গবেষণাপত্রের অ্যাবস্ট্রাক্ট ।
"সিনথেটিক ডেটা জেনারেশন" এর একটি ওয়েব পৃষ্ঠা ; এটি হ'ল সিমুলেশন "... মডেলের উপর নির্দিষ্ট ডেটা বৈশিষ্ট্যের প্রভাবগুলি অনুসন্ধান করতে।"
ডেটা মাইনিংয়ের একটি সম্মেলনের কাগজটির বিমূর্ত বক্তব্য, "ডাটাবেসে থাকা ডেটা হ'ল একটি অন্তর্নিহিত ডেটা জেনারেশন প্রক্রিয়ার ফলাফল (ডিজিপি)"।
একটি বইয়ের অধ্যায় যা আগ্রহের ডেটাগুলিকে বৈশিষ্ট্যযুক্ত করে "" অন্তর্নিহিত [স্টোকাস্টিক] প্রক্রিয়া ভি টি এর কিছু রূপান্তর থেকে উদ্ভূত ... কিছু বা সমস্ত [যাদের মধ্যে] সংরক্ষণ করা যায় না ... "
এই লিঙ্কগুলি "ডেটা উত্পন্নকরণ প্রক্রিয়া" শব্দটির তিনটি কিছু ভিন্ন তবে ঘনিষ্ঠভাবে সম্পর্কিত ব্যবহারগুলি প্রদর্শন করে। সাধারণটি স্ট্যাটিস্টিকাল সিমুলেশনের প্রসঙ্গে। অন্যরা প্রকৃত উপায়গুলি বোঝায় যার মাধ্যমে চলমান পরিস্থিতিতে (রসদ) ডেটা তৈরি করা হয় এবং চলমান উপাত্ত তৈরির প্রক্রিয়াটির জন্য সম্ভাব্যতা মডেলকে বোঝানো হয়, সরাসরি বিশ্লেষণ না করার উদ্দেশ্যে। শেষ ক্ষেত্রে পাঠ্যটি একটি অলক্ষণীয় স্টোকাস্টিক প্রক্রিয়াটিকে পৃথক করছে, যা তবুও বিশ্লেষণ করা হবে এমন প্রকৃত সংখ্যাগুলি থেকে গাণিতিকভাবে মডেল করা হয়েছে।
এগুলি দুটি সামান্য পৃথক উত্তর প্রযোজ্য:
সিমুলেশন বা বিশ্লেষণের জন্য "সিন্থেটিক" ডেটা তৈরির প্রসঙ্গে, "ডেটা জেনারেশন প্রক্রিয়া" পরবর্তী গবেষণার জন্য সাধারণত একটি কম্পিউটারের সিউডো এলোমেলো নম্বর জেনারেটরের মাধ্যমে ডেটা তৈরির উপায়। বিশ্লেষণ সুস্পষ্টভাবে কিছু মডেল গ্রহণ করবে যা এই ডিজির গাণিতিক বৈশিষ্ট্যগুলি বর্ণনা করে।
পরিসংখ্যানগত বিশ্লেষণের প্রসঙ্গে আমরা বিশ্লেষণ করা হবে এমন পর্যবেক্ষণগুলি থেকে একটি বাস্তব-জগতের ঘটনাকে (ডিজিপি) আলাদা করতে চাইতে পারি। আমরা আশা করি আপনি মডেলের উভয় প্রপঞ্চ ও পর্যবেক্ষণের পাশাপাশি কিভাবে দুই সংযুক্ত আছেন জন্য একটি মডেল জন্য।
রিগ্রেশনে, তখন, ডিজিপি সাধারণত ডেটাগুলির সেট = ( এক্স 1 আই , এক্স 2 আই , … , এক্স পি আই , ওয়াই আই ) , i = 1 , 2 , … , এন কীভাবে বর্ণনা করবেন উত্পাদিত বলে ধরে নেওয়া হয়। উদাহরণস্বরূপ , এক্স জে আমি পরীক্ষক দ্বারা সেট করা যেতে পারে বা তারা কোনও উপায়ে পর্যবেক্ষণ করা যেতে পারে এবং তারপরে কারণ হিসাবে অনুমান করা যেতে পারে
ডিজিপি হলেন আসল মডেল। মডেলটি হ'ল আমরা আমাদের সেরা দক্ষতা ব্যবহার করে প্রকৃতির প্রকৃত অবস্থা উপস্থাপন করার চেষ্টা করেছি। ডিজিপি "শব্দ" দ্বারা প্রভাবিত হয়। গোলমাল বিভিন্ন ধরণের হতে পারে:
আপনি যদি এই 6 টি আইটেমের জন্য নিয়ন্ত্রণ না করেন তবে আপনার সত্যিকারের ডিজিপি শনাক্ত করার ক্ষমতা হ্রাস পাবে।
ভুবারের উত্তরটি দুর্দান্ত, তবে এই তথ্যের প্রতি জোর দেওয়া উচিত যে কোনও পরিসংখ্যানের মডেলটিকে ডেটা আনফেরেন্সিয়াল অন্বেষণের জন্য উপযুক্ত মডেল হওয়ার জন্য প্রতিটি ক্ষেত্রে ডেটা উত্পন্ন মডেলটির সাথে সাদৃশ্য থাকা প্রয়োজন না। লিউ এবং মেনগ তাদের সাম্প্রতিক আরক্সিয়েভড পেপারে ( http://arxiv.org/abs/1510.08539 ) খুব স্পষ্টতার সাথে সেই বিষয়টি ব্যাখ্যা করেছেন :
ভুল ধারণা 1. একটি সম্ভাব্যতা মডেল অবশ্যই ডেটা প্রজন্মের বর্ণনা দিতে হবে।
মডেলটির কাজের আরও যথাযথ বিবরণ (অনুমানের ভিত্তিতে) হ'ল "এই জাতীয় এবং এই জাতীয় সম্ভাবনামূলক প্যাটার্ন এমন ডেটা তৈরি করে যা আমাদের গুরুত্বপূর্ণ উপায়ে সাদৃশ্যপূর্ণ the" জীবনে ফিরে আসুন - একটি ক্যামেরা এবং প্রিন্টার বেশিরভাগ কারণে যথেষ্ট। অবশ্যই, দা ভিঞ্চির চিত্রকলা শৈলীর জ্ঞান আমাদের প্রতিরূপের মান উন্নত করবে, ঠিক তেমনি সত্য উপাত্ত তৈরির প্রক্রিয়া সম্পর্কে বৈজ্ঞানিক জ্ঞান আমাদের আরও অর্থবহ নিয়ন্ত্রণ নিয়ন্ত্রণ করতে সহায়তা করে। তবে অনিশ্চয়তার পরিমাণ নির্ধারণের উদ্দেশ্যে, আমাদের মডেলের কাজটি সাদৃশ্যযুক্ত নিয়ন্ত্রণের একটি সেট নির্দিষ্ট করা (ডি,)। কম্পিউটার পরীক্ষার সাথে জড়িত অ্যাপ্লিকেশনগুলির তুলনায় কোথাও এই বিষয়টি পরিষ্কার নয় যেখানে কোনও সম্ভাব্য (তবে অত্যন্ত জটিল) নির্জনবাদী প্যাটার্ন (কেনেডি এবং ওহাগান, 2001; কন্টি এট আল।, ২০০৯) অনুসরণ করে ডেটা বর্ণনা করতে একটি সম্ভাব্য প্যাটার্ন ব্যবহার করা হয়। আমাদের বর্ণনামূলক মডেল দরকার, জেনারেটরি মডেল প্রয়োজন হয় না। এই বিষয়ে আরও তথ্যের জন্য লেহম্যান (1990), ব্রেইম্যান (2001) এবং হ্যানসেন এবং ইউ (2001) দেখুন।
ডিজিপি হ'ল ভার্চুয়াল বাস্তবতা এবং অনুকরণের জন্য একটি অনন্য রেসিপি। কোনও মডেল হ'ল ডিজিপি বা সম্ভাব্য উপায়গুলির সংকলন যা ডেটা উত্পন্ন হতে পারে।
রাসেল ডেভিডসনের এই মিনি কোর্সের প্রথম পৃষ্ঠাটি পড়ুন:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf