রিগ্রেশন বিশ্লেষণে ডেটা-প্রজন্মের প্রক্রিয়া এবং মডেলের মধ্যে পার্থক্য কী?


19

রিগ্রেশন বিশ্লেষণে 'ডেটা জেনারেশন প্রক্রিয়া' এবং 'মডেল' এর মধ্যে পার্থক্য কী?


1
ডেটা জেনারেশন প্রক্রিয়াটি কখনই জানা যায় না, আমরা আশা করি মডেলটি বেছে নিই যে আমরা যথেষ্ট পরিমাণে ডেটা-প্রজন্মের প্রক্রিয়াটি অনুমান করি। এটি সম্ভাব্য উত্তরগুলির মধ্যে একটি, যদি আপনি আরও প্রসঙ্গ সরবরাহ করেন তবে এটি সহায়তা করবে, সুতরাং আপনি কী ধরণের উত্তর খুঁজছেন তা পরিষ্কার। চ্যাটটি দেখুন, বর্তমানে চলমান জার্নাল ক্লাবটি নিবন্ধটি নিয়ে আলোচনা করে যেখানে এই সমস্যাটি উত্থাপিত হয়েছে।
এমপিটকাস

3
এই প্রশ্নের উত্তরগুলি যেমন আলাদা হওয়া উচিত তেমনি তাদের হওয়া উচিত, কারণ "ডেটা তৈরির প্রক্রিয়া" এবং "মডেল" উভয়ই বিভিন্ন লেখক বিভিন্ন পদ্ধতিতে ব্যবহার করেন। @ ওয়েইজি, আপনার মনে কি কোনও বিশেষ রেফারেন্স আছে?
whuber

উত্তর:


15

"মডেল" এর অর্থ কী হতে পারে সে সম্পর্কে আমাদের সবার ধারণা রয়েছে, যদিও এর প্রযুক্তিগত সংজ্ঞাটি শাখাগুলির মধ্যে পৃথক হবে। ডিজিপির সাথে এটির তুলনা করার জন্য, গুগলিংয়ের "ডেটা জেনারেশন প্রক্রিয়া" শীর্ষ পাঁচটি হিট (একইরকম লেখকের সাথে দুটি হিট গণনা করা) দেখে আমি শুরু করেছিলাম।

  1. ইউএস এয়ার ফোর্স কীভাবে লজিস্টিক সাপোর্টে ডেটা তৈরি করে সে সম্পর্কে একটি কাগজ

  2. "সিমুলেশন মডেলগুলি" কম্পিউটারের মাধ্যমে কীভাবে "সিন্থেটিক মাইক্রোপপুলেশনগুলি" তৈরি করা হয় সে সম্পর্কিত পরিবেশ এবং পরিকল্পনায় প্রকাশিত একটি গবেষণাপত্রের অ্যাবস্ট্রাক্ট

  3. "সিনথেটিক ডেটা জেনারেশন" এর একটি ওয়েব পৃষ্ঠা ; এটি হ'ল সিমুলেশন "... মডেলের উপর নির্দিষ্ট ডেটা বৈশিষ্ট্যের প্রভাবগুলি অনুসন্ধান করতে।"

  4. ডেটা মাইনিংয়ের একটি সম্মেলনের কাগজটির বিমূর্ত বক্তব্য, "ডাটাবেসে থাকা ডেটা হ'ল একটি অন্তর্নিহিত ডেটা জেনারেশন প্রক্রিয়ার ফলাফল (ডিজিপি)"।

  5. একটি বইয়ের অধ্যায় যা আগ্রহের ডেটাগুলিকে বৈশিষ্ট্যযুক্ত করে "" অন্তর্নিহিত [স্টোকাস্টিক] প্রক্রিয়া ভি টি এর কিছু রূপান্তর থেকে উদ্ভূত ... কিছু বা সমস্ত [যাদের মধ্যে] সংরক্ষণ করা যায় না ... "WtVt

এই লিঙ্কগুলি "ডেটা উত্পন্নকরণ প্রক্রিয়া" শব্দটির তিনটি কিছু ভিন্ন তবে ঘনিষ্ঠভাবে সম্পর্কিত ব্যবহারগুলি প্রদর্শন করে। সাধারণটি স্ট্যাটিস্টিকাল সিমুলেশনের প্রসঙ্গে। অন্যরা প্রকৃত উপায়গুলি বোঝায় যার মাধ্যমে চলমান পরিস্থিতিতে (রসদ) ডেটা তৈরি করা হয় এবং চলমান উপাত্ত তৈরির প্রক্রিয়াটির জন্য সম্ভাব্যতা মডেলকে বোঝানো হয়, সরাসরি বিশ্লেষণ না করার উদ্দেশ্যে। শেষ ক্ষেত্রে পাঠ্যটি একটি অলক্ষণীয় স্টোকাস্টিক প্রক্রিয়াটিকে পৃথক করছে, যা তবুও বিশ্লেষণ করা হবে এমন প্রকৃত সংখ্যাগুলি থেকে গাণিতিকভাবে মডেল করা হয়েছে।

এগুলি দুটি সামান্য পৃথক উত্তর প্রযোজ্য:

  1. সিমুলেশন বা বিশ্লেষণের জন্য "সিন্থেটিক" ডেটা তৈরির প্রসঙ্গে, "ডেটা জেনারেশন প্রক্রিয়া" পরবর্তী গবেষণার জন্য সাধারণত একটি কম্পিউটারের সিউডো এলোমেলো নম্বর জেনারেটরের মাধ্যমে ডেটা তৈরির উপায়। বিশ্লেষণ সুস্পষ্টভাবে কিছু মডেল গ্রহণ করবে যা এই ডিজির গাণিতিক বৈশিষ্ট্যগুলি বর্ণনা করে।

  2. পরিসংখ্যানগত বিশ্লেষণের প্রসঙ্গে আমরা বিশ্লেষণ করা হবে এমন পর্যবেক্ষণগুলি থেকে একটি বাস্তব-জগতের ঘটনাকে (ডিজিপি) আলাদা করতে চাইতে পারি। আমরা আশা করি আপনি মডেলের উভয় প্রপঞ্চ ও পর্যবেক্ষণের পাশাপাশি কিভাবে দুই সংযুক্ত আছেন জন্য একটি মডেল জন্য।

রিগ্রেশনে, তখন, ডিজিপি সাধারণত ডেটাগুলির সেট = ( এক্স 1 আই , এক্স 2 আই , , এক্স পি আই , ওয়াই আই ) , i = 1 , 2 , , এন কীভাবে বর্ণনা করবেন উত্পাদিত বলে ধরে নেওয়া হয়। উদাহরণস্বরূপ , এক্স জে আমি পরীক্ষক দ্বারা সেট করা যেতে পারে বা তারা কোনও উপায়ে পর্যবেক্ষণ করা যেতে পারে এবং তারপরে কারণ হিসাবে অনুমান করা যেতে পারে(X,Y)i(X1i,X2i,,Xpi,Yi)i=1,2,,nXjiYiYiXβσ2βσ


আপনি "কারণ" বা "সম্পর্কিত" শব্দটি লিখেন। আমি এই সম্পর্কে একটি প্রশ্ন আছে। আপনার উত্তর থেকে মনে হচ্ছে ডিজিপি ধারণাটি কার্যকারণকে বোঝায় না। তবে এই "সম্পর্ক" পারস্পরিক সম্পর্ক (বা কোনও ধরণের সমিতি) এর চেয়েও বেশি কিছু বা না? এটি আমার সম্পর্কিত প্রশ্নটিও দেখুন: stats.stackexchange.com/questions/399671/…
মার্কোইজ

@ মার্কাভিটস "সহবাস", কঠোরভাবে বলতে গেলে, দ্বিবিড়ীয় র্যান্ডম ভেরিয়েবলের দ্বিতীয় মুহূর্তকে বোঝায়। আমি "পরিসংখ্যানগতভাবে স্বাধীন নয়" এর বৃহত্তর অর্থে "সম্পর্কিত" ব্যবহার করি use
whuber

আমি জানি, এবং ঠিক এই কারণে আমি "বা কোনও ধরণের [কেবলমাত্র পরিসংখ্যান] সমিতি" বলেছি। আমি কি আমার প্রশ্নটির পুনরাবৃত্তি করতে পারি: তবে এই "সম্পর্ক" কি সমিতির চেয়েও কিছু বেশি বা না? "সত্য মডেল" ধারণাটি থেকে শুরু করে কখনও কখনও ডিজিজের প্রতিশব্দ হিসাবে ব্যবহৃত হয়, এটি আরও কিছুটা মনে হয়। যদি তা হয় তবে আমি ঠিক বুঝতে পারি না এটি কী। আমার আগের লিঙ্কটি একটি উদাহরণ দেয়।
মার্কউইটস

@मार्কউইটজ আমি ভয় করি আপনি কী জিজ্ঞাসা করার চেষ্টা করছেন তা আমি বুঝতে পারি না। এটি হতে পারে কারণ "সম্পর্ক" বা "সংযুক্তি" দ্বারা আপনি ঠিক কী বোঝাতে চেয়েছেন তা আমি নিশ্চিত নই। আমি আপনার লিঙ্কটি দেখেছি, তবে অস্বাভাবিক ইংরেজী ব্যবহার আমার কাছে অর্থপূর্ণ কিছু বোঝায় না।
whuber

আমি আমার ইংরাজির জন্য দুঃখিত আমি লিঙ্কিত প্রশ্নটি পরিষ্কার অর্থে সংশোধন করার চেষ্টা করেছি। আমি আশা করি এটি বোধগম্য।
মার্কোইটজ

4

ডিজিপি হলেন আসল মডেল। মডেলটি হ'ল আমরা আমাদের সেরা দক্ষতা ব্যবহার করে প্রকৃতির প্রকৃত অবস্থা উপস্থাপন করার চেষ্টা করেছি। ডিজিপি "শব্দ" দ্বারা প্রভাবিত হয়। গোলমাল বিভিন্ন ধরণের হতে পারে:

  1. এক সময় হস্তক্ষেপ
  2. স্তর শিফট
  3. প্রবণতা
  4. .তু পরিবর্তন
  5. মডেল পরামিতি পরিবর্তন
  6. ভেরিয়েন্স পরিবর্তন

আপনি যদি এই 6 টি আইটেমের জন্য নিয়ন্ত্রণ না করেন তবে আপনার সত্যিকারের ডিজিপি শনাক্ত করার ক্ষমতা হ্রাস পাবে।


4

ভুবারের উত্তরটি দুর্দান্ত, তবে এই তথ্যের প্রতি জোর দেওয়া উচিত যে কোনও পরিসংখ্যানের মডেলটিকে ডেটা আনফেরেন্সিয়াল অন্বেষণের জন্য উপযুক্ত মডেল হওয়ার জন্য প্রতিটি ক্ষেত্রে ডেটা উত্পন্ন মডেলটির সাথে সাদৃশ্য থাকা প্রয়োজন না। লিউ এবং মেনগ তাদের সাম্প্রতিক আরক্সিয়েভড পেপারে ( http://arxiv.org/abs/1510.08539 ) খুব স্পষ্টতার সাথে সেই বিষয়টি ব্যাখ্যা করেছেন :

ভুল ধারণা 1. একটি সম্ভাব্যতা মডেল অবশ্যই ডেটা প্রজন্মের বর্ণনা দিতে হবে।

মডেলটির কাজের আরও যথাযথ বিবরণ (অনুমানের ভিত্তিতে) হ'ল "এই জাতীয় এবং এই জাতীয় সম্ভাবনামূলক প্যাটার্ন এমন ডেটা তৈরি করে যা আমাদের গুরুত্বপূর্ণ উপায়ে সাদৃশ্যপূর্ণ the" জীবনে ফিরে আসুন - একটি ক্যামেরা এবং প্রিন্টার বেশিরভাগ কারণে যথেষ্ট। অবশ্যই, দা ভিঞ্চির চিত্রকলা শৈলীর জ্ঞান আমাদের প্রতিরূপের মান উন্নত করবে, ঠিক তেমনি সত্য উপাত্ত তৈরির প্রক্রিয়া সম্পর্কে বৈজ্ঞানিক জ্ঞান আমাদের আরও অর্থবহ নিয়ন্ত্রণ নিয়ন্ত্রণ করতে সহায়তা করে। তবে অনিশ্চয়তার পরিমাণ নির্ধারণের উদ্দেশ্যে, আমাদের মডেলের কাজটি সাদৃশ্যযুক্ত নিয়ন্ত্রণের একটি সেট নির্দিষ্ট করা (ডি,θ)। কম্পিউটার পরীক্ষার সাথে জড়িত অ্যাপ্লিকেশনগুলির তুলনায় কোথাও এই বিষয়টি পরিষ্কার নয় যেখানে কোনও সম্ভাব্য (তবে অত্যন্ত জটিল) নির্জনবাদী প্যাটার্ন (কেনেডি এবং ওহাগান, 2001; কন্টি এট আল।, ২০০৯) অনুসরণ করে ডেটা বর্ণনা করতে একটি সম্ভাব্য প্যাটার্ন ব্যবহার করা হয়। আমাদের বর্ণনামূলক মডেল দরকার, জেনারেটরি মডেল প্রয়োজন হয় না। এই বিষয়ে আরও তথ্যের জন্য লেহম্যান (1990), ব্রেইম্যান (2001) এবং হ্যানসেন এবং ইউ (2001) দেখুন।


+1 টি। আমি বিশেষত ডেটা বর্ণনামূলক এবং জেনারেটাল মডেলগুলির মধ্যে পার্থক্য পছন্দ করি ।
হোবার

1

ডিজিপি হ'ল ভার্চুয়াল বাস্তবতা এবং অনুকরণের জন্য একটি অনন্য রেসিপি। কোনও মডেল হ'ল ডিজিপি বা সম্ভাব্য উপায়গুলির সংকলন যা ডেটা উত্পন্ন হতে পারে।

রাসেল ডেভিডসনের এই মিনি কোর্সের প্রথম পৃষ্ঠাটি পড়ুন:

http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.