পরিসংখ্যানের মডেলটি ঠিক কী তৈরি করছে?


15

পরিসংখ্যানের মডেলটি ঠিক কী তৈরি করছে?

এই দিনগুলিতে আমি যখন গবেষণা চাকরির জন্য বা পরামর্শমূলক কাজের জন্য আবেদন করছি, "মডেল তৈরি করা" বা "মডেলিং" শব্দটি প্রায়শই আসে। শব্দটি দুর্দান্ত শোনাচ্ছে, তবে তারা ঠিক কী উল্লেখ করছে? আপনি কিভাবে আপনি আপনার মডেল গড়ে তুলতে?

আমি ভবিষ্যদ্বাণীপূর্ণ মডেলিং সন্ধান করেছি , যার মধ্যে কে-এনএন এবং লজিস্টিক রিগ্রেশন রয়েছে।


1
এটি বেশ বিস্তৃত, এটি বিভিন্ন ধরণের মডেল - বিভিন্ন ধরণের রিগ্রেশন, মাল্টিলেভেল মডেল, গাছ এবং তাদের রূপগুলি, ক্লাস্টারিং ইত্যাদি উল্লেখ করতে পারে
পিটার ফ্লুম - মনিকা পুনরায় স্থাপন করুন

একটি পরিসংখ্যানগত মডেল একটি গাণিতিক মডেল হিসাবে একই, একটি পরিসংখ্যান মডেল ত্রুটির জন্য একটি পরিবর্তনশীল অ্যাকাউন্টিং আছে। গাণিতিক মডেল: ওজন = উচ্চতা * 2.7। পরিসংখ্যানের মডেল: ওজন = উচ্চতা * 2.7 + ত্রুটি।
নিল ম্যাকগুইগান

2
আমি এই কাগজটি উদ্ধৃত করতে চাই : পরিসংখ্যানের মডেলিং: দুটি সংস্কৃতি
13985

উত্তর:


12

আমি এটির জন্য একটি ক্র্যাক নেব যদিও আমি কোনও উপায়ে স্ট্যাটিস্টিশিয়ান নই তবে প্রচুর 'মডেলিং' করছি - পরিসংখ্যানগত এবং অ-পরিসংখ্যানগত।

প্রথমে বেসিকগুলি দিয়ে শুরু করা যাক:

একটি মডেল ঠিক কি?

একটি মডেল হ'ল বাস্তবের উপস্থাপনা যদিও অত্যন্ত সরলীকৃত হয়। কোনও বাড়ির জন্য একটি মোম / কাঠের 'মডেল' ভাবেন। আপনি এটি স্পর্শ / বোধ / গন্ধ করতে পারেন। এখন একটি গাণিতিক মডেল হ'ল সংখ্যা ব্যবহার করে বাস্তবতার প্রতিনিধিত্ব করে।

আপনি জিজ্ঞাসা এই 'বাস্তবতা' কি? ঠিক আছে. সুতরাং এই সাধারণ পরিস্থিতিটি ভেবে দেখুন: আপনার রাজ্যের গভর্নর একটি নীতি প্রয়োগ করেছেন যা বলেছিলেন যে এক প্যাকেটের সিগারেটের দাম এখন পরের বছর জন্য $ 100 ডলার লাগবে। 'লক্ষ্য' হ'ল লোকেরা সিগারেট কেনা থেকে ধূমপানকে হ্রাস করে যার ফলে ধূমপায়ীদের স্বাস্থ্যকর করে তোলা (কারণ তারা ছাড়তেন)।

1 বছর পরে রাজ্যপাল আপনাকে জিজ্ঞাসা করলেন - এটি কি সফল? এটা তুমি কিভাবে বলতে পার? ভাল আপনি / প্রতিদিন বা প্রতি বছর বিক্রি হওয়া প্যাকেটের সংখ্যা, সমীক্ষার প্রতিক্রিয়াগুলি, যে কোনও পরিমাপযোগ্য ডেটা এতে আপনার হাতটি পেতে পারেন তা সমস্যার সাথে প্রাসঙ্গিক capture আপনি সমস্যাটি সবেমাত্র মডেল করতে শুরু করেছেন। এখন আপনি বিশ্লেষণ করতে কি এই 'মডেল' চান বলে । সেইখানেই পরিসংখ্যানের মডেলিং কাজে আসে। মডেলটি 'দেখতে কেমন' তা দেখতে আপনি একটি সহজ সম্পর্ক / স্কেটার প্লট চালাতে পারেন। কার্যকারিতা নির্ধারণের জন্য আপনি অভিনবত্ব পেতে পারেন, যদি বাড়তি দাম ধূমপানকে হ্রাস করে বা অন্য কোনও বিভ্রান্তিকর কারণগুলি খেলায় আসে (যেমন, সম্ভবত এটি পুরোপুরি অন্য কিছু ছিল এবং আপনার মডেল সম্ভবত এটি মিস করেছেন?))

এখন, এই মডেলটি তৈরি করা হচ্ছে 'বিধিগুলির সেট' (আরও বেশি নির্দেশিকার মতো) অর্থাত্, আইনটি কী / কী নয় বা কী বোঝায় / তা বোঝায় না। আপনি কী করছেন এবং এই মডেলটির ফলাফলগুলি কীভাবে ব্যাখ্যা করবেন তা আপনার জানা উচিত।এই মডেলটি বিল্ডিং / এক্সিকিউটিং / ব্যাখ্যার জন্য পরিসংখ্যানের প্রাথমিক জ্ঞান প্রয়োজন। উপরের উদাহরণে আপনাকে পারস্পরিক সম্পর্ক / স্ক্যাটার প্লট, রিগ্রেশন (ইউনি এবং মাল্টিভারিয়েট) এবং অন্যান্য স্টাফ সম্পর্কে জানতে হবে। আমি পরিসংখ্যানকে স্বজ্ঞাতভাবে বোঝার বিষয়ে পরম মজা / তথ্যপূর্ণ পড়ার পরামর্শ দিচ্ছি: যাইহোক পি-ভ্যালু কী তা এটি পরিসংখ্যানের একটি হাস্যকর ভূমিকা এবং আপনাকে সহজ থেকে উন্নত (অর্থাৎ লিনিয়ার রিগ্রেশন) এর পথে 'মডেলিং' শেখাবে teach তারপরে আপনি গিয়ে অন্য জিনিসগুলি পড়তে পারেন।

সুতরাং, মনে রাখবেন একটি মডেল বাস্তবতার একটি উপস্থাপনা এবং যে "সকল মডেল ভুল কিন্তু কিছু অন্যদের তুলনায় বেশি উপযোগী" । একটি মডেল বাস্তবতার সরল উপস্থাপনা এবং আপনি সম্ভবত সবকিছু বিবেচনা করতে পারবেন না তবে আপনাকে অবশ্যই জেনে রাখা উচিত এবং কোন ভাল মডেল হিসাবে বিবেচনা করা উচিত নয় যা আপনাকে অর্থপূর্ণ ফলাফল দিতে পারে।

এখানেই থেমে নেই। আপনি বাস্তবের অনুকরণের জন্য মডেলগুলিও তৈরি করতে পারেন! সময়ের সাথে সাথে এই সংখ্যাগুলির একগুচ্ছ পরিবর্তন হবে (বলুন)। এই সংখ্যাগুলি আপনার ডোমেনে কিছু অর্থবহ ব্যাখ্যার মানচিত্র। আপনি এই মডেলগুলি তৈরি করতেও পারেন খনি কিভাবে বিভিন্ন পদক্ষেপ একে অপরের সাথে সম্পর্কযুক্ত (পরিসংখ্যান এখানে হয়তো সন্দেহজনক প্রয়োগের, কিন্তু এখন জন্য চিন্তা করো না) দেখতে আপনার ডেটা। উদাহরণ: আপনি প্রতি মাসে একটি দোকানে মুদি বিক্রয় তাকান এবং বুঝতে পারেন যে যখনই বিয়ার কিনে দেওয়া হয় তখন এটি একটি ডায়াপারের একটি প্যাক (আপনি এমন একটি মডেল তৈরি করেন যা ডেটা সেটের মধ্য দিয়ে চলে এবং আপনাকে এই সমিতি দেখায়)। এটি অদ্ভুত হতে পারে তবে এটি সূচিত হতে পারে যে বাচ্চারা যখন তাদের বাচ্চাদের বসে থাকে তখন বেশিরভাগ পিতারা সপ্তাহান্তে এটি কিনে থাকেন? বিয়ারের নিকটে ডায়াপার রাখুন এবং আপনার বিক্রয় বাড়তে পারে! Aaah! মডেলিং :)

এগুলি কেবল উদাহরণ এবং কোনও উপায়ে পেশাগত কাজের জন্য একটি রেফারেন্স নয়। আপনি মূলত বাস্তবতা কীভাবে কাজ করবে / কী করবে তা বুঝতে / অনুমান করার জন্য ফলাফলগুলি এবং ফলাফলগুলির উপর ভিত্তি করে আরও ভাল সিদ্ধান্ত নিতে মডেলগুলি তৈরি করেন। পরিসংখ্যান বা না, আপনি সম্ভবত এটি উপলব্ধি না করে আপনার সমস্ত জীবনকে মডেলিং করছেন। ভাগ্য সুপ্রসন্ন হোক :)


11

একটি পরিসংখ্যানগত মডেল তৈরির মধ্যে এমন কিছু বাস্তব-জগতের ঘটনার গাণিতিক বিবরণ তৈরি করা জড়িত যা সেই ব্যবস্থায় জড়িত অনিশ্চয়তা এবং / অথবা এলোমেলোতার জন্য দায়ী। প্রয়োগের ক্ষেত্রের উপর নির্ভর করে জটিল মাল্টিভারিয়েট ফ্যাক্টর বিশ্লেষণ বা ডেটা মাইনিংয়ের মাধ্যমে এটি লিনিয়ার রিগ্রেশন বা সাধারণ অনুমানের পরীক্ষার মতো সাধারণ কিছু হতে পারে।


5
আমি এটিকে উত্সাহিত করেছি কারণ এটি অত্যন্ত বিস্তৃত প্রশ্নের জবাব দেওয়ার এক সাহসী, মিতাময় প্রচেষ্টা। যদিও "ডেটা মাইনিং" কোনও পরিসংখ্যানের মডেলিংয়ের সাথে জড়িত কিনা তা নিয়ে আমার কিছু সন্দেহ রয়েছে এবং এই বাক্যাংশটি দ্বারা আপনি কী বোঝাতে চেয়েছেন তার উদাহরণ বা স্পষ্টতা দেখে প্রশংসা করব।
শুক্র

@ ভুবার লাসো বৈশিষ্ট্য নির্বাচন করে, তা কি কোনও অর্থে রিগ্রেশন মডেল তৈরি করছে না?
13985

অন্য কথায়, এটি কেবল কল্পিত ইট এবং মর্টার ব্যবহার করে বাড়ি তৈরি করার মতো? আমার গূঢ় মন্তব্য করা হয় অনর্থক বলেন। :)
গ্রিম ওয়ালশ

1
ডেটা মাইনিং কোনও প্রদত্ত মডেলটি নির্মাণ বা যাচাইকরণের প্রক্রিয়ার অংশ হিসাবে ব্যবহার করা যেতে পারে।
ডেভ

5

আমার কাছে মডেলিংয়ের মধ্যে অনুমানযোগ্য পরামিতিগুলির সাথে পর্যবেক্ষণ করা ডেটার জন্য একটি সম্ভাব্য কাঠামো নির্দিষ্ট করা জড়িত যা পর্যবেক্ষণযোগ্য ডেটা উপস্থিত থাকার সময় মূল্যবান পার্থক্যগুলি সনাক্ত করতে ব্যবহার করা যেতে পারে। এটিকে শক্তি বলা হয়। সম্ভাব্য মডেলগুলি পূর্বাভাস বা অনুমানের জন্য ব্যবহার করা যেতে পারে। এগুলি মেশিনারি ক্যালিব্রেট করতে, বিনিয়োগের বিনিময়ে ঘাটতি প্রদর্শন করতে, আবহাওয়া বা স্টককে পূর্বাভাস দেওয়ার জন্য বা চিকিত্সা সংক্রান্ত সিদ্ধান্ত গ্রহণকে সহজ করার জন্য ব্যবহার করা যেতে পারে।

একটি মডেল অগত্যা তৈরি করা প্রয়োজন হয় না। বিচ্ছিন্ন পরীক্ষায়, কেউ দুটি-গ্রুপের মধ্যে কোনও তাত্পর্যপূর্ণ পার্থক্য আছে কি না তা নির্ধারণের জন্য টি-টেস্টের মতো নন-প্যারাম্যাট্রিক মডেলিং পদ্ধতির ব্যবহার করতে পারে। যাইহোক, অনেক পূর্বাভাস উদ্দেশ্যে, সময় পরিবর্তনগুলি সনাক্ত করতে মডেলগুলি তৈরি করা যেতে পারে। উদাহরণস্বরূপ, ট্রানজিশন ভিত্তিক মার্কভ মডেলগুলি বিনিয়োগের জন্য বাজার মূল্যের উপরে ও ডাউন দোলগুলির পূর্বাভাস দেওয়ার জন্য ব্যবহার করা যেতে পারে, তবে "ডিপ" কতটা প্রত্যাশার চেয়ে খারাপ বলে বিবেচিত হতে পারে? Evidenceতিহাসিক প্রমাণ এবং পর্যবেক্ষিত ভবিষ্যদ্বাণী ব্যবহার করে, পর্যবেক্ষণ করা ডিপগুলি historতিহাসিকভাবে টিকিয়ে রাখা হয়েছে তাদের থেকে উল্লেখযোগ্যভাবে পৃথক কিনা তা পরীক্ষা করতে একটি পরিশীলিত মডেল তৈরি করতে পারে। নিয়ন্ত্রণ চার্ট, ক্রমবর্ধমান ঘটনা চার্ট, বেঁচে থাকার কার্ভ এবং অন্যান্য "সময় ভিত্তিক" চার্টগুলির মতো সরঞ্জামগুলি ব্যবহার করে এটি '

পর্যায়ক্রমে, কিছু মডেল ডেটা বাড়ার সাথে মানিয়ে নেওয়ার নমনীয়তা নিয়ে "নির্মিত" হয়। টুইটারের ট্রেন্ডিং সনাক্তকরণ এবং নেটফ্লিক্সের সুপারিশ সিস্টেম এই জাতীয় মডেলগুলির প্রধান উদাহরণ। তাদের একটি সাধারণ স্পেসিফিকেশন রয়েছে (পরবর্তীকালের জন্য বয়েসিয়ান মডেল অ্যাভারেজিং) যা একটি নমনীয় মডেলকে historicalতিহাসিক শিফট এবং প্রবণতাগুলিকে সামঞ্জস্য করতে এবং সেরা ভবিষ্যদ্বাণী বজায় রাখতে পুনরায় পুনরুদ্ধার করতে সহায়তা করে যেমন উচ্চ প্রভাবের ছায়াছবিগুলির প্রবর্তন, নতুন ব্যবহারকারীদের একটি বিশাল উত্সাহ, বা একটি seasonতুরতার কারণে চলচ্চিত্রের পছন্দের নাটকীয় শিফট।

ডেটা মাইনিংয়ের কিছু পদ্ধতির প্রচলন করা হয় কারণ তারা নির্দিষ্ট ধরণের ভবিষ্যদ্বাণী পদ্ধতির অর্জনে অত্যন্ত পারদর্শী (আবারও, "প্রত্যাশিত" প্রবণতা বা উপাত্তগুলিতে মান অর্জনের বিষয়টি)। কে-এনএন উচ্চ মাত্রিক তথ্য সংযুক্ত করার এবং অনুমান করার একটি উপায় যা বিষয়গুলি কেবল নৈকট্যের কারণে নির্ভরযোগ্য ভবিষ্যদ্বাণীগুলি গ্রহণ করতে পারে (বয়স, সংগীতের স্বাদ, যৌন ইতিহাস বা অন্য কোনও পরিমাপযোগ্য বৈশিষ্ট্য থেকে)। অন্যদিকে লজিস্টিক রিগ্রেশন বাইনারি ক্লাসিফায়ার অর্জন করতে পারে তবে বাইনারি ফলাফল এবং বৈষম্য অনুপাত নামে পরিচিত একটি প্যারামিটারের মাধ্যমে এক বা একাধিক এক্সপোজার এবং শর্তগুলির মধ্যে মেলামেশা সম্পর্কে ধারণা করা বেশি ব্যবহৃত হয়। সীমিত উপপাদ্য এবং সাধারণ রৈখিক মডেলগুলির সাথে এর সম্পর্কের কারণে, বৈষম্য অনুপাতগুলি অত্যন্ত নিয়মিত প্যারামিটারগুলির মধ্যে "অত্যন্ত সুরক্ষিত" টাইপ আই ত্রুটি থাকে (যেমন


আপনার কথার জন্য ধন্যবাদ. টুইটারের নেটফ্লিক্স সনাক্তকরণের ক্ষেত্রে, মেশিন লার্নিংয়ের ক্ষেত্রে এটি কম-বেশি নয় কি? আমি প্রায়শই মডেলিং এবং মেশিন শেখার মধ্যে লাইন আঁকতে পারি না can't
13985

1
মেশিন লার্নিং সাধারণত উচ্চ মাত্রিক মডেলিং হয়। অনেক পদ্ধতি হ'ল পেনাল্টি বা ওয়েট নিয়োগের সাথে বিদ্যমান সম্ভাবনা ভিত্তিক পদ্ধতির বিশেষ বিষয়।
অ্যাডামো

আমার চিন্তাভাবনাকে বৈধতা দেওয়ার জন্য ধন্যবাদ, আপনি যদি অন্য কিছু করতে চান তবে আমাকে জানান।
13985

3

মডেলিং হ'ল একটি উপযুক্ত মডেল সনাক্ত করার প্রক্রিয়া।

প্রায়শই একজন মডেলারের কাছে গুরুত্বপূর্ণ পরিবর্তনশীলগুলির একটি ভাল ধারণা থাকবে এবং সম্ভবত কোনও নির্দিষ্ট মডেলের জন্য একটি তাত্ত্বিক ভিত্তিও রয়েছে। তারা ভবিষ্যদ্বাণীকারীদের সাথে প্রতিক্রিয়া এবং সাধারণ ধরণের সম্পর্ক সম্পর্কেও কিছু তথ্য জানতে পারবে তবে তারা এখনও নিশ্চিত হতে পারে না যে কোনও মডেল সম্পর্কে তাদের সাধারণ ধারণাটি যথেষ্ট পর্যাপ্ত - এমনকি কীভাবে কীভাবে কাজ করা উচিত তা সম্পর্কে একটি দুর্দান্ত তাত্ত্বিক ধারণা রয়েছে, তারা উদাহরণস্বরূপ, আত্মবিশ্বাসী হতে পারে না যে বৈকল্পিক গড়ের সাথে সম্পর্কিত নয়, বা তারা সন্দেহ করতে পারে কিছু সিরিয়াল নির্ভরতা সম্ভব হতে পারে।

সুতরাং মডেল সনাক্তকরণের বিভিন্ন পর্যায়ে একটি চক্র থাকতে পারে যা তথ্যকে (কমপক্ষে কয়েকটি) রেফারেন্স দেয়। বিকল্পটি হ'ল নিয়মিত যথেষ্ট অনুপযুক্ত মডেল থাকা ঝুঁকিপূর্ণ।

(অবশ্যই, যদি তারা দায়বদ্ধ হয়ে থাকে তবে তাদের অবশ্যই ডেটা ব্যবহার করে কীভাবে তাদের তথ্যকে প্রভাবিত করে সে সম্পর্কে তাদের অবশ্যই অ্যাকাউন্ট নিতে হবে।)

আসল প্রক্রিয়াটি অঞ্চল থেকে একেক জায়গায় এবং ব্যক্তি থেকে একেকরকম পরিবর্তিত হয়, তবে কিছু লোক তাদের প্রক্রিয়াটিতে স্পষ্টভাবে পদক্ষেপের তালিকা খুঁজে পাওয়া সম্ভব (যেমন বক্স এবং জেনকিন্স তাদের বইয়ের সময় সিরিজের অনুরূপ একটি পদ্ধতির রূপরেখা )। মডেল সনাক্তকরণ কীভাবে করা যায় সে সম্পর্কে ধারণাগুলি over


0

আমি মনে করি না যে একটি পরিসংখ্যানগত মডেল গঠন করে তার একটি সাধারণ সংজ্ঞা আছে। ইন্ডাস্ট্রিতে আমার অভিজ্ঞতা থেকে মনে হয় একনোমেট্রিক্সে যা হ্রাসকৃত ফর্ম মডেল বলা হয়ে থাকে তার সমার্থক শব্দ । আমি ব্যাখ্যা করবো.

F=md2xdt2

এই মডেলটিতে পদার্থবিজ্ঞানীরা "ধ্রুবক" বা "কোফাইসিটিয়েন্টস" বলতে পারেন, যেমন একটি নির্দিষ্ট তাপমাত্রা এবং উচ্চতায় একটি বায়ু ঘনত্ব। পরীক্ষামূলকভাবে এই সহগগুলি কী কী তা আপনাকে খুঁজে বের করতে হবে। আমাদের ক্ষেত্রে আমাদের কাছে কামান, তাপমাত্রা ইত্যাদির মতো কঠোরভাবে নিয়ন্ত্রিত অবস্থার অধীনে কামান গুলি চালাতে আর্টিলারিদের জিজ্ঞাসা করা হবে

আমরা সমস্ত ডেটা সংগ্রহ করি এবং পরিসংখ্যান কৌশলগুলি ব্যবহার করে মডেলটিকে ফিট করি। এটি লিনিয়ার রিগ্রেশন বা গড় হিসাবে সাধারণ হতে পারে। একবার সমস্ত সহগুণ পাওয়া গেল, এখন আমরা অগ্নিনির্বাপক টেবিলগুলি তৈরি করতে আমাদের গাণিতিক মডেলটি চালাই। এটি এখানে শ্রেণিবদ্ধ নথিতে খুব সুন্দরভাবে বর্ণিত হয়েছে , "ক্যানন আর্টিলারি ফায়ারিংয়ের টেবিলে উত্পাদন" নামে পরিচিত।

আমি যা বর্ণনা করেছি তা তা নয় কোনও পরিসংখ্যানের মডেল নয়। হ্যাঁ, এটি পরিসংখ্যান ব্যবহার করে না, তবে এই মডেলটি পদার্থবিজ্ঞানের আইন প্রতিষ্ঠিত করে, যা এই মডেলের মূল উপাদান। এখানে কয়েকটি গুরুত্বপূর্ণ পরামিতির মান নির্ধারণের জন্য পরিসংখ্যান একটি নিখুঁত সরঞ্জাম। সিস্টেমের গতিশীলতা ক্ষেত্র দ্বারা বর্ণিত এবং পূর্ব নির্ধারিত।

ধরা যাক, আমরা পদার্থবিজ্ঞানের আইনগুলি জানতাম না বা যত্ন করিনি, এবং কেবল একটি "পরিসংখ্যানের মডেল" ব্যবহার করে কামানের উড়ানের দূরত্ব এবং ফায়ারিং এঙ্গেল এবং তাপমাত্রার মতো পরামিতিগুলির মধ্যে সম্পর্ক স্থাপনের চেষ্টা করেছি। আমরা প্রার্থী ভেরিয়েবল, বা বৈশিষ্ট্য এবং ভেরিয়েবলের রূপান্তর, সম্ভবত তাপমাত্রার বহুপদী সিরিজ ইত্যাদির একটি বৃহত ডেটা সেট তৈরি করতে চাই Then তারপরে আমরা বিভিন্ন ধরণের রেজিস্ট্রেশন চালাতে চাই এবং সহগফলকে চিহ্নিত করব। এই সহগগুলি অগত্যা ক্ষেত্রে বিশ্লেষণ প্রতিষ্ঠা করতে পারে না। আমরা তাদেরকে তাপমাত্রার বর্গক্ষেত্রে সংবেদনশীলতা বলব This এই মডেলটি আসলে কামানের বলগুলির শেষ পয়েন্টগুলি পূর্বাভাস দেওয়ার ক্ষেত্রে বেশ ভাল হতে পারে কারণ অন্তর্নিহিত প্রক্রিয়াটি বেশ স্থিতিশীল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.