স্ট্যাটিস্টিকাল মডেলিং দিয়ে শুরু করার টিপস এবং কৌশল?


10

আমি ডেটা মাইনিংয়ের ক্ষেত্রে কাজ করি এবং পরিসংখ্যানগুলিতে খুব কম ফর্মাল স্কুলিং করেছি। ইদানীং আমি প্রচুর কাজ পড়ছি যা শেখার এবং খনির জন্য বায়সীয় দৃষ্টান্তগুলিতে আলোকপাত করে যা আমি খুব আকর্ষণীয় বলে মনে করি।

আমার প্রশ্নটি (বেশ কয়েকটি অংশে), কোনও সমস্যা দেওয়া আছে এমন কোনও সাধারণ কাঠামো রয়েছে যার দ্বারা একটি পরিসংখ্যানের মডেল তৈরি করা সম্ভব? আপনি অন্তর্নিহিত প্রক্রিয়াটির মডেল করতে চান এমন কোনও ডেটাসেট দেওয়ার সময় আপনি প্রথম জিনিসগুলি কী করেন? এখানে কি ভাল বই / টিউটোরিয়াল রয়েছে যা এই প্রক্রিয়াটি ব্যাখ্যা করে বা এটি কোনও অভিজ্ঞতার বিষয়? আপনার মডেলটি তৈরি করার সময় আপনার মনের সামনে যদি অনুমান হয় বা ডেটা কীভাবে এটি ব্যবহার করা যায় তা চিন্তা করার আগে আপনি প্রথমে বর্ণনা করার লক্ষ্য রেখেছেন?

কোন অন্তর্দৃষ্টি ব্যাপকভাবে প্রশংসা হবে! ধন্যবাদ।


4
হাই নিক - সিভিতে আপনাকে স্বাগতম। আপনার প্রশ্ন খুব বিস্তৃত; আপনি যদি এটি ছোট প্রশ্নগুলিতে বিভক্ত করেন (এবং একবার আপনি এটি করেন, আপনি দেখতে পাবেন যে এর মধ্যে কয়েকটি ইতিমধ্যে এখানে উত্তর দেওয়া হয়েছে) আপনার ভাল ভাগ্য ভাল উত্তর পেতে পারে। কমপক্ষে, আপনার প্রশ্নটি "সম্প্রদায় উইকি" হিসাবে চিহ্নিত করা উচিত। এর মূল অর্থ হ'ল এখানে প্রতিযোগিতামূলক উত্তরগুলির বিন্যাসের পরিবর্তে সামগ্রিকভাবে সমস্ত উত্তর উত্তর হিসাবে বিবেচিত হবে।
ম্যাট পার্কার

1
@ ম্যাট সিডব্লিউ চেক-বাক্স আর কোনও প্রশ্নের জন্য উপস্থিত হবে না। একটি মোডকে প্রয়োজন হিসাবে প্রশ্নকে সিডাব্লু হিসাবে চিহ্নিত করতে হবে।

@ নিক..আমিও নতুন। আমি মনে করি একটি সাধারণ জিনিস এবং সর্বাগ্রে যে জিনিসটি রাখা উচিত তা হ'ল আপনি কীভাবে আপনার আউটপুট ভেরিয়েবলটি বর্ণনা করতে চান .. এটি ক্রমাগত, এটি বাইনারি কি? কারণ দিনের শেষে আপনি একটি আউটপুট ভেরিয়েবল পর্যবেক্ষণ / মডেল করতে চান। পরবর্তী জিনিসটি আমি ভাবব যে প্রয়োজনীয় পরিবর্তনগুলি মডেল করার কী কী উপায় রয়েছে ... তবে যে পরিবর্তনগুলি আসবে তা হ'ল যদি ভেরিয়েবলটি দ্বৈত হয় তবে পদ্ধতিটি লজিট মডেল হয় ... পরবর্তী বিবেচনাটি তখন ডেটা, তার কৌতুকপূর্ণ এবং বিভিন্ন ইস্যুগুলির একটির মুখোমুখি..এটি বোঝা যায়।
আয়ুষ বিয়ানি

উত্তর:


6

ডেটা মাইনিংয়ের মতো পরিসংখ্যানগুলিতে, আপনি ডেটা এবং একটি লক্ষ্য দিয়ে শুরু করেন। পরিসংখ্যানগুলিতে অনুমানের দিকে অনেকটা ফোকাস রয়েছে, তা হল, একটি নমুনা ব্যবহার করে জনসংখ্যা-স্তরের প্রশ্নের উত্তর দেওয়া। ডেটা মাইনিংয়ে ফোকাসটি সাধারণত অনুমান হয়: পরীক্ষার ডেটা পূর্বাভাস দেওয়ার জন্য আপনি আপনার নমুনা (প্রশিক্ষণ ডেটা) থেকে একটি মডেল তৈরি করেন।

পরিসংখ্যানের প্রক্রিয়াটি তখন:

  1. সংক্ষিপ্তসারগুলি এবং গ্রাফগুলি ব্যবহার করে ডেটা অন্বেষণ করুন - কীভাবে পরিসংখ্যানবিদরা ডেটা চালিত তার উপর নির্ভর করে কেউ কেউ আরও কোণঠাসা হয়ে সমস্ত কোণ থেকে ডেটা দেখবেন, অন্যরা (বিশেষত সমাজবিজ্ঞানীরা) লেন্সের মাধ্যমে ডেটাটি দেখবেন সুদের প্রশ্ন (যেমন প্লট বিশেষত সুদের পরিবর্তনশীল এবং অন্যদের নয়)

    1. একটি উপযুক্ত পরিসংখ্যান মডেল পরিবার চয়ন করুন (উদাহরণস্বরূপ, অবিচ্ছিন্ন Y এর জন্য লিনিয়ার রিগ্রেশন, বাইনারি ওয়াইয়ের জন্য লজিস্টিক রিগ্রেশন বা গণনা ডেটার জন্য পোইসন) নির্বাচন করুন এবং মডেল নির্বাচন করুন

    2. চূড়ান্ত মডেলটি অনুমান করুন

    3. তারা যুক্তিসঙ্গতভাবে পূরণ হয়েছে তা নিশ্চিত করার জন্য পরীক্ষার মডেল অনুমানগুলি (ডেটা মাইনিংয়ের ভবিষ্যদ্বাণীমূলক নির্ভুলতার জন্য পরীক্ষার চেয়ে পৃথক)

    4. অনুমানের জন্য মডেলটি ব্যবহার করুন - এটি মূল পদক্ষেপ যা ডেটা মাইনিং থেকে পৃথক। "পি-মান" শব্দটি এখানে পৌঁছেছে ...

যেকোন মৌলিক পরিসংখ্যান পাঠ্যপুস্তকটি একবার দেখুন এবং আপনি এক্সপ্লোরার ডেটা অ্যানালাইসিসের একটি অধ্যায় পাবেন যার পরে কিছু বিতরণ হবে (এটি যুক্তিসঙ্গত সন্নিকটে মডেলগুলি বেছে নিতে সহায়তা করবে), তারপরে অনুমান (আত্মবিশ্বাসের ব্যবধান এবং হাইপোথিসিস পরীক্ষা) এবং রিগ্রেশন মডেলগুলি।

আমি আপনাকে ক্লাসিক পরিসংখ্যান প্রক্রিয়া বর্ণনা করেছি। তবে এটি নিয়ে আমার অনেক সমস্যা রয়েছে। অনুমানের উপর ফোকাস সম্পূর্ণরূপে ক্ষেত্রগুলিতে প্রাধান্য পেয়েছে, যখন পূর্বাভাস (যা অত্যন্ত গুরুত্বপূর্ণ এবং দরকারী) প্রায় অবহেলিত। তদ্ব্যতীত, যদি আপনি বিজ্ঞানীরা কীভাবে পরিসংখ্যানের জন্য পরিসংখ্যান ব্যবহার করেন তবে আপনি দেখতে পাবেন যে তারা এটিকে একেবারেই অন্যরকম ব্যবহার করে! আপনি এখানে এই সম্পর্কে আরও চেক করতে পারেন


2

বই যতদূর যায়, হাস্টি, তিবশিরানী এবং ফ্রেডম্যানের "স্ট্যাটাসটিকাল লার্নিং এর উপাদানগুলি" খুব ভাল।

পুরো বইটি লেখকদের ওয়েবসাইটে পাওয়া যায় ; এটি আপনার প্রয়োজনের জন্য আদৌ উপযুক্ত কিনা তা দেখার জন্য আপনি একবার নজর করতে পারেন।


2

(অন-লাইন) রেফারেন্স হিসাবে, আমি স্ট্যাটিস্টিকাল ডেটা মাইনিংয়ের অ্যান্ড্রু মুরের টিউটোরিয়াল স্লাইডগুলি দেখার পরামর্শ দেব ।

ডেটা মাইনিং এবং মেশিন লার্নিংয়ের উপর অনেকগুলি পাঠ্যপুস্তক রয়েছে; হতে পারে একটি ভাল সূচনা পয়েন্ট হ্যান্ড এট আল। দ্বারা ডেটা মাইনিংয়ের সূত্র, এবং আলপেইদিনের দ্বারা পরিচিত মেশিন লার্নিং


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.