ডেটা মাইনিংয়ের মতো পরিসংখ্যানগুলিতে, আপনি ডেটা এবং একটি লক্ষ্য দিয়ে শুরু করেন। পরিসংখ্যানগুলিতে অনুমানের দিকে অনেকটা ফোকাস রয়েছে, তা হল, একটি নমুনা ব্যবহার করে জনসংখ্যা-স্তরের প্রশ্নের উত্তর দেওয়া। ডেটা মাইনিংয়ে ফোকাসটি সাধারণত অনুমান হয়: পরীক্ষার ডেটা পূর্বাভাস দেওয়ার জন্য আপনি আপনার নমুনা (প্রশিক্ষণ ডেটা) থেকে একটি মডেল তৈরি করেন।
পরিসংখ্যানের প্রক্রিয়াটি তখন:
সংক্ষিপ্তসারগুলি এবং গ্রাফগুলি ব্যবহার করে ডেটা অন্বেষণ করুন - কীভাবে পরিসংখ্যানবিদরা ডেটা চালিত তার উপর নির্ভর করে কেউ কেউ আরও কোণঠাসা হয়ে সমস্ত কোণ থেকে ডেটা দেখবেন, অন্যরা (বিশেষত সমাজবিজ্ঞানীরা) লেন্সের মাধ্যমে ডেটাটি দেখবেন সুদের প্রশ্ন (যেমন প্লট বিশেষত সুদের পরিবর্তনশীল এবং অন্যদের নয়)
একটি উপযুক্ত পরিসংখ্যান মডেল পরিবার চয়ন করুন (উদাহরণস্বরূপ, অবিচ্ছিন্ন Y এর জন্য লিনিয়ার রিগ্রেশন, বাইনারি ওয়াইয়ের জন্য লজিস্টিক রিগ্রেশন বা গণনা ডেটার জন্য পোইসন) নির্বাচন করুন এবং মডেল নির্বাচন করুন
চূড়ান্ত মডেলটি অনুমান করুন
তারা যুক্তিসঙ্গতভাবে পূরণ হয়েছে তা নিশ্চিত করার জন্য পরীক্ষার মডেল অনুমানগুলি (ডেটা মাইনিংয়ের ভবিষ্যদ্বাণীমূলক নির্ভুলতার জন্য পরীক্ষার চেয়ে পৃথক)
অনুমানের জন্য মডেলটি ব্যবহার করুন - এটি মূল পদক্ষেপ যা ডেটা মাইনিং থেকে পৃথক। "পি-মান" শব্দটি এখানে পৌঁছেছে ...
যেকোন মৌলিক পরিসংখ্যান পাঠ্যপুস্তকটি একবার দেখুন এবং আপনি এক্সপ্লোরার ডেটা অ্যানালাইসিসের একটি অধ্যায় পাবেন যার পরে কিছু বিতরণ হবে (এটি যুক্তিসঙ্গত সন্নিকটে মডেলগুলি বেছে নিতে সহায়তা করবে), তারপরে অনুমান (আত্মবিশ্বাসের ব্যবধান এবং হাইপোথিসিস পরীক্ষা) এবং রিগ্রেশন মডেলগুলি।
আমি আপনাকে ক্লাসিক পরিসংখ্যান প্রক্রিয়া বর্ণনা করেছি। তবে এটি নিয়ে আমার অনেক সমস্যা রয়েছে। অনুমানের উপর ফোকাস সম্পূর্ণরূপে ক্ষেত্রগুলিতে প্রাধান্য পেয়েছে, যখন পূর্বাভাস (যা অত্যন্ত গুরুত্বপূর্ণ এবং দরকারী) প্রায় অবহেলিত। তদ্ব্যতীত, যদি আপনি বিজ্ঞানীরা কীভাবে পরিসংখ্যানের জন্য পরিসংখ্যান ব্যবহার করেন তবে আপনি দেখতে পাবেন যে তারা এটিকে একেবারেই অন্যরকম ব্যবহার করে! আপনি এখানে এই সম্পর্কে আরও চেক করতে পারেন