"আধুনিক" পরিসংখ্যানগুলির জন্য থাম্বের বিধি


85

ফিলিপ আই গুড এবং জেমস ডব্লিউ হার্ডিনের স্ট্যাটিস্টিকালাল বিধি সম্পর্কে জি ভ্যান বেলের বই এবং কিছুটা হলেও পরিসংখ্যানের সাধারণ ত্রুটিগুলি (এবং কীভাবে তাদের এড়ানো উচিত) পছন্দ করি। পরীক্ষামূলক এবং পর্যবেক্ষণমূলক গবেষণার ফলাফলগুলির ব্যাখ্যা করার সময় এবং পরিসংখ্যানগত অনুমান, বা অনুসন্ধানের ডেটা বিশ্লেষণের জন্য ব্যবহারিক প্রস্তাবনা সরবরাহ করার সময় এগুলি সাধারণ সমস্যাগুলি সমাধান করে। তবে আমি অনুভব করি যে "আধুনিক" নির্দেশিকা কিছুটা কম রয়েছে, বিশেষত বিভিন্ন ক্ষেত্রে গণনামূলক এবং শক্তিশালী পরিসংখ্যানের ক্রমবর্ধমান ব্যবহারের সাথে, বা মেশিন লার্নিং সম্প্রদায়ের কৌশলগুলি প্রবর্তন যেমন, ক্লিনিকাল বায়োস্টাটিক্স বা জেনেটিক এপিডেমিওলজি।

গণ্য কৌশল বা ডেটা ভিজ্যুয়ালাইজেশনের সাধারণ সমস্যাগুলি ছাড়াও যা অন্য কোথাও সম্বোধন করা যেতে পারে, আমি জিজ্ঞাসা করতে চাই: দক্ষ ডেটা বিশ্লেষণের জন্য আপনি থাম্বের শীর্ষ নিয়মগুলি কী সুপারিশ করবেন? ( দয়া করে উত্তর প্রতি একটি নিয়ম )।

আমি সেই নির্দেশিকাগুলি নিয়ে ভাবছি যা আপনি কোনও সহকর্মীকে, পরিসংখ্যানের মডেলিংয়ের দৃ background় ব্যাকগ্রাউন্ড ব্যতীত একজন গবেষককে বা মধ্যবর্তী থেকে উন্নত কোর্সের কোনও শিক্ষার্থীকে সরবরাহ করতে পারেন। এটি ডেটা বিশ্লেষণের বিভিন্ন পর্যায়ে সম্পর্কিত হতে পারে, যেমন স্যাম্পলিং কৌশল, বৈশিষ্ট্য নির্বাচন বা মডেল বিল্ডিং, মডেল তুলনা, প্রাক-প্রাক্কলন ইত্যাদি etc.

উত্তর:


62

বিশ্লেষণ শুরু করার আগে কিছু প্রাথমিক তথ্য পরীক্ষা করতে ভুলবেন না do বিশেষত, আইডি নম্বর, তারিখ / ডেটা সংগ্রহের সময় বা অনুরূপটির বিপরীতে বিশ্লেষণের উদ্দেশ্যে আপনার প্রতিটি ভেরিয়েবলের একটি বিক্ষিপ্ত প্লটটি দেখুন। সংক্ষিপ্ত পরিসংখ্যান অস্বাভাবিক কিছু না দেখায় চোখ প্রায়শই এমন নিদর্শনগুলি বেছে নিতে পারে যা সমস্যাগুলি প্রকাশ করে। এবং যদি আপনি বিশ্লেষণের জন্য কোনও লগ বা অন্যান্য রূপান্তর ব্যবহার করতে চলেছেন তবে এটি প্লটের জন্যও ব্যবহার করুন।


6
আমি এই কঠিন উপায় শিখেছি। দুবার।
onestop

2
হ্যাঁ! ভেবে কাজ কর. দয়া করে তথ্যটি দেখুন।
vqv

7
তথ্য চাক্ষুষ পরিদর্শন করতে টাইপ আমি ভুল ফোলান যদি সিদ্ধান্ত পোস্ট-হক তৈরি করা হয়। আমি পূর্বনির্ধারিত হিসাবে নিশ্চিতকরণমূলক বিশ্লেষণ চালানোর প্রবণতা রাখি এবং অনুসন্ধান বা সংবেদনশীলতা বিশ্লেষণ হিসাবে পরিদর্শন দ্বারা প্রভাবিত হওয়া ফলাফলগুলি অন্তর্ভুক্ত করি।
অ্যাডমো

51

আপনার বিশ্লেষণ পুনরুত্পাদনযোগ্য রাখুন। একজন পর্যালোচক বা আপনার বস বা অন্য কেউ আপনাকে শেষ পর্যন্ত জিজ্ঞাসা করবে আপনি ঠিক কীভাবে এসেছেন - আপনি সম্ভবত বিশ্লেষণ করার ছয় মাস বা তারও বেশি পরে। আপনি কীভাবে ডেটা পরিষ্কার করেছেন, কী বিশ্লেষণ করেছেন, আপনি যে নির্দিষ্ট মডেলটি ব্যবহার করেছেন তা কেন বেছে নিয়েছেন তা আপনি মনে করতে পারবেন না ... এবং এই সমস্তটির পুনর্গঠন করা একটি ব্যথা।

পরিণতি: কোনও ধরণের স্ক্রিপ্টিং ভাষা ব্যবহার করুন, আপনার বিশ্লেষণের স্ক্রিপ্টগুলিতে মন্তব্য করুন এবং সেগুলি রাখুন। আপনি যা ব্যবহার করেন (আর, এসএএস, স্টাতা, যাই হোক না কেন) সম্পূর্ণ প্রজননযোগ্য স্ক্রিপ্টের চেয়ে কম গুরুত্বপূর্ণ। পরিবেশটি প্রত্যাখ্যান করুন যেখানে এটি অসম্ভব বা বিশ্রী।


24
আপনি যদি আর ব্যবহার করতে চলেছেন তবে আমি আপনার আর কোডটি একটি সোয়েভ ডকুমেন্টে এম্বেড করার প্রস্তাব দিচ্ছি যা আপনার প্রতিবেদন তৈরি করে। এইভাবে আর কোডটি প্রতিবেদনের সাথে থাকে।
জন ডি কুক

36

বিনামুল্যে দু্পুরের খাবার নাই

পরিসংখ্যান ব্যর্থতার একটি বিশাল অংশটি লুকানো অনুমানের বোঝা বিবেচনায় না নিয়েই "ক্যালকুলেট তাত্পর্য" নামে একটি বড় চকচকে বোতামটি ক্লিক করে তৈরি করা হয়।

পুনরাবৃত্তি

এমনকি যদি একটি এলোমেলো জেনারেটরের একটি কলও জড়িত থাকে তবে কারও ভাগ্য বা দুর্ভাগ্য থাকতে পারে এবং তাই ভুল সিদ্ধান্তে ঝাঁপিয়ে পড়ে।


29

উত্তর প্রতি একটি নিয়ম ;-)

গবেষণা চালানোর আগে পরিসংখ্যানবিদদের সাথে কথা বলুন । সম্ভব হলে অনুদানের জন্য আবেদন করার আগে। আপনি অধ্যয়নরত সমস্যাটি বুঝতে তাকে / তাকে সহায়তা করুন, আপনি যে তথ্য সংগ্রহ করতে চলেছেন তা কীভাবে বিশ্লেষণ করতে পারেন এবং আপনার অধ্যয়নের নকশা এবং ডেটা প্রয়োজনীয়তার জন্য কী তা বোঝায় সে সম্পর্কে তার ইনপুটটি পান। সম্ভবত পরিসংখ্যানের লোকটি / গাল রোগীদের কে নির্ণয় করেছে তার জন্য অ্যাকাউন্ট করার জন্য একটি হায়ারারিকিকাল মডেল করার পরামর্শ দেয় - তবে আপনাকে কে নির্ণয় করেছে তা ট্র্যাক করতে হবে। তুচ্ছ মনে হচ্ছে, তবে আপনি ডেটা সংগ্রহ করার আগে (এবং গুরুত্বপূর্ণ কিছু সংগ্রহ করতে ব্যর্থ হন) এর চেয়ে এটি সম্পর্কে চিন্তা করা আরও ভাল।

সম্পর্কিত নোটে: শুরু করার আগে একটি পাওয়ার বিশ্লেষণ করুন। কিছুই যথেষ্ট বড় নমুনা আকার বাজেট না হিসাবে হতাশা। আপনি কোন প্রভাব আকারের প্রত্যাশা করছেন সে সম্পর্কে ভেবে, প্রকাশনার পক্ষপাতিত্ব মনে রাখবেন - আপনি যে প্রভাবের আকারটি সন্ধান করতে যাচ্ছেন সম্ভবত (পক্ষপাতিক) সাহিত্যের চেয়ে আপনি যেটি প্রত্যাশা করেছিলেন তার চেয়ে কম হবে।


28

আমি আমার ছাত্রদের একটি কথা বলি তা হল প্রতিটি পি-মানের জন্য উপযুক্ত গ্রাফ তৈরি করা। উদাহরণস্বরূপ, তারা যদি পারস্পরিক সম্পর্ক পরীক্ষা করে তবে স্ক্র্যাপরপ্লট, পাশাপাশি যদি তারা একমুখী আনোভা করেন তবে বক্সপ্লটগুলি পাশাপাশি test


28

আপনি যদি নিজের ডেটা বিশ্লেষণের দুটি পদ্ধতির মধ্যে সিদ্ধান্ত নিচ্ছেন তবে উভয় উপায়ে চেষ্টা করে দেখুন এবং এটি কোনও পার্থক্য করে কিনা।

এটি অনেক প্রসঙ্গে উপযোগী:

  • রূপান্তর করা বা রূপান্তর না করা
  • নন-প্যারামেট্রিক বা প্যারামিটারিক পরীক্ষা
  • স্পিয়ারম্যান বা পিয়ারসনের পারস্পরিক সম্পর্ক
  • পিসিএ বা ফ্যাক্টর বিশ্লেষণ
  • পাটিগণিত গড় বা গড়ের একটি শক্তিশালী অনুমান ব্যবহার করা যায়
  • কোনও কোভারিয়েট অন্তর্ভুক্ত করা যায় কিনা
  • তালিকা-অনুসারে মুছে ফেলা, জোড়-ভিত্তিক মুছে ফেলা, অভিশাপ, বা অনুপস্থিত মানগুলির প্রতিস্থাপনের অন্য কোনও পদ্ধতি ব্যবহার করা উচিত

এটি ইস্যুটির মাধ্যমে চিন্তাভাবনা থেকে বিচ্যুত হওয়া উচিত নয়, তবে এটি কমপক্ষে এমন একটি ডিগ্রির অনুভূতি দেয় যা সংক্ষিপ্ত অনুসন্ধানগুলি পছন্দের পক্ষে দৃ rob়।


4
এটা কি কোটেশন? আমি কেবল ভাবছি কীভাবে বিকল্প পরীক্ষার পদ্ধতিগুলি (বিশ্লেষণ কৌশলগুলি নয়!) চেষ্টা করে টাইপ আই ত্রুটি বা প্রাথমিক পাওয়ার গণনার কিছুটা নিয়ন্ত্রণ না ভাঙতে পারে। আমি জানি যে এসএএস পদ্ধতিগতভাবে প্যারামিট্রিক এবং নন-প্যারাম্যাট্রিক পরীক্ষাগুলি (কমপক্ষে দ্বি-নমুনা উপায়ে এবং আনোভা তুলনা করে) থেকে ফলাফলগুলি প্রত্যাবর্তন করে তবে আমি সবসময় এই আগ্রহজনক খুঁজে পাই: কোন পরীক্ষার প্রয়োগ করা উচিত তা ফলাফল দেখার আগে আমাদের কী সিদ্ধান্ত নেওয়া উচিত নয়?
chl

4
@ সিএল ভাল পয়েন্ট। আমি সম্মত হই যে উপরের থাম্বের নিয়মটি ভুল কারণে ব্যবহার করা যেতে পারে। অর্থাত্, একাধিক উপায়ে জিনিস চেষ্টা করা এবং কেবল ফলাফলের প্রতিবেদন করা যা আরও আনন্দদায়ক উত্তর দেয়। সংক্ষিপ্ত সিদ্ধান্তে বিশ্লেষণ সিদ্ধান্তের প্রভাব শিখতে আমি ডেটা বিশ্লেষক প্রশিক্ষণের সরঞ্জাম হিসাবে থাম্বের বিধিটিকে দরকারী হিসাবে দেখছি। আমি দেখেছি অনেক শিক্ষার্থী বিশেষত যেখানে সাহিত্যে প্রতিদ্বন্দ্বী পরামর্শ রয়েছে (যেমন, রূপান্তর করা বা রূপান্তর না করা) এমন প্রতিযোগিতামূলক পরামর্শ রয়েছে যা প্রায়শই মূল সিদ্ধান্তে ন্যূনতম প্রভাব ফেলে।
জেরোমি অ্যাংলিম

1
@ সিএল না এটি কোনও উদ্ধৃতি নয়। তবে আমি ভেবেছিলাম থাম্বের নিয়মটি এর যুক্তি এবং সতর্কতা থেকে সীমাবদ্ধ করা ভাল। এটি পরিষ্কার করার জন্য আমি এটিকে গা bold়ে পরিবর্তন করেছি।
জেরোমি অ্যাংলিম

1
ঠিক আছে, আমার কাছে বিভিন্ন রূপান্তর চেষ্টা করে দেখার চেষ্টা করা হয়েছে এবং এটি অধ্যয়নকৃত সম্পর্কের জন্য অ্যাকাউন্টের আরও ভাল উপায় সরবরাহ করে কিনা; আমি যা বুঝতে পারি না তা হ'ল বিভিন্ন বিশ্লেষণ কৌশলগুলি চেষ্টা করা, যদিও এটি বর্তমান অনুশীলন (তবে প্রকাশিত নিবন্ধগুলিতে প্রকাশিত নয় :-), এসএসপি। যখন তারা বিভিন্ন অনুমানের উপর নির্ভর করে (ইএফএ বনাম পিসিএতে, আপনি একটি অতিরিক্ত ত্রুটি শব্দটি ধরে নিয়েছেন; নন-প্যারাম্যাট্রিক বনাম প্যারাম্যাট্রিক পরীক্ষায়, আপনি অনুমানের কিছু অংশ ফেলে দেন)। তবে, আমি একমত যে অনুসন্ধান এবং নিশ্চিতকরণ বিশ্লেষণের মধ্যে সীমাবদ্ধতা এতটা পরিষ্কার নয় ...
chl

2
এটি আমার কাছে কেবল অনুসন্ধানী বিশ্লেষণের জন্য বা প্রশিক্ষণ এবং বৈধকরণের পদক্ষেপের সময় দরকারী বলে মনে হয়। আপনার সর্বদা একটি চূড়ান্ত যাচাই পরীক্ষার পদক্ষেপের প্রয়োজন হবে অথবা অন্যথায় আপনি আপনার উল্লেখযোগ্য ফলাফলের দ্বারা নিজেকে বোকা বানিয়ে ফেলতে পারেন যা আপনার 'বিষয়গত' বিশ্বাস অনুসারে কোনও পছন্দসই পার্থক্য পেয়ে গেলে ভাল কাজ করে । কে কোন পদ্ধতিটি আরও ভাল কাজ করে বিচার করবেন? আমি ব্যক্তিগতভাবে, যদি আমি বিভিন্ন পদ্ধতিতে সন্দেহ করি, তবে অনুমানের প্রবণতা বা
দৃust়তা

22

আপনার তথ্য প্রশ্ন। সস্তার র‌্যামের আধুনিক যুগে আমরা প্রায়শই প্রচুর পরিমাণে ডেটা নিয়ে কাজ করি। একটি 'ফ্যাট-আঙুল' ত্রুটি বা 'হারানো দশমিক জায়গা' সহজেই বিশ্লেষণে আধিপত্য বয়ে আনতে পারে। কিছু মৌলিক সতর্কতা যাচাই না করে, (বা এখানে অন্যদের পরামর্শ মতো ডেটা প্লট করে) কেউ প্রচুর সময় নষ্ট করতে পারে। এটি বিদেশীদের কাছে 'দৃust়তার' জন্য কিছু প্রাথমিক কৌশল ব্যবহার করার পরামর্শ দেয়।


2
অনুসিদ্ধান্ত: দেখুন কেউ "এনএ" এর পরিবর্তে "9999" হিসাবে অনুপস্থিত মানকে কোডড করেছে কিনা। আপনার সফ্টওয়্যারটি যদি এই মানটিকে ফেস ভ্যালুতে ব্যবহার করে তবে এটি আপনার বিশ্লেষণকে বিশৃঙ্খলা করবে।
স্টিফান কোলাছা

21

এমন সফ্টওয়্যার ব্যবহার করুন যা কাঁচা ডেটা থেকে চূড়ান্ত বিশ্লেষণ / ফলাফলের মাধ্যমে প্রোগ্রামিং লজিকের শৃঙ্খলা দেখায়। এক্সেলের মতো সফ্টওয়্যার এড়িয়ে চলুন যেখানে একজন ব্যবহারকারী একটি ঘরে একটি অন্বেষণযোগ্য ত্রুটি করতে পারে, কেবলমাত্র ম্যানুয়াল চেকিংই এটি গ্রহণ করবে।


1
ভিসট্রেইলস এমন একটি সিস্টেম যা এই প্রক্রিয়াটিকে সহায়তা করে। (আমি কেবল হোমব্রু সিস্টেম ব্যবহার করেছি; একটি সাধারণ সরঞ্জামের চেয়ে সাধারণ গ্রুপের লক্ষ্যগুলি আরও গুরুত্বপূর্ণ))
ডেনিস

18

সর্বদা নিজেকে জিজ্ঞাসা করুন "এই ফলাফলগুলির অর্থ কী এবং সেগুলি কীভাবে ব্যবহৃত হবে?"

সাধারণত পরিসংখ্যান ব্যবহারের উদ্দেশ্য হ'ল অনিশ্চয়তার অধীনে সিদ্ধান্ত গ্রহণে সহায়তা করা। সুতরাং আপনার মনের সামনে থাকা জরুরী "" এই বিশ্লেষণের ফলে কী সিদ্ধান্ত নেওয়া হবে এবং এই বিশ্লেষণ কীভাবে এই সিদ্ধান্তগুলিকে প্রভাবিত করবে? " (যেমন একটি নিবন্ধ প্রকাশ করুন, একটি নতুন পদ্ধতি ব্যবহার করার পরামর্শ দিন, ওয়াইকে তহবিলের জন্য provide এক্স সরবরাহ করুন, আরও ডেটা পাবেন, ই, ইত্যাদি হিসাবে আনুমানিক পরিমাণের প্রতিবেদন করুন .....)

যদি আপনার মনে হয় যে কোনও সিদ্ধান্ত নেওয়ার সিদ্ধান্ত নেই, তবে আপনি কেন প্রথমে বিশ্লেষণ করছেন তা অবাক করে দেয় (কারণ এটি বিশ্লেষণ করা বেশ ব্যয়বহুল)। আমি পরিসংখ্যানগুলিকে একটি "উপদ্রব" হিসাবে মনে করি এটি একটি শেষের চেয়ে বরং শেষের উপায়। আমার দৃষ্টিতে আমরা কেবল অনিশ্চয়তার পরিমাণকে মাপি যাতে আমরা এই অনিশ্চয়তার জন্য কোন সঠিক উপায়ে সিদ্ধান্ত নেওয়ার জন্য এটি ব্যবহার করতে পারি।

আমি মনে করি যে সাধারণ জিনিসগুলি সহজ রাখা সাধারণ কারণেই একটি ভাল নীতি, কারণ জটিল সমাধানের চেয়ে বাস্তব বিশ্বের (এবং তাই যে পরিবেশে সিদ্ধান্ত নেওয়া হচ্ছে) এর একটি সহজ সমাধানের সাথে সম্পর্কযুক্ত করা প্রায়শই সহজ because । সাধারণ উত্তরের সীমাবদ্ধতাগুলি বোঝাও সাধারণত সহজ easier আপনি যখন সহজ সমাধানের সীমাবদ্ধতাগুলি বুঝতে এবং জটিল কীভাবে সেগুলিকে সম্বোধন করে তখন আপনি আরও জটিল সমাধানগুলিতে চলে যান।


3
বিষয়গুলিকে সরল রাখার ধারণা বাদে আমি সমস্ত কিছুর সাথে একমত। আমার কাছে সরলতা বা জটিলতা হ'ল আপনি ভুলভাবে ব্যাখ্যা করেছেন এমন ভুল সিদ্ধান্তের ব্যয়ের একটি ফাংশন হওয়া উচিত। সরলতার এক ক্ষেত্রের নগণ্য ব্যয় (উদাহরণস্বরূপ গ্রাহকের কাছে ভুল বিজ্ঞাপন প্রদান করা) এবং অন্যটিতে বীভৎসতার জন্য আলাদা ব্যয় থাকতে পারে (রোগীর সাথে ভুল চিকিত্সা পরিচালনা করা)।
থমাস স্পিডেল

18

একটি দীর্ঘ তালিকা থাকতে পারে তবে কয়েকটি উল্লেখ করা যেতে পারে: (কোনও নির্দিষ্ট ক্রমে নয়)

  1. পি-মান সম্ভাবনা নয়। বিশেষত, এটি টাইপ আই ত্রুটি করার সম্ভাবনা নয়। একইভাবে, সিআই-র প্রদত্ত ডেটার জন্য কোনও সম্ভাব্য ব্যাখ্যা নেই। এগুলি বারবার পরীক্ষার জন্য প্রযোজ্য।

  2. অনুশীলনের সাথে সম্পর্কিত সমস্যাটি অনুশীলনে বেশিরভাগ সময় পক্ষপাতিত্বকে প্রাধান্য দেয়, তাই ছোট বৈকল্পিকের সাথে একটি পক্ষপাতদুষ্ট অনুমান বড় বৈকল্পিক (বেশিরভাগ সময়) সহ নিরপেক্ষ অনুমানের চেয়ে ভাল।

  3. মডেল ফিটিং একটি পুনরাবৃত্ত প্রক্রিয়া। ডেটা বিশ্লেষণ করার আগে ডেটা এবং সম্ভাব্য মডেলগুলির উত্স যা বিবরণে ফিট করে বা ফিট করে না understand এছাড়াও, আপনার মডেল কোনও নকশা সমস্যা মডেল চেষ্টা করুন।

  4. ভিজ্যুয়ালাইজেশন সরঞ্জামগুলি ব্যবহার করুন, বিশ্লেষণের আগে ডেটাটি দেখুন (সম্ভাব্য অস্বাভাবিকতা, স্পষ্ট প্রবণতা ইত্যাদির জন্য) বিশ্লেষণের আগে। মডেলটি কীভাবে সেই ডেটার সাথে খাপ খায় তা দেখতে ভিজ্যুয়ালাইজেশন পদ্ধতিগুলি (সম্ভব হলে) ব্যবহার করুন।

  5. সর্বশেষে তবে সর্বনিম্ন নয়, স্ট্যাটিস্টিকাল সফটওয়্যারগুলি সেগুলির জন্য তৈরি করা হয় (আপনার গণনার কাজটি আরও সহজ করার জন্য), তারা মানবিক চিন্তার বিকল্প নয়।


14
আপনার আইটেম 1টি ভুল: পি মান হ'ল নব্য অনুমান অনুসারে চূড়ান্ত বা আরও চরম হিসাবে ডেটা প্রাপ্তির সম্ভাবনা। যতদুর আমি জানি এর মানে হল যে যে পি হয় একটি সম্ভাব্যতা - শর্তসাপেক্ষ কিন্তু একটি সম্ভাব্যতা তা সত্ত্বেও। আপনার বক্তব্যটি ত্রুটিগুলির নেইমন-পিয়ারসন দৃষ্টান্তের মধ্যে কাজ করছে এমন পরিস্থিতিতে সঠিক, তবে ফিশেরিয়ান দৃষ্টান্তের মধ্যে একটিও কাজ করছে না যেখানে পি মানগুলি নাল অনুমানের বিরুদ্ধে প্রমাণের আইডিয়া। এটি সত্য যে দৃষ্টান্তগুলি নিয়মিতভাবে একটি মিশ্রিত মিশ্র-ম্যাসে মিশ্রিত হয়, তবে একা এবং অক্ষত ব্যবহৃত হলে উভয়ই 'সঠিক' হয়।
মাইকেল লিউ

2
আত্মবিশ্বাসের অন্তরগুলির জন্য আপনি আবার নেইমিনিয়ান আত্মবিশ্বাসের অন্তর্বর্তী সীমার মধ্যেই সঠিক হন। ফিশার (এবং তার আগে অন্যরা) এমন কিছু তৈরি করেছিলেন এবং ব্যবহার করেছিলেন যেগুলি আত্মবিশ্বাসের অন্তর হিসাবে ব্যাখ্যা করবে এবং ব্যবধানটি নির্দিষ্ট পরীক্ষায় উল্লেখ করে এমন বিরতিগুলির যথাযথ বৈধ ব্যাখ্যা রয়েছে। আমার মতে, তারা নেইমনের চেয়ে অনেক বেশি পছন্দনীয়। প্রশ্নের আমার উত্তরটি দেখুন বিযুক্ত কার্যাবলী: আত্মবিশ্বাসের ব্যবধান কভারেজ? আরও বিশদে বিশদ জন্য: stats.stackexchange.com/questions/8844/…
মাইকেল লিউ

@ মিশেল আপনি সঠিক, তবে দেখতে দিন: নালটি কতবার সঠিক? বা আরও ভাল: নালটি সঠিক কিনা কেউ প্রমাণ করতে পারবেন? এ সম্পর্কে আমাদের গভীর দার্শনিক বিতর্কও হতে পারে তবে এটি মূল বিষয় নয়। মান নিয়ন্ত্রণের পুনরাবৃত্তিগুলি বোঝায়, তবে বিজ্ঞানে কোনও ভাল সিদ্ধান্তের নিয়মের অবশ্যই ডেটা শর্ত করতে হবে
সানকুলসু

1
ফিশার এটি জানত (পর্যবেক্ষণ করা তথ্যের উপর কন্ডিশনিং এবং মান নিয়ন্ত্রণের বিষয়ে মন্তব্যটি এর উপর ভিত্তি করে)। তিনি এর ভিত্তিতে অনেক পাল্টা উদাহরণ উপস্থাপন করেছিলেন। বায়েশিয়ানরা প্রায় অর্ধ শতাব্দীরও বেশি সময় ধরে এই নিয়ে লড়াই করে চলেছে।
সানকুলসু

1
@ মিশেল দুঃখিত আমি যদি যথেষ্ট পরিমাণে পরিষ্কার না হতাম। আমি কেবল এটিই বলতে চেয়েছিলাম: পি-মানটি কেবল তখনই সম্ভব্য হয় যখন নালটি সত্য হয় তবে বেশিরভাগ সময় শূন্য হয় না (যেমন: আমরা কখনই expect সত্য হওয়ার আশা করি না ; আমরা এটি সত্য বলে ধরে নিই, তবে আমাদের ধারণাটি কার্যত ভুল) μ=0
সানকুলসু

13

ডেটা সংগঠন / পরিচালনার জন্য, নিশ্চিত করুন যে আপনি যখন ডেটাসেটে নতুন ভেরিয়েবল তৈরি করেন (উদাহরণস্বরূপ, উচ্চতা এবং ওজন থেকে বডি মাস ইনডেক্স গণনা করা হচ্ছে), আসল ভেরিয়েবলগুলি কখনই মোছা হয় না। একটি প্রজননযোগ্যতার দৃষ্টিকোণ থেকে একটি অ-ধ্বংসাত্মক পদ্ধতির সেরা best আপনি কখনই জানেন না কখন আপনি কোনও আদেশটি ভুলভাবে প্রবেশ করতে পারেন এবং পরবর্তী সময়ে আপনার পরিবর্তনশীল প্রজন্মটি পুনরায় করা দরকার। আসল ভেরিয়েবলগুলি ব্যতীত আপনি অনেক সময় হারাবেন!


11

অন্তর্নিহিত ডেটা উত্পাদন প্রক্রিয়া (ডিজিপি) সম্পর্কে কঠোর চিন্তা করুন । আপনি যে মডেলটি ব্যবহার করতে চান তা যদি ডিজিপির প্রতিফলন না করে তবে আপনাকে একটি নতুন মডেল খুঁজে বের করতে হবে।


আপনি কীভাবে জানেন, কীভাবে আপনি জানতে পারবেন, ডিজিপি কী। উদাহরণস্বরূপ, আমি এমন একটি অঞ্চলে সময় সিরিজ পরিচালনা করি যেখানে এখনও আমার উন্নত তত্ত্বটি দেখা যায়নি (কেন নির্দিষ্ট ধরণের জনসাধারণের ব্যয় ঘটে)। এক্ষেত্রে আসল প্রক্রিয়াটি জানা সম্ভব বলে আমি মনে করি না।
ব্যবহারকারী54285

8

হিস্টোগ্রামের জন্য, হিস্টোগ্রামে বিন সংখ্যা সংখ্যার জন্য থাম্বের একটি ভাল নিয়ম :

ডেটা পয়েন্টের সংখ্যার বর্গমূল


6

ক্রমবর্ধমান বৃহত্তর ডেটাসেট এবং আরও শক্তিশালী সফ্টওয়্যার সত্ত্বেও, ওভার-ফিটিং মডেলগুলি গবেষকদের বিশেষত যারা ওভার-ফিটিং দ্বারা পুড়ে যায়নি তাদের জন্য একটি বড় বিপদ। ওভার-ফিটিং এর অর্থ আপনি নিজের ডেটা এবং শিল্পের অবস্থার চেয়ে আরও জটিল কিছু ফিট করেছেন। ভালবাসা বা সৌন্দর্যের মতো এটির সংজ্ঞা দেওয়াও শক্ত, আনুষ্ঠানিকভাবে সংজ্ঞা দিতে দেওয়া যাক, তবে চিনতে সহজ।

শাস্ত্রীয় প্রতিরোধের মতো কোনও কিছুর জন্য অনুমিত প্রতিটি প্যারামিটারের জন্য সর্বনিম্ন নিয়মের নিয়ম হল 10 ডেটা পয়েন্ট এবং যদি আপনি এটিকে এড়িয়ে যান তবে ফলাফলগুলি সন্ধান করুন। অন্যান্য বিশ্লেষণগুলির জন্য, সাধারণত একটি ভাল কাজ করার জন্য আপনার আরও অনেক বেশি প্রয়োজন, বিশেষত যদি ডেটাতে বিরল বিভাগ থাকে।

এমনকি আপনি যদি কোনও মডেল সহজেই ফিট করতে পারেন তবে এটির অর্থ কী এবং এটি একটি খুব অনুরূপ ডেটাসেটের সাথে পুনরুত্পাদনযোগ্য কতটা তা আপনার অবিরত চিন্তিত হওয়া উচিত।


এগুলি সাধারণত মডেলগুলির জন্য থাম্বের নিয়ম হিসাবে দেখা যায় যেখানে প্রতিক্রিয়া শর্তসাপেক্ষে স্বাভাবিক। অন্যান্য ক্ষেত্রে এটি খুব উদার। উদাহরণস্বরূপ, বাইনারি শ্রেণিবিন্যাসের জন্য, প্রতিটি ভেরিয়েবলের জন্য কম অঙ্গসংগঠনের ক্ষেত্রে থাম্বের সংশ্লিষ্ট নিয়মটি 15 টি পর্যবেক্ষণ হবে; এবং বেঁচে থাকার বিশ্লেষণের জন্য, এটি প্রতিটি ভেরিয়েবলের জন্য 10 টি ইভেন্ট (যেমন, সেন্সর করা ডেটা নয়) হবে।
গাং

আমি রাজী. আমি সম্পাদনা করব, তবে কেন বর্ধিত ভাষ্য সহ আপনার নিজের থাম্বের নিয়ম পোস্ট করবেন না।
নিক কক্স

1
আপনার শেষ বাক্যটি হাইলাইট করা উচিত "এমনকি আপনি যদি কোনও মডেল সহজেই ফিট করতে পারেন তবে এটির অর্থ কী এবং এমনকি এটি একটি খুব সমান ডেটাসেটের সাথে পুনরুত্পাদনযোগ্য কত তা নিয়ে আপনার ক্রমাগত চিন্তা করা উচিত" "
মার্টিজন ওয়েটারিংস


5

যদি মডেলটি সহজে এবং দ্রুত রূপান্তরিত না করে তবে এটি সফ্টওয়্যারটির দোষ হতে পারে। তবে এটি আরও সাধারণ যে আপনার ডেটা মডেলের জন্য উপযুক্ত নয় বা মডেলটি ডেটার জন্য উপযুক্ত নয়। কোনটি বলা মুশকিল হতে পারে এবং অভিজ্ঞতাবাদী ও তাত্ত্বিকগণের বিভিন্ন মতামত থাকতে পারে। তবে বিষয়-বিষয় চিন্তাভাবনা, সত্যই ডেটা দেখে এবং মডেলটির ব্যাখ্যা সম্পর্কে ক্রমাগত চিন্তাভাবনা যতটুকু সম্ভব সহায়তা করে help সর্বোপরি, একটি জটিল মডেল চেষ্টা করুন যদি কোনও জটিল রূপান্তরিত হয় না।

একত্রিত করার জন্য জোর করে বা বিজয় ঘোষণা করার এবং অনেকগুলি পুনরাবৃত্তির পরে ফলাফল নেওয়ার ক্ষেত্রে তবে আপনার মডেলটি সত্যই রূপান্তরিত করার আগে কোনও লাভ নেই। আপনি যদি তা করেন তবে সর্বোপরি নিজেকে বোকা বানাবেন।


"সত্যিই ডেটাটির দিকে তাকিয়ে থাকা" যখন আমরা এমন কোনও এনএন পাই যে আমাদের জন্য এই কাজটি করে তখন খুব সুন্দর হবে।
মার্টিজ ওয়েটারিংস

একে বলা হত জেডাব্লুটি।
নিক কক্স

5

ইনস্ট্রুমেন্টাল ভেরিয়েবলগুলিতে রিগ্রেশন সর্বদা আপনার যন্ত্রের যৌথ তাত্পর্য পরীক্ষা করে। থাম্বের স্টাইগার-স্টক নিয়মটি বলেছে যে 10 এরও কম এফ-স্ট্যাটিস্টিক উদ্বেগজনক এবং এটি ইঙ্গিত করে যে আপনার যন্ত্রগুলি দুর্বল হতে পারে, অর্থাত্ এগুলি এন্ডোজেনাস ভেরিয়েবলের সাথে পর্যাপ্তভাবে সম্পর্কযুক্ত নয়। তবে এটি স্বয়ংক্রিয়ভাবে বোঝায় না যে 10 এর উপরে একটি এফ শক্তিশালী যন্ত্রগুলির গ্যারান্টি দেয়। স্টাইজার অ্যান্ড স্টক (১৯৯ 1997) দেখিয়েছে যে 2SLS এর মতো ইনস্ট্রুমেন্টাল ভেরিয়েবলের কৌশলগুলি "ছোট" নমুনায় খারাপভাবে পক্ষপাতী হতে পারে যদি যন্ত্রগুলি কেবল অন্তঃসত্ত্বা ভেরিয়েবলের সাথে দুর্বলভাবে সম্পর্কযুক্ত হয়। তাদের উদাহরণ অ্যাঞ্জিস্ট অ্যান্ড ক্রুয়েগার (1991) দ্বারা সমীক্ষা ছিল যাদের 300,000 এরও বেশি পর্যবেক্ষণ ছিল - "ছোট" নমুনাগুলির ধারণা সম্পর্কে একটি বিরক্তিকর সত্য।


আমি নিবন্ধটির লিঙ্কটি যুক্ত করেছি তবে আমি বিশ্বাস করি যে উত্তরটির এই স্টলের আরও কিছু ফর্ম্যাটিং দরকার, খুব দ্রুত নিবন্ধটি স্ক্যান করার উপর ভিত্তি করে 'থাম্বের বিধি' জোর দেওয়া খুব কঠিন বলে মনে হয়েছিল এবং এই উত্তরটি খুব স্বজ্ঞাত নয়।
মার্টিজন ওয়েটারিংস

3

তথ্যের মানদণ্ড বেছে নেওয়ার কোনও মানদণ্ড নেই।

কেউ একবার "দ্য আইসি ইঙ্গিত করে, তবে এটি ভুল ফলাফল দেওয়ার জন্য প্রায়শই জানা যায়" (কোথায়? আপনার পছন্দের কোনও চিঠিটি), আপনি জানেন যে মডেলটি সম্পর্কেও আপনাকে ভাবতে হবে এবং বিশেষত এটি তৈরি করে কিনা বৈজ্ঞানিক বা ব্যবহারিক ধারণা।

কোনও বীজগণিত আপনাকে তা বলতে পারে না।


2

আমি এটি কোথাও পড়েছি (সম্ভবত ক্রস যাচাই করা হয়েছে) এবং আমি এটি কোথাও খুঁজে পাইনি, তাই এখানে যায় ...

যদি আপনি একটি আকর্ষণীয় ফলাফল আবিষ্কার করেন তবে এটি সম্ভবত ভুল।

স্তম্ভিত পি-মান বা কাছের নিখুঁত ক্রস বৈধতা ত্রুটির সম্ভাবনা দেখে উত্তেজিত হওয়া খুব সহজ। আমি ব্যক্তিগতভাবে বাস্তবে সহকর্মীদের কাছে কেবল তাদের প্রত্যাহার করার জন্য দুর্দান্ত (মিথ্যা) ফলাফল উপস্থাপন করেছি। বেশিরভাগ ক্ষেত্রে, যদি এটি সত্য বলে মনে হয় খুব ভাল ...

'দাগী সত্য। 'দাগ একেবারেই সত্য।


2

পুণ্যবানীর চেয়ে সাহসী হওয়ার চেষ্টা করুন এটি হ'ল, অ-সাধারনতা, অ-স্বাধীনতা বা অ-লৈখিক্যতার ইত্যাদির ক্ষুদ্র লক্ষণগুলিকে আপনার রাস্তাটি ব্লক করতে দেবেন না যদি ডেটা উচ্চস্বরে এবং স্পষ্টভাবে কথা বলতে যাতে এই জাতীয় ইঙ্গিতগুলিকে উপেক্ষা করা প্রয়োজন need । - ডেনিশ ভাষায়, 'ড্রিসটিগ' বনাম 'ডাইডিগ' বিশেষণ।


1

দ্রাঘিমাংশীয় ডেটা বিশ্লেষণ করার সময় নিশ্চিত হয়ে নিন যে প্রতিটি সময়কালে ভেরিয়েবলগুলি একইভাবে কোড করা হয়েছে।

আমার গবেষণামূলক লেখার সময়, যা মাধ্যমিকের তথ্য বিশ্লেষণ করেছিল, এক বছর বা এক-এক ইউনিট শিফ্টের পুরো বাফলেটটি ছিল বছরের মধ্যে অন্যথায় স্থিতিশীল গড় ধরে গড় ডিপ্রেশন স্কোরগুলিতে: এটি আমার বছরের মধ্যে একটিতে পরিণত হয়েছিল ডেটা সেট, একটি বৈধীকৃত যন্ত্রের জন্য স্কেল আইটেমগুলি 0-3 এর পরিবর্তে 1–4 কোড করা হয়েছিল।


1

আপনার হাইপোথিসিসটি আপনার পছন্দসই মডেলটিকে চালিত করবে, অন্যভাবে নয় not

মাসলোকে বোঝানোর জন্য, আপনি যদি হাতুড়ি হন, তবে সমস্ত কিছুই পেরেকের মতো দেখাচ্ছে। সুনির্দিষ্ট মডেলগুলি অন্ধ হয়ে গেছে এবং ঠিক বিশ্বজুড়ে নির্মিত বিশ্ব সম্পর্কে অনুমান নিয়ে আসে: উদাহরণস্বরূপ, অ-গতিশীল মডেলগুলি চিকিত্সা-ফলাফলের প্রতিক্রিয়ার উপরে চাপ দেয়।


1

আপনার মডেলটির কাঠামোটি "ফলাফল" তৈরি করতে পারে তা যাচাই করতে সিমুলেশন ব্যবহার করুন যা কেবল আপনার মডেলের অনুমানের গাণিতিক শৈল্পিক

আপনার বিশ্লেষণটি পুনরায় রেন্ডোমাইজড ভেরিয়েবলগুলি বা একে অপরের সাথে সম্পর্কযুক্ত বলে পরিচিত সিমুলেটেড ভেরিয়েবলগুলি সম্পাদন করুন । আপনি আসল উপাত্তগুলিতে প্রাপ্ত ফলাফলগুলির সাথে এটি কি বহুবার এবং বিপরীত গড় পয়েন্টের অনুমান (এবং আত্মবিশ্বাস বা বিশ্বাসযোগ্য অন্তর): এগুলি কি সবই আলাদা?


0

আমি পরিসংখ্যানবিদদের চেয়ে ডেটা বিশ্লেষক তবে এগুলি আমার পরামর্শ।

1) আপনি ডেটা বিশ্লেষণ করার আগে আপনার পদ্ধতির অনুমানগুলি সঠিক কিনা তা নিশ্চিত করুন। একবার আপনি ফলাফলগুলি দেখলে সমস্যাগুলি ও ফলাফল পরিবর্তনের পরেও তারা ভুলতে পারা যায়।

2) এটি আপনার ডেটা জানতে সহায়তা করে। আমি সময়ের ধারাবাহিকতা চালিয়েছি এবং এমন একটি ফলাফল পেয়েছি যা সাম্প্রতিক বছরগুলির ডেটা প্রদানে সামান্য জ্ঞান অর্জন করেছে। আমি এটির আলোকে পদ্ধতিগুলি পর্যালোচনা করেছি এবং আবিষ্কার করেছি যে পদ্ধতিতে মডেলগুলির গড়করণের ফলাফলগুলি এক সময়ের জন্য বিকৃত করছে (এবং একটি কাঠামোগত বিরতি ঘটেছে)।

3) থাম্বের বিধি সম্পর্কে সতর্কতা অবলম্বন করুন। তারা তাদের নিজস্ব ডেটা থেকে পৃথক গবেষকদের অভিজ্ঞতা প্রতিফলিত করে এবং যদি তাদের ক্ষেত্রটি আপনার থেকে খুব আলাদা হয় তবে তাদের সিদ্ধান্তগুলি আপনার ডেটার জন্য সঠিক হতে পারে না। তদুপরি, এবং এটি আমার জন্য একটি ধাক্কা ছিল, পরিসংখ্যানবিদরা প্রায়শই মূল বিষয়গুলিতে একমত নন।

4) বিভিন্ন পদ্ধতির সাথে ডেটা বিশ্লেষণ করার চেষ্টা করুন এবং ফলাফলগুলি অনুরূপ কিনা তা দেখুন। বুঝতে হবে যে কোনও পদ্ধতি নিখুঁত নয় এবং অনুমানের লঙ্ঘনের জন্য কখন পারবেন তা পরীক্ষা করে যত্নবান হন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.