কিভাবে একটি পরিসংখ্যান রেফারি বিরক্ত?


102

আমি সম্প্রতি কাগজপত্রের পরিসংখ্যান পর্যালোচনা কাছাকাছি সাধারণ নীতি সম্পর্কিত একটি প্রশ্ন জিজ্ঞাসা করেছি । আমি এখন যা জিজ্ঞাসা করতে চাই, এটি একটি কাগজ পর্যালোচনা করার সময় আপনাকে বিশেষত বিরক্ত করে, অর্থাত্ একটি পরিসংখ্যানগত রেফারিকে সত্যিই বিরক্ত করার সর্বোত্তম উপায় কী!

উত্তর প্রতি এক উদাহরণ, দয়া করে।


এটি কি প্রাথমিক পর্যালোচনার প্রতিক্রিয়াতে প্রাপ্ত ন্যায্যতাগুলিতে প্রসারিত হয় (যেখানে ছোট এবং / বা বড় সংশোধন জিজ্ঞাসা করা হয়েছিল)?
chl

@ সিএল: হ্যাঁ, কেন নয়।
csgillespie

উত্তর:


69

বিশেষত আমাকে ব্যক্তিগতভাবে বিরক্ত করার বিষয়টি হ'ল এমন ব্যক্তিরা যারা পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারগুলির জন্য ব্যবহারকারী-লিখিত প্যাকেজগুলি স্পষ্টভাবে ব্যবহার করেছিলেন তবে সেগুলি সঠিকভাবে উদ্ধৃত করেন না বা মোটেও এটি লেখকদের কোনও ক্রেডিট দিতে ব্যর্থ হন। লেখকরা যখন একাডেমিয়ায় থাকেন এবং তাদের কাজগুলি উদ্ধৃত পেপারগুলি প্রকাশের উপর নির্ভর করে তখন এটি করা বিশেষত গুরুত্বপূর্ণ । (সম্ভবত আমার যোগ করা উচিত, আমার ক্ষেত্রে, অনেক অপরাধী পরিসংখ্যানবিদ নয়))


2
আমার জন্য +1 এটি আমাকে হতাশ করে, বিশেষত যখন তারা ভুল জিনিসটি উদ্ধৃত করে এবং আমি কীভাবে প্যাকেজগুলি উদ্ধৃত করতে পারি সে সম্পর্কিত প্রাসঙ্গিক বিবরণ সরবরাহ করেছি
গ্যাভিন সিম্পসন

3
প্রশ্ন: কোনও প্যাকেজ উদ্ধৃত করার সময়, আপনি ভিনগেট (যদি উপস্থিত থাকে) বা প্যাকেজটি নিজেই উদ্ধৃত করেন?
ব্র্যান্ডন বার্টেলসেন

7
@ ব্র্যান্ডন: যদি প্যাকেজ লেখক আপনাকে গাইড করার জন্য যথেষ্ট যত্নশীল হন, তবে তারা উত্তরটি একটি ফর্মটিতে দিয়েছেন যা উদ্ধৃতি দিয়ে নেওয়া হবে ("কিছু_প্যাকেজ")
বেন বলকার

2
কোনও ল্যান্ডমার্ক পেপার থাকা ছাড়াও, যা করা এতটা সহজ নয়, উদ্ধৃতি পাওয়ার সহজতম উপায় হ'ল আপনার কাগজে কমপক্ষে একটি ত্রুটি রেখে যাওয়া। তারপরে আপনি একটি সংশোধন প্রকাশ করতে পারেন, যা মূল কাগজটি উদ্ধৃত করে। সংশোধন করার ক্ষেত্রে একটি ত্রুটি ছেড়ে দিন এবং আপনি এমন সংশোধন প্রকাশ করতে পারেন যা মূল সংশোধন এবং মূল কাগজটির উল্লেখ করে (আমি প্রথম বর্ষের শিক্ষার্থীর মতো একটি জিনিস দেখেছি)। ও (N ^ 2) প্রক্রিয়া হিসাবে উদ্ধৃতিগুলির সংখ্যা বৃদ্ধি পায়, যেখানে N সংশোধনের সংখ্যা।
মার্ক এল স্টোন

67

আমাকে মঙ্গল করুন, অনেক কিছুই মনে আসে ...

  • পদক্ষেপের প্রতিরোধ

  • অবিচ্ছিন্ন তথ্য গোষ্ঠীতে বিভক্ত করা

  • পি-মান প্রদান করা হচ্ছে তবে প্রভাবের আকারের কোনও পরিমাপ নেই

  • ডেটাটি কম-বেশি কম প্রতিসামগ্রীহীন এবং ইউনিমোডাল ছিল কিনা তা নির্দেশ ছাড়াই গড় এবং মান বিচ্যুতি ব্যবহার করে ডেটা বর্ণনা

  • স্পষ্ট শিরোনাম ছাড়াই চিত্রগুলি (এই ত্রুটিগুলি কি গড়ের স্ট্যান্ডার্ড ত্রুটিগুলি বা গোষ্ঠীর মধ্যে স্ট্যান্ডার্ড বিচ্যুতি বা কী?)


5
ধাপে ধাপে রিগ্রেশন বুলেট সম্পর্কে আমি কিছুটা কৌতূহলী। পদক্ষেপের প্রতিরোধকে কী এত খারাপ করে? এটি কি ডেটার ড্রেজিং এবং একাধিক তুলনা ইস্যু?
ক্রিস্টোফার অ্যাডেন

17
সমস্যাটি হ'ল ধাপের দিকের পদ্ধতিগুলি পি মানগুলির উপর ভিত্তি করে "স্বাভাবিক" অনুমানমূলক পরিসংখ্যানগুলির জন্য সমস্ত অনুমান এবং পূর্বশর্তগুলি সম্পূর্ণরূপে অবৈধ করে দেয়, যা পরে খারাপভাবে পক্ষপাতদুষ্ট হয় (নীচের দিকে "আরও তাত্পর্যপূর্ণ" হওয়ার দিকে)। সুতরাং মূলত, উত্তরটি হ্যাঁ, হ'ল এই সতর্কতার সাথে যে এই সমস্ত একাধিক তুলনার জন্য নীতিগতভাবে সঠিক হতে পারে (তবে যা আমি কখনও দেখিনি) done আমি দৃ strongly়ভাবে বিশ্বাস করি যে মনোবিজ্ঞানের এমন এত গবেষণা কেন দেখলাম যা পুনরায় প্রতিস্থাপন করা যায় না - এটি ফলস্বরূপ সংস্থানগুলির বিশাল অপচয় করার দিকে পরিচালিত করে।
স্টিফান কোলাসা

10
@ স্টেফান: আমি সম্মত, পদক্ষেপের দিক থেকে নেওয়া একটি খারাপ ধারণা। যদিও তারা এখনও এটি মানসিক পদ্ধতিগুলিতে তৈরি না করে থাকতে পারে তবে বিভিন্ন ধরণের নির্বাচন পদ্ধতি রয়েছে যা অনুমান এবং স্ট্যান্ডার্ড ত্রুটিগুলি সামঞ্জস্য করে ওভারফিটিং সম্পর্কিত পক্ষপাতের জন্য সামঞ্জস্য করে। এটি সাধারণত একাধিক তুলনার সমস্যা হিসাবে ভাবা হয় না। তারা সঙ্কুচিত পদ্ধতি হিসাবে পরিচিত। এই থ্রেডটিতে আমার প্রতিক্রিয়াটি দেখুন < stats.stackexchange.com/questions/499/… > এবং হ্যারেলের "রিগ্রেশন মডেলিং স্ট্র্যাটেজিজ" বা লাসোতে তিবশিরানী।
ব্রেট

5
@ ব্রেট ম্যাগিল: এটিতে +1, এবং হ্যাঁ, আমি সঙ্কুচিতকরণ এবং লাসো সম্পর্কে জানি। এখন আমার প্রয়োজন সমস্ত মনোবিজ্ঞানীদের বোঝানোর কিছু উপায় যা এগুলি বোধগম্য হয় ... তবে মনোবিজ্ঞানীদের আত্মবিশ্বাসের ব্যবস্থাগুলির প্রতিবেদন দেওয়ার জন্য লোকেরা খুব সীমাবদ্ধ সাফল্যের সাথে লড়াই করে চলেছে, তাই আমি মনোবিজ্ঞানীদের 'পরবর্তী সংকোচনকে স্বীকার করার বিষয়ে খুব আশাবাদী নই বিশ বছর.
স্টিফান কোলাসা

10
আমি আরও যুক্তি দিয়ে বলছি যে মনোবিজ্ঞানে সর্বাধিক পূর্বাভাস তাত্ত্বিক লক্ষ্য নয়, তবুও ধাপে ধাপে ধাপে আধিপত্য বিস্তৃতভাবেই, পূর্বাভাসকে সর্বাধিক করে তোলা। সুতরাং, প্রক্রিয়া এবং প্রশ্নের মধ্যে সাধারণত একটি সংযোগ বিচ্ছিন্ন হয়।
জেরোমি অ্যাংলিম

41

আইরিন স্ট্রাটন এবং সহকর্মী একটি ঘনিষ্ঠভাবে সম্পর্কিত প্রশ্ন সম্পর্কে একটি সংক্ষিপ্ত কাগজ প্রকাশ করেছেন:

Stratton আইএম, নিল উ: কিভাবে আপনার কাগজ নিশ্চিত করার পরিসংখ্যানগত সমালোচক দ্বারা প্রত্যাখ্যাত হয়ডায়াবেটিক মেডিসিন 2005; 22 (4): 371-373।


লিঙ্কটি নষ্ট হয়ে গেছে।
অলিভার অ্যাঞ্জেলিল


32

সিমুলেটেড ফলাফল তৈরি করতে ব্যবহৃত কোড সরবরাহ করা হয় না। কোডটি জিজ্ঞাসা করার পরে, এটি রেফারি থেকে উত্পন্ন ডেটাসেট চালানোর জন্য এটি অতিরিক্ত কাজের দাবি করে।


2
এবং এটি দুর্বল ফর্ম্যাট, অবিচ্ছিন্ন এবং অনিবার্য পরিবর্তনশীল এবং ফাংশন নাম ব্যবহার করে। ওহো হ্যাঁ।
nnot101

30

চৌর্যবৃত্তি (তাত্ত্বিক বা পদ্ধতিগত)। আমার প্রথম পর্যালোচনাটি 10 ​​বছর আগে প্রকাশিত একটি সুপ্রতিষ্ঠিত পদ্ধতিগত কাগজ থেকে অনেক অনর্থনীয় অনুলিপি / পেস্টযুক্ত কাগজের জন্য ছিল।

এই বিষয়টিতে সবেমাত্র দুটি আকর্ষণীয় কাগজপত্র পাওয়া গেছে: বিজ্ঞানে লেখকতা এবং চৌর্যবৃত্তি

একই শিরাতে, আমি মিথ্যাবাদী (ডেটা বা ফলাফলগুলির) সর্বাধিক খারাপ দেখতে পাই ।


20
আমাকে মনে করিয়ে দেয় এমন একটি রেফারি হিসেবে আমার প্রথম দিন আমি কাটিয়েছি পর্যন্ত অত্যন্ত দীর্ঘ একটি পরিসংখ্যানগত কাগজ যে অবশেষে সেই বিশেষ জার্নাল প্রত্যাখ্যান করেছে পর্যালোচনার পরে, কিন্তু অন্যান্য রেফারি এবং আমি পদ্ধতির জন্য একটি আরো দরকারী আবেদন সুপারিশ, এবং আমি একটি বীজগাণিতিক প্রমাণ অঙ্কিত পাণ্ডুলিপিতে একটি অসন্তুষ্ট সিমুলেশন অধ্যয়ন প্রতিস্থাপন করতে। লেখকরা এর থেকে দুটি প্রকাশিত কাগজপত্র পেয়েছে। আমি এতে বিরক্ত নই , তবে "সহায়ক মন্তব্যের জন্য আমরা কাগজের আগের সংস্করণটির রেফারিগুলিকে ধন্যবাদ জানাই" এর মতো একটি স্বীকৃতি ভাল আচরণ করতে পারত।
onestop

1
@ আনস্টপ হ্যাঁ, আমি ভাবতে পারি যে এমন পরিস্থিতি কতটা হতাশার হতে পারে ...
chl

24
কয়েক সপ্তাহ আগে আমাকে পর্যালোচনা করার জন্য একটি কাগজ দেওয়া হয়েছিল এবং দেখা গেছে যে এর 85% ভাগ অন্য জার্নালে প্রকাশিত হয়েছিল ... একই লেখকরা। সেটিও এখনও চৌর্যবৃত্তি হিসাবে বিবেচিত হয়। গত বেশ কয়েক বছর ধরে আমি কোনও পর্যালোচনা করার আগে ওয়েব অনুসন্ধান ইঞ্জিনগুলিতে নিয়মিতভাবে কাগজপত্রগুলি - বিশেষত বিমূর্তি, উপস্থাপনা এবং সিদ্ধান্তগুলি - জমা দিয়েছি । আমি এটি পড়তে যে কোনও সময় বিনিয়োগের আগে কাজটি আসল তা নিশ্চিত হতে চাই।
whuber

7
+1, @ শুভ একটি পদ্ধতিগত জার্নালের সম্পাদক হিসাবে আমার প্রায়শই অবদানটি (নিয়ম হিসাবে, সুপ্রতিষ্ঠিত লেখকদের কাছ থেকে; ছোট লেখকরা এখনও সেই ট্র্যাজেক্টোরিয়ায় পৌঁছাননি) প্রকাশের পরোয়ানা দেয় কিনা তা নির্ধারণ করার এই কঠিন কাজটি আমার আছে ' শেষ হয়েছে যে তারা আগের পাঁচটি কাগজপত্র নিয়ে গঠিত আটটি লেগো ব্লককে অন্যভাবে পুনরায় সংযুক্ত করা হয়েছে। এটি আমার পঞ্চাশ কাগজপত্র পূর্ববর্তী এইসব লেখকদের প্রকাশিত অবদান খুব প্রশ্ন ওঠে :(।
StasK

26

আমরা যখন লেখকদের জন্য জিজ্ঞাসা করি

  1. আমাদের কাছে থাকা একটি ধারণার সম্পর্কে সামান্য মন্তব্য (এই অর্থে, এটি কাগজ প্রত্যাখ্যান করার কারণ হিসাবে বিবেচিত নয় তবে কেবল লেখকরা অন্য একটি পিওভির সাথে আলোচনা করতে সক্ষম হয়েছেন তা নিশ্চিত করার জন্য), বা
  2. অস্পষ্ট বা বিরোধী ফলাফল,

এবং লেখকরা সত্যই (1) ক্ষেত্রে উত্তর দেয় না বা (2) এর ইনক্রিমেন্ট ফলাফল এমএস থেকে অদৃশ্য হয়ে যায়।


7
রহস্যজনকভাবে অদৃশ্য হয়ে যাওয়া ফলাফলগুলি স্বয়ংক্রিয়ভাবে প্রত্যাখ্যান হওয়া উচিত im আমি নিশ্চিত যে এটি অনেকটা "পর্দার আড়ালে" ঘটেছিল (যেমন কাগজ জমা দেওয়ার আগে) তবে এটি "চেরি তোলা" এর সুস্পষ্ট প্রমাণ যা কাগজের সাধারণ পাঠকরা কখনই জানতে পারবেন না।
ম্যাক্রো

3
খোলা পিয়ার রিভিউ সিস্টেমের আর একটি কারণ।
fmark

24

বিভ্রান্তিকর পি-মান এবং প্রভাবের আকার (অর্থাত্ আমার প্রভাবটি বড় কারণ আমার কাছে খুব ছোট পি-মান রয়েছে)।

স্টেফানের এফেক্ট মাপগুলি বাদ দিয়ে পি-ভ্যালু দেওয়ার উত্তর থেকে কিছুটা আলাদা । আমি সম্মত হই যে আপনার উভয়ই দেওয়া উচিত (এবং আশা করি পার্থক্যটি বুঝতে পারবেন!)


23

প্রভাব আকার সহ নয়।

পুরো গবেষণায় পি-ইনিং (আমাকে সেই লাইনের জন্য আমার প্রিয় গ্রেড স্কুলের অধ্যাপককে জমা দিতে হবে)।

একটি সংখ্যক ডিজিটাল সংখ্যক সংখ্যা দেওয়া (পুরুষরা স্ত্রীদের তুলনায় ৩.১০২০৯ পাউন্ড বেশি অর্জন করেছেন)

পৃষ্ঠা নম্বরগুলি সহ নয় (এটি পর্যালোচনা করা আরও কঠিন করে তোলে)

ভুল সংখ্যা এবং টেবিল

(ইতিমধ্যে উল্লিখিত হিসাবে - ধাপে ধাপে এবং ধারাবাহিক ভেরিয়েবল শ্রেণীবদ্ধ)


7
(+1) "একটি প্রচুর সংখ্যক অঙ্ক দেওয়া (পুরুষরা স্ত্রীদের তুলনায় ৩.১০২০৯ পাউন্ড বেশি অর্জন করেছেন) শুনে উচ্চস্বরে হেসে উঠলেন"।
ম্যাক্রো

19

যখন তারা তাদের বিশ্লেষণের পর্যাপ্ত পরিমাণে ব্যাখ্যা না করে এবং / অথবা সাধারণ ত্রুটিগুলি অন্তর্ভুক্ত করে যা আসলে কী করা হয়েছিল তা কার্যকর করা কঠিন করে তোলে। এর মধ্যে প্রায়শই ব্যাখ্যার মাধ্যমে প্রচুর পরিমাণে ছড়িয়ে পড়া অন্তর্ভুক্ত থাকে, যা লেখক যতটা দ্বিধাহীন মনে করেন তার চেয়ে দ্ব্যর্থক এবং এর অপব্যবহারও হতে পারে।


সম্মত হন - এমনকি বৈজ্ঞানিক সামগ্রীর মূল্যায়ন করার আগে লেখক (গুলি) কী বোঝাতে চেয়েছিলেন তা সত্যই বিরক্তিকর strugg
লরেন্ট

5
আমি সম্মতি দিচ্ছি তবে যখন পর্যালোচক আপনাকে বিশ্লেষণ সম্পর্কে অত্যন্ত গুরুত্বপূর্ণ বিবরণগুলি, বাস্তবতাই, বাদ দিতে (বা উপস্থাপিত উপকরণগুলিতে) বাদ দিতে বলেন তখন আমি এটি আরও বিরক্তিকর বলে মনে করি। এই সমস্যাটি এত তাড়াতাড়ি তৈরি করেছে যাতে প্রচুর বিজ্ঞান / সামাজিক বিজ্ঞানের অনেকগুলি কাগজ যা এমনকি কিছুটা জটিল বিশ্লেষণ করে সেগুলি বেশ ক্রিপ্টিক।
ম্যাক্রো

16

বাদ দেওয়া ভেরিয়েবলগুলি প্রায় অবশ্যই একটি গুরুতর উদ্বেগ যখন পর্যবেক্ষণমূলক ডেটাতে সংযুক্তিগুলি বর্ণনা করতে কার্যকরী ভাষা ব্যবহার করা।


3
আমি সম্মত হই যে গবেষকদের পর্যবেক্ষণ গবেষণা ডিজাইনের দায়গুলি বোঝা উচিত, বিশেষত বাদ দেওয়া ভেরিয়েবলগুলির সাথে সম্পর্কিত, তবে কার্যকারিতা এড়ানো এগুলি করে বলে আমি মনে করি না। কার্যকারণমূলক ভাষা ব্যবহারের পক্ষে সুরক্ষার জন্য আরও বিশদ যুক্তির জন্য হুবার্ট ব্লকের কাজটি দেখুন, বিশেষত তাঁর অ-পরীক্ষামূলক গবেষণায় কসাল ইনফারেন্সেস বইটি।
অ্যান্ডি ডাব্লু

3
(+1) মহামারীবিজ্ঞানের গবেষণায় এটি আমার একক বৃহত্তম সমস্যা হতে পারে।
ম্যাক্রো

14

যখন লেখকরা তাদের জানা একটি স্ট্যাটিস্টিকাল টেস্ট ব্যবহার করেন (আমার ক্ষেত্রে, সাধারণত একটি টি-টেস্ট বা একটি এনওওএ), বিজ্ঞাপন উপযুক্ত নয়, নির্বিশেষে inf আমি সম্প্রতি একটি কাগজ পর্যালোচনা করেছি যেখানে লেখকরা এক ডজন বিভিন্ন চিকিত্সার গোষ্ঠীর তুলনা করতে চেয়েছিলেন, তাই তারা প্রতিটি সম্ভাব্য চিকিত্সার জন্য একটি দুটি-নমুনা টি-পরীক্ষা করেছিলেন ...


13

বিদ্যমান ধারণাগুলির জন্য নতুন শব্দের সাথে উপস্থিত হওয়া বা এর বিপরীতে বিদ্যমান শর্তাদি ব্যবহার করে কিছু আলাদা বোঝাতে।

বিদ্যমান কয়েকটি পরিভাষার বৈষম্য দীর্ঘকাল ধরে সাহিত্যে স্থায়ী হয়েছে: বায়োস্টাটিক্সে অনুদৈর্ঘ্য ডেটা বনাম প্যানেল ডেটা ইকোনোমেট্রিক্সে; সমাজবিজ্ঞানের কারণ ও প্রভাব সূচক বনাম মনোবিজ্ঞানে গঠনমূলক এবং প্রতিফলন সূচক; ইত্যাদি আমি এখনও তাদের ঘৃণা করি তবে কমপক্ষে আপনি তাদের স্ব স্ব সাহিত্যে কয়েক হাজারের জন্য উল্লেখ পেতে পারেন। সবচেয়ে সাম্প্রতিক একটি কার্যকারণ সাহিত্যে পরিচালিত অ্যাকাইক্লিক গ্রাফগুলির কাজের পুরো স্ট্র্যান্ড: বেশিরভাগ, তবে এগুলির মধ্যে সনাক্তকরণ এবং অনুমানের তত্ত্বটি একত্রে সমীকরণের নামে 1950-এর দশকে ইকোনোমেট্রিকরা তৈরি করেছিলেন।

দ্বিগুণ যে শব্দটি ত্রিগল নয়, অর্থ "শক্তিশালী", এবং বিভিন্ন অর্থ প্রায়শই পরস্পরবিরোধী হয়। "শক্তসমর্থ" স্ট্যান্ডার্ড ত্রুটিগুলি বহিরাগতদের জন্য শক্তিশালী নয়; তদ্ব্যতীত, তারা মডেল থেকে অনুমিত বিচ্যুতি ব্যতীত অন্য কোনও কিছুর বিরুদ্ধে দৃ .় নয় এবং প্রায়শই হতাশার ছোট্ট নমুনা কর্মক্ষমতা থাকে। হোয়াইটের স্ট্যান্ডার্ড ত্রুটি সিরিয়াল বা ক্লাস্টার পারস্পরিক সম্পর্কের বিরুদ্ধে শক্তিশালী নয়; SEM- এ "শক্তিশালী" স্ট্যান্ডার্ড ত্রুটিগুলি মডেল কাঠামোর (বাদ দেওয়া পাথ বা ভেরিয়েবল) এর অপব্যবহারের বিরুদ্ধে শক্ত নয়। নাল হাইপোথিসিসের তাত্পর্য পরীক্ষা করার ধারণাটি যেমন ঠিক তেমনি কারও দিকে আঙুল তুলে দেখানোও অসম্ভব: "এই ধারণাটি তৈরি করার জন্য আপনি বেশ কয়েক প্রজন্মের গবেষককে বিভ্রান্ত করার জন্য দায়ী, যা সত্যই এর নামটির পক্ষে দাঁড়ায় না"।


1
আমাকে উভয় পাপ স্বীকার করতে হবে: আমি আমার তথ্যগুলিকে "শ্রেণিবদ্ধ কাঠামোযুক্ত" হিসাবে বর্ণনা করি: যখন আমার 1: n সম্পর্ক থাকে (প্রতিটি নমুনার অনেক পরিমাপ, রোগীর জন্য একাধিক নমুনা) থাকে some এক পর্যায়ে আমি বরং ঘটনাক্রমে শিখেছি যে এটি একে "ক্লাস্টার্ড" ডেটা স্ট্রাকচার বলা হয় - এখন আমি দুটি শব্দই ব্যবহার করি। তবে এখনও আমি জানি না যে আমি কীভাবে এই শব্দটি পেলাম, আমার ডেটা স্ট্রাকচারটি বর্ণনা করার জন্য শব্দটির জন্য আমি তাকাতে চেয়েছিলাম ... অন্যভাবে: আমি এমন কৌশল ব্যবহার করি যা দূরবর্তী
সংবেদনে

2
সব ঠিক আছে - আপনি এই কাঠামোটি উল্লেখ করার উপায়গুলির তালিকায় আপনার "মাল্টিলেভেল" যুক্ত করতে পারেন। "ক্লাস্টারড" এর অর্থ সাধারণত যে পর্যবেক্ষণগুলি পারস্পরিক সম্পর্কযুক্ত বলে জানা যায়, তবে কেউই সেই সম্পর্কটিকে মডেল করতে আগ্রহী না কারণ এটি প্রাথমিক আগ্রহের নয়, এবং জিইইয়ের মতো এই জাতীয় সম্পর্কের ক্ষেত্রে শক্তিশালী এমন পদ্ধতিগুলি সরিয়ে দেয়। আপনার যা আছে তা হ'ল বারবার ব্যবস্থাগুলি মানোভা like এমন একটি স্টাটা প্যাকেজ রয়েছে gllammযা আপনার ডেটাটিকে মাল্টিলেভেল / হায়ারারিকালিকাল ডেটা হিসাবে চিন্তা করে তবে বেশিরভাগ অন্যান্য প্যাকেজগুলি ভেরিয়েবল / কলাম হিসাবে একাধিক পরিমাপ এবং পর্যবেক্ষণ / সারি হিসাবে নমুনাগুলি ভাবেন।
স্টাসকে

ইনপুট জন্য ধন্যবাদ। ঠিক আছে, আজকাল আমি অবশ্যই এখানে এটি জিজ্ঞাসা করব কীভাবে বলা হয় ... এটি ঠিক পুনরাবৃত্তি পরিমাপ নয়: সাধারণত আমি একটি সংখ্যা পরিমাপ করি (প্রস্থের ক্রম: 10 ^ 2 এবং 10 ^ 4 এর মধ্যে) স্যাম্পলটিতে বিভিন্ন স্পট করতে বিভিন্ন উপাদানগুলির মিথ্যা বর্ণের মানচিত্র তৈরি করে এবং প্রতিটি পরিমাপে ইতিমধ্যে 10 ^ 2 - 10 ^ 3 পর্যবেক্ষণ (বর্ণালীতে তরঙ্গদৈর্ঘ্য) রয়েছে। প্রতিটি নমুনার মধ্যে, অনেক স্পেকট্রা অত্যন্ত সংযুক্ত, তবে সমস্ত নয়: নমুনাগুলি একজাতীয় নয়। ...
সিবিলেটিস

1
... আপনার "ক্লাস্টারড" এর বিবরণটি আমরা যা করি তার মতো মনে হয়। তবে আমি বৈধতার জন্য নমুনাগুলিগুলিকে বিভক্ত করার বিষয়ে যত্ন নিচ্ছি, বলুন কার্যকর স্যাম্পল আকার সম্পর্কে আমার কোনও ধারণা নেই (এটি ছাড়াও প্রকৃত নমুনাগুলির সংখ্যা কমপক্ষে রয়েছে) এবং কখনও কখনও দেখান যে প্রতিটিটির সমস্ত পরিমাপ রয়েছে নমুনা আসলে মডেল প্রশিক্ষণের জন্য সহায়তা করে।
49

1
নিশ্চিতভাবেই আকর্ষণীয় এবং চ্যালেঞ্জিং ডেটা।
স্টাসকে

11

নিখোঁজ তথ্য শূন্য বিবেচনা।

অনেক ব্যবহারিক অ্যাপ্লিকেশন ডেটা ব্যবহার করে যার জন্য কমপক্ষে কিছু অনুপস্থিত মান রয়েছে। এটি অবশ্যই মহামারীবিজ্ঞানের ক্ষেত্রে খুব সত্য। রেকর্ডিং মডেল সহ - অনেকগুলি পরিসংখ্যানগত পদ্ধতির জন্য নিখোঁজ হওয়া ডেটা সমস্যা উপস্থাপন করে। লিনিয়ার মডেলগুলির সাথে হারিয়ে যাওয়া ডেটা প্রায়শই কোনও covariates এর কোনও অনুপস্থিত তথ্য সহ কেস মোছার মাধ্যমে মোকাবেলা করা হয়। এটি একটি সমস্যা, যদি না ডেটাটি অনুমানের অধীনে হারিয়ে না যায় যে ডেটা সম্পূর্ণরূপে এলোমেলোভাবে (এমসিএআর) মিস হচ্ছে।

সম্ভবত 10 বছর আগে, নিখোঁজ হওয়ার কোনও বিবেচনা ছাড়াই লিনিয়ার মডেলগুলি থেকে ফলাফল প্রকাশ করা যুক্তিসঙ্গত ছিল। আমি অবশ্যই এর জন্য দোষী। তবে, একাধিক অনুমানের সাথে কীভাবে নিখোঁজ হওয়া ডেটাগুলি মোকাবেলা করা যায় সে সম্পর্কে খুব ভাল পরামর্শ এখন বহুলভাবে পাওয়া যায়, যেমন পরিসংখ্যান প্যাকেজ / মডেল / লাইব্রেরি / ইত্যাদি। নিখোঁজ থাকার সময় আরও যুক্তিসঙ্গত অনুমানের অধীনে আরও উপযুক্ত বিশ্লেষণের সুবিধার্থে।


1
শিক্ষার চেষ্টা করার চেতনায়, আপনি আরও বিশদভাবে বর্ণনা করতে পারেন? আপনি কী বিবেচনা বিবেচনা করেন - এটির উপস্থিতি স্বীকার করা বা এটির সামনে পরিসংখ্যানগত বিশ্লেষণ সামঞ্জস্য করা (উদাহরণস্বরূপ অনুচ্ছেদ)। প্রযোজ্য হলে আমি সাপকে অন্তর্ভুক্ত করার চেষ্টা করি। স্বার্থের covariates দ্বারা অনুপস্থিত মানগুলির টেবিলগুলি, তবে এটি এই মন্তব্য দ্বারা "বিবেচনার" জন্য যথেষ্ট কিনা তা স্পষ্ট নয়।
অ্যান্ডি ডব্লিউ

8

"তাত্পর্যপূর্ণ (p <.10 উদাহরণস্বরূপ) কাছে পৌঁছেছে এবং তারপরে তাদের সম্পর্কে লিখে এমনভাবে লিখছে যেগুলি আরও কঠোর এবং গ্রহণযোগ্য পর্যায়ে তাত্পর্য অর্জন করেছে multiple একাধিক কাঠামোগত সমীকরণ মডেলগুলি যা নেস্টেড ছিল না এবং তারপরে সেগুলি সম্পর্কে লিখেছেন নেস্টেড ছিল।একটি সুপ্রতিষ্ঠিত বিশ্লেষণাত্মক কৌশল গ্রহণ করা এবং এটিকে উপস্থাপন করা যেমন এর আগে কেউ এটিকে ব্যবহার করার কথা ভাবেনি সম্ভবত এটি নবম ডিগ্রি পর্যন্ত চৌর্যবৃত্তির যোগ্যতা অর্জন করে।


হয়তো এটি চুরির বদলে চাকা পুনরায় উদ্ভাবন করছে?
জিরিট

7

আমি নিম্নলিখিত দুটি নিবন্ধ সুপারিশ:

মার্টিন ব্ল্যান্ড:
স্ট্যাটিস্টিকাল রেফারি কীভাবে আপসেট করবেন এটি
অন্যান্য স্ট্যাটিস্টিকাল রেফারিদের ('স্বল্প প্রতিক্রিয়ার হার সহ সুবিধার নমুনা') সহ মার্টিন ব্ল্যান্ডের দেওয়া একাধিক আলোচনার ভিত্তিতে তৈরি। এটি স্ট্যাটিস্টিকাল রেফারিকে বিরক্ত করতে এড়ানোর জন্য '[এইচ] ওউ'র 11-পয়েন্টের তালিকার সাথে শেষ হয়।

স্টিয়ান লিডারসন:
পরিসংখ্যান পর্যালোচনা: প্রায়শই দেওয়া মন্তব্যে
এই সাম্প্রতিক কাগজটি (প্রকাশিত 2014/2015) লেখকের 14 প্রায় সাধারণ পর্যালোচনা মন্তব্যগুলিকে তালিকাভুক্ত করে, প্রায় ভিত্তিতে। বৈজ্ঞানিক কাগজপত্রের 200 পরিসংখ্যানগত পর্যালোচনা (একটি নির্দিষ্ট জার্নালে)। প্রতিটি মন্তব্যে সমস্যার সংক্ষিপ্ত বিবরণ এবং বিশ্লেষণ / প্রতিবেদন সঠিকভাবে কীভাবে করা যায় তার নির্দেশাবলী রয়েছে । উদ্ধৃত রেফারেন্সগুলির তালিকা হ'ল আকর্ষণীয় কাগজপত্রের ভাণ্ডার।


লিডারসেনের তালিকা আকর্ষণীয়। আমি মনে করি আমি তাদের বেশ কয়েকজনের সাথে একমত নই। । ।
স্ট্যাটস স্টুডেন্ট

6

পরীক্ষার তথ্য স্বতন্ত্র নয় এমন ভবিষ্যদ্বাণীমূলক মডেলগুলির সাধারণীকরণ ত্রুটির লক্ষ্যে আমি "বৈধকরণ" দ্বারা সবচেয়ে বেশি (এবং বেশিরভাগ ক্ষেত্রেই) বিরক্ত হয়েছি (উদাহরণস্বরূপ ডেটাতে রোগীর প্রতি সাধারণত একাধিক পরিমাপ, বুট-অফ-বুটস্ট্র্যাপ বা ক্রস বৈধতা বিভাজন পরিমাপ নয়) রোগীদের )।

আরও বিরক্তিকর, এমন ত্রুটিযুক্ত ক্রস বৈধকরণের ফলাফলের সাথে সাথে একটি স্বতন্ত্র পরীক্ষার সেট দেয় এমন কাগজপত্রগুলি যা ক্রস বৈধকরণের ওভারপামটিস্টিক পক্ষপাত প্রদর্শন করে তবে ক্রস বৈধকরণের নকশাটি ভুল বলে একটি শব্দও নয় ...

(যদি একই তথ্য উপস্থাপন করা হত তবে আমি পুরোপুরি খুশি হব "আমরা জানি ক্রস বৈধতা রোগীদের বিভক্ত করা উচিত, তবে আমরা এমন সফ্টওয়্যার দিয়ে আটকেছি যা এটির অনুমতি দেয় না Therefore তাই আমরা পরীক্ষার রোগীদের সত্যিকারের স্বতন্ত্র সেট পরীক্ষা করেছি ")

(আমি এটাও জানি যে বুটস্ট্র্যাপিং = রিপ্লেসমেন্টের সাথে পুনঃসামালন সাধারণত ক্রস বৈধকরণের চেয়ে প্রতিস্থাপন = প্রতিস্থাপন ছাড়াই পুনরায় মডেলিং করে However তবে, আমরা বর্ণালী সংক্রান্ত তথ্য (সিমুলেটেড বর্ণালী এবং সামান্য কৃত্রিম মডেল সেটআপ তবে বাস্তব বর্ণালী) পেয়েছি যা পুনরাবৃত্তি / পুনরাবৃত্ত ক্রস বৈধতা এবং আউট - বুটস্ট্র্যাপের একই সামগ্রিক অনিশ্চয়তা ছিল; oob এর পক্ষপাতিত্ব কিন্তু কম বৈকল্পিক ছিল - পুনর্বিবেচনার জন্য, আমি এটিকে খুব বাস্তববাদী দৃষ্টিকোণ থেকে দেখছি: বারবার ক্রস বৈধতা বনাম-বুটস্ট্র্যাপ যতক্ষণ না অনেক কাগজপত্র হিসাবে ততক্ষণ গুরুত্বপূর্ণ নয় সীমিত পরীক্ষার নমুনা আকারের কারণে এলোমেলো অনিশ্চয়তার কথা বলা বা আলোচনা / আলোচনা / উল্লেখ করা বা ভাগ করা যায় না)

ভুল হওয়ার পাশাপাশি এর পার্শ্ব প্রতিক্রিয়াও রয়েছে যে লোকেরা যারা যথাযথ বৈধতা দেয় তাদের প্রায়শই রক্ষা করতে হয় যে কেন তাদের ফলাফলগুলি সাহিত্যের অন্যান্য ফলাফলগুলির চেয়ে এত খারাপ হয় are


1
নিশ্চিত না যে আপনি এটি বলতে চেয়েছিলেন তবে "আশাবাদ" বুটস্ট্র্যাপ কোনও মডেলকে বৈধতা দেওয়ার অন্যতম সেরা উপায় এবং এর প্রশিক্ষণ এবং পরীক্ষার নমুনাগুলি ওভারল্যাপ হয়।
ফ্রাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্ক হ্যারেল - আমি নিশ্চিত নই যে আমি আপনার বক্তব্য পেয়েছি। সম্ভবত অসুবিধাটি হ'ল কেমোমেট্রিক্সে "ভবিষ্যদ্বাণীমূলক মডেলের বৈধতা" সর্বদা নতুন, অজানা, ভবিষ্যতের ক্ষেত্রে (উদাহরণস্বরূপ: নতুন রোগীদের নির্ণয় করা) পারফরম্যান্স সম্পর্কে। আমি বুটস্ট্র্যাপের বাইরে বা পুনরাবৃত্তি / পুনরাবৃত্ত ক্রস বৈধতা সর্বদা ব্যবহার করি। পরীক্ষা ও ট্রেন সেট ওভারল্যাপিংয়ের সুবিধাটি রোগীর স্তরে বিভক্ত হওয়ার সাথে তুলনা করার বিষয়টি কী ব্যাখ্যা করতে পারেন (আমি ধরে নিই "ওভারল্যাপিং" অর্থ বিভাজন পরিমাপ তাই পরীক্ষা এবং প্রশিক্ষণের পরিমাপ একই রোগীর অন্তর্ভুক্ত হতে পারে, সর্বদা আন্তঃ রোগীর মডেল সম্পর্কে কথা বলা )?
cbeleites

... এবং হ্যাঁ, মডেল বৈধতার কয়েকটি পয়েন্টের আলাদা আলাদা পরীক্ষা এবং প্রশিক্ষণের ক্ষেত্রে ডেটা বিভক্ত না করে উত্তর দেওয়া যেতে পারে (উদাহরণস্বরূপ সহগের পদগুলির ক্ষেত্রে মডেল স্থিতিশীলতা)। তবে ইতিমধ্যে মডেল স্থিতিশীলতা। ভবিষ্যদ্বাণীগুলি অজানা রোগীদের ব্যবহার করে মাপা উচিত (অজানা: কোনও তথ্য-চালিত প্রাক-প্রসেসিং যা সমস্ত কেসকে বিবেচনায় নেয় সেগুলি সহ মডেল তৈরির প্রক্রিয়াতে হাজির হয়নি)। প্রকৃতপক্ষে, কেমোমেট্রিক্সে একটি traditionalতিহ্যগত পরিমাণের জন্য, বৈধতার আরও কয়েকটি পদক্ষেপ রয়েছে যা স্বতন্ত্রভাবে পরিমাপ করা পরীক্ষার ডেটা প্রয়োজন: ...
সিবিলেটগুলি

ভাল অনুশীলনের জন্য যন্ত্রটির অজানা অপারেটর এবং বৈধতার সময় নির্ধারণ করার জন্য বিশ্লেষণাত্মক পদ্ধতির একটি গুরুত্বপূর্ণ বৈশিষ্ট্যটি হ'ল কতটা বার বার ক্যালিগ্রেশন করা দরকার (বা নির্দিষ্ট সময়ের মধ্যে উপকরণের চালিকাটি তুচ্ছ হয়) - কিছু এমনকি লেখকরা এমন একটি "পুনর্নির্মাণের অপব্যবহার" সম্পর্কেও কথা বলেন যা এই জাতীয় স্বতন্ত্র পরীক্ষার সেটগুলিকে অবহেলা করে
cbeleites

1
সরঞ্জাম বা পরিমাপ কৌশল যদি বৈধতার প্রয়োজন হয়, তবে একটি স্বাধীন নমুনা প্রয়োজন। তবে একটি সাধারণ ভুল হ'ল একটি স্বাধীন বৈধতা অনুকরণ করার চেষ্টা করার জন্য ডেটা বিভক্তকরণ ব্যবহার করা। এটি এখনও একটি অভ্যন্তরীণ বৈধতা। উপরের @ ক্লেইলাইট প্রশ্নের উত্তর দেওয়ার জন্য, বুটস্ট্র্যাপিংয়ের সাথে জড়িত ওভারল্যাপযুক্ত নমুনাগুলির ফলে ভবিষ্যতের মডেল পারফরম্যান্সের আরও সঠিক হিসাবের ফলে সংখ্যাগরিষ্ঠ ডেটাসেটের মধ্যে ভাগ হওয়ার সম্ভাবনা বেশি থাকে than আমার কাছে ডেটা স্প্লিটিংটি n = 17,000 এবং 0.30 ইভেন্টের হারের সাথে খারাপভাবে সম্পাদন করেছে।
ফ্র্যাঙ্ক হ্যারেল

4

একক অর্থে "ডেটা" ব্যবহার করা। ডেটা তারা হয় না।


2
সম্ভবত ফরাসী পরিসংখ্যানবিদ;)
স্টাফেন লরেন্ট

9
আমাকে অবশ্যই স্বীকার করতে হবে, আমি 10 বছর বা তার বেশি সময় ধরে এটির সাথে আঁকড়ে থাকার পরে ডেটার বহুবচন ব্যবহারকে ত্যাগ করেছি। আমি সাধারণত অ-প্রযুক্তিগত শ্রোতাদের জন্য লিখি এবং আমি উদ্বিগ্ন হয়ে পড়েছিলাম যে আমি আড়ম্বরপূর্ণ হয়ে আসছি। এপিএর বহুবচন হওয়ার বিষয়ে এখনও কঠোর পাঠ রয়েছে বলে মনে হয় তবে মজার বিষয় হল রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির কোনও বিশেষ মতামত নেই বলে মনে হয় না। এখানে একটি আকর্ষণীয় আলোচনা আছে: guardian.co.uk/news/datablog/2010/jul/16/data-puraral-singular
ক্রিস বিলে

1
আমি কোনও ইংরেজী স্পিকার নই, তবে এককথায় "ডেটা" বা "মিডিয়া" এর মতো কাজের সমস্যাটি হ'ল ইংরাজী অনেক অন্যান্য লাতিন শব্দ ধার নিয়েছে এবং আপনার সমস্ত লাতিন শব্দ একটি ধারাবাহিক উপায়ে ব্যবহার করা দরকার। এরপর কি? "পাঠ্যক্রমটি" বা "পাঠ্যক্রমগুলি"? "মাঝারি হয়"? যদি "ডেটা" লাতিন হয় তবে তা বহুবচন। আলোচনার সমাপ্তি। এখনই এটি কতজন লোক উপেক্ষা করতে চায় তা নয়।
ফ্রাঙ্ক

হতে পারে আমি এটির অপব্যবহার করছি, তবে আমি প্রসঙ্গের উপর নির্ভর করে একবচন এবং বহুবচনগুলির মধ্যে স্যুইচ করছি।
স্ট্যাটাস স্টুডেন্ট

'দাতুম' শব্দের ব্যবহার কম থাকায় এবং বিশেষ পরিস্থিতিতে একরকমভাবে আমি 'ডেভু' শব্দটিকে 'নেকড়ে' শব্দের 'প্যাক' শব্দের সমতুল্য বলে মনে করি। একাধিক নেকড়ে বর্ণনা করার জন্য এককালে 'প্যাক' শব্দটি ব্যবহার করা অবশ্যই গ্রহণযোগ্য। 'ডেটা' শব্দটি ধীরে ধীরে তার নিজস্ব সম্মিলিত বিশেষ্যতে পরিণত হচ্ছে ...
রবার্ট ডি গ্রাফ

3

আমার পক্ষে এখন পর্যন্ত, কোনও যথার্থ কার্যকারণ বিশ্লেষণ ছাড়াই বা যখন অনুপযুক্ত কার্যকারণ অনুকরণের কারণকে কারণ হিসাবে চিহ্নিত করা।

অনুপস্থিত ডেটা কীভাবে পরিচালিত হয়েছিল সেদিকে শূন্য মনোযোগ দেওয়া হলে আমি এটিকে ঘৃণা করি। আমি অনেকগুলি কাগজপত্রও দেখতে পাচ্ছি যেখানে লেখকরা কেবলমাত্র সম্পূর্ণ কেস বিশ্লেষণ করেন এবং ফলাফলগুলি অনুপস্থিত মানগুলির সাথে জনসংখ্যার পক্ষে সাধারণীকরণযোগ্য কিনা বা অনুপস্থিত মানগুলির সাথে জনসংখ্যা কীভাবে সম্পূর্ণ ডেটা সহ জনসংখ্যার থেকে পদ্ধতিগতভাবে পৃথক হতে পারে সে সম্পর্কে কোনও উল্লেখ করেননি।


3

ল্যাটেক্সের চেয়ে মাইক্রোসফ্ট ওয়ার্ড ব্যবহার করা হচ্ছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.