জোয়েল স্পলস্কির "শিকারের শিকার" বৈধ পরিসংখ্যানগত সামগ্রী বিশ্লেষণ পোস্ট কি?


25

আপনি যদি সম্প্রদায়ের বুলেটিনগুলি ইদানীং পড়ছেন, আপনি সম্ভবত হান্টিং অফ দ্য স্নার্ক দেখতে পেয়েছেন, স্ট্যাকএক্সচেঞ্জ নেটওয়ার্কের প্রধান নির্বাহী জোয়েল স্পলস্কির অফিশিয়াল স্ট্যাক এক্সচেঞ্জ ব্লগে একটি পোস্ট তিনি বাইরের ব্যবহারকারীর দৃষ্টিকোণ থেকে তাদের "বন্ধুত্ব" মূল্যায়নের জন্য এসই মন্তব্যের একটি নমুনায় পরিচালিত একটি পরিসংখ্যান বিশ্লেষণ আলোচনা করেন। মন্তব্যগুলি এলোমেলোভাবে স্ট্যাকওভারফ্লো থেকে নমুনাযুক্ত ছিল এবং সামগ্রী বিশ্লেষকরা অ্যামাজনের মেকানিকাল তুর্কি সম্প্রদায়ের সদস্য ছিলেন, এমন একটি বাজার যা কাজের জন্য সংস্থাগুলি সংস্থাগুলিকে সংযুক্ত করে যারা সাশ্রয়ী মূল্যের জন্য ছোট, সংক্ষিপ্ত কাজগুলি করে workers

এত দিন আগে, আমি রাষ্ট্রবিজ্ঞানে স্নাতক ছাত্র ছিলাম এবং যে ক্লাস নিয়েছিলাম তার মধ্যে একটি ছিল পরিসংখ্যান বিষয়বস্তু বিশ্লেষণ । ক্লাসের চূড়ান্ত প্রকল্পটি, এর সম্পূর্ণ উদ্দেশ্য ছিল নিউ ইয়র্ক টাইমসের যুদ্ধের প্রতিবেদনের বিশদ বিশ্লেষণ করা, যুদ্ধের সময় আমেরিকানরা নিউজ কভারেজ সম্পর্কে অনেক অনুমান যে সঠিক ছিল তা সঠিকভাবে পরীক্ষা করা (বিলোপকারী: প্রমাণ থেকে বোঝা যায় যে তারা না). প্রকল্পটি বিশাল এবং বেশ মজাদার ছিল তবে এখন পর্যন্ত এর সবচেয়ে বেদনাদায়ক অংশটি ছিল 'প্রশিক্ষণ ও নির্ভরযোগ্যতা পরীক্ষার পর্ব', যা আমাদের সম্পূর্ণ বিশ্লেষণের আগেই ঘটেছিল। এর দুটি উদ্দেশ্য ছিল (বিশদ বিবরণের জন্য লিঙ্কযুক্ত কাগজের পৃষ্ঠা 9 দেখুন, পাশাপাশি বিষয়বস্তু বিশ্লেষণের পরিসংখ্যানের সাহিত্যে ইন্টারকোডার নির্ভরযোগ্যতার মানগুলির উল্লেখ):

  1. সমস্ত কোডার, অর্থাৎ সামগ্রীর পাঠকদের নিশ্চিত করুন, একই গুণগত সংজ্ঞায় প্রশিক্ষণ দেওয়া হয়েছিল। জোয়েলের বিশ্লেষণে এর অর্থ এই প্রকল্পটি কীভাবে "বন্ধুত্বপূর্ণ" এবং "বন্ধুত্বপূর্ণ" সংজ্ঞায়িত হয়েছিল তা প্রত্যেকেই ঠিক বুঝতে পারবে।

  2. সমস্ত কোডারকে এই নিয়মগুলি নির্ভরযোগ্যতার সাথে ব্যাখ্যা করার বিষয়টি নিশ্চিত করুন, অর্থাত আমরা আমাদের নমুনা নমুনা দিয়েছি, উপসেটটি বিশ্লেষণ করেছি এবং তার পরে পরিসংখ্যানগতভাবে গুণগত মূল্যায়নের ক্ষেত্রে আমাদের যুগল পারস্পরিক সম্পর্কগুলি বেশ মিল ছিল।

নির্ভরযোগ্যতা পরীক্ষার ক্ষতি হয়েছে কারণ আমাদের এটি তিন বা চারবার করতে হয়েছিল। -1- অবধি লক করা এবং -2- পর্যন্ত যথেষ্ট পরিমাণে জুটিযুক্ত পারস্পরিক সম্পর্ক দেখা গেছে, সম্পূর্ণ বিশ্লেষণের জন্য আমাদের ফলাফল সন্দেহজনক were এগুলি বৈধ বা অবৈধ প্রদর্শিত হতে পারে। সবচেয়ে বড় কথা, চূড়ান্ত নমুনা সেট তৈরির আগে আমাদের নির্ভরযোগ্যতার পাইলট পরীক্ষা করতে হয়েছিল।

আমার প্রশ্নটি হ'ল: জোয়েলের পরিসংখ্যানগত বিশ্লেষণে একটি পাইলট নির্ভরযোগ্যতা পরীক্ষার ঘাটতি নেই এবং "বন্ধুত্ব" এর কোনও অপারেশনাল সংজ্ঞা স্থাপন করেনি। চূড়ান্ত ডেটা কি তার ফলাফলের পরিসংখ্যানের বৈধতা সম্পর্কে কিছু বলতে যথেষ্ট নির্ভরযোগ্য ছিল?

এক দৃষ্টিকোণের জন্য, আন্তঃ কোডার নির্ভরযোগ্যতা এবং ধারাবাহিক অপারেশনাল সংজ্ঞাগুলির মান সম্পর্কে এই প্রাইমারটি বিবেচনা করুন একই উত্সের গভীর থেকে আপনি পাইলট নির্ভরযোগ্যতা পরীক্ষা (তালিকার আইটেম 5) সম্পর্কে পড়তে পারেন

তার উত্তরে প্রতি অ্যান্ডি ডব্লু। এর পরামর্শ, আমি ডেটাসেটের বিভিন্ন নির্ভরযোগ্যতার পরিসংখ্যান গণনা করার চেষ্টা করছি, যা এখানে পাওয়া যায়, আর- তে এই কমান্ড সিরিজটি ব্যবহার করে (আমি নতুন পরিসংখ্যান গণনা করার সাথে সাথে আপডেট করেছি)।

বর্ণনামূলক পরিসংখ্যান এখানে

শতকরা চুক্তি (সহনশীলতার সাথে = 0): 0.0143

শতাংশ চুক্তি (সহনশীলতার সাথে = 1): 11.8

ক্রিপেনডরফের আলফা: 0.1529467

আমি অন্য প্রশ্নে এই ডেটার জন্য একটি আইটেম-প্রতিক্রিয়া মডেল চেষ্টা করেছি


1
প্রকাশ্যে কোডিং তথ্য প্রকাশ হয়নি তাই এক যান এবং পরিকল্পনাটি নিজেদের যদি এক করতে চেয়েছিলেন নির্ভরযোগ্যতা মূল্যায়ন পারে।
অ্যান্ডি ডাব্লু

3
পুনরায়: # 1 - এটি লক্ষ করা উচিত যে মন্তব্যগুলি বন্ধুত্বপূর্ণ ছিল কিনা তা নিয়ে এতটা অনুশীলন ছিল না, তবে বাইরের ব্যবহারকারীর পক্ষে মতামত বন্ধুত্বপূর্ণ কিনা তা বিবেচনা করা হয়েছিল কিনা তা নিয়ে আরও অনুশীলন করা উচিত ।
রাচেল

3
@ রাচেল আমি এটিকে সঠিক মনে করি না। যদি তারা পরিমাপ করছিলেন যে বহিরাগতরা কীভাবে এসও-তে মন্তব্যগুলি উপলব্ধি করে তবে তাদের পক্ষে 20 জনের চেয়ে বেশ বড় একটি নমুনা সেট দরকার ছিল।
ক্রিস্টোফার

2
বাইরের লোকেরা কীভাবে মন্তব্যগুলি উপলব্ধি করে সে সম্পর্কে কিছু উপসংহারে এবং মন্তব্যগুলি সম্পর্কে নিজেরাই কিছু উপসংহারের মধ্যে পার্থক্য। প্রথম ক্ষেত্রে, আপনার অনেক বড় আকারের লোকের প্রয়োজন হবে এবং উপসংহারটি হবে "বহিরাগতরা মনে করেন যে এসও-র মন্তব্যগুলির 2.3% বন্ধুত্বপূর্ণ" " দ্বিতীয়টিতে এটি "এসও মন্তব্যগুলির 2.3% মন্তব্য বন্ধুত্বপূর্ণ" " তারা বিভিন্ন উপসংহার, এবং আমি মনে করি যে দ্বিতীয়টি করা সম্ভব নাও হতে পারে, কারণ আমরা কোডারদের বিশ্বাসযোগ্যতা পরীক্ষা না করে একইভাবে মন্তব্যের মূল্যায়ন মূল্যায়ন করতে পারি না।
ক্রিস্টোফার

2
@ খ্রিস্টোফার বন্ধুত্ব যদিও খুব সাবজেক্টিভ। আপনি কাকে জিজ্ঞাসা করছেন তার উপর নির্ভর করে একই মন্তব্যটি বন্ধুত্বপূর্ণ এবং বন্ধুত্বপূর্ণ উভয় হিসাবে দেখা যেতে পারে। এজন্য আমি নিজের মতো করে ঠিক একই দৃষ্টিভঙ্গি ব্যক্তির পরিবর্তে বিপুল সংখ্যক এলোমেলো ব্যবহারকারীর কাছ থেকে দৃষ্টিভঙ্গি পাওয়া আরও বেশি গুরুত্বপূর্ণ মনে করি।
রাহেল

উত্তর:


6

শতকরা চুক্তি (সহনশীলতার সাথে = 0): 0.0143

শতাংশ চুক্তি (সহনশীলতার সাথে = 1): 11.8

ক্রিপেনডরফের আলফা: 0.1529467

এই চুক্তিটি পরিমাপ করে যে কার্যত কোনও শ্রেণিবদ্ধ চুক্তি নেই - প্রতিটি কোডারের কাছে "বন্ধুত্বপূর্ণ" বা "বন্ধুত্বপূর্ণ" হিসাবে মন্তব্যগুলি বিচার করার জন্য তার নিজস্ব অভ্যন্তরীণ কাটফয়েন্ট রয়েছে।

যদি আমরা ধরে নিই যে তিনটি বিভাগের অর্ডার দেওয়া হয়েছে, যেমন: নিঃস্বার্থ << নিরপেক্ষ <বন্ধুত্বপূর্ণ, আমরা চুক্তির অন্য একটি পরিমাপ হিসাবে ইন্ট্রাক্লাস পারস্পরিক সম্পর্কও গণনা করতে পারি। 1000 টি মন্তব্যের এলোমেলো নমুনায়, .28 এর একটি আইসিসি (2,1), এবং .88 এর একটি আইসিসি (2, কে) রয়েছে। এর অর্থ, আপনি যদি কেবলমাত্র 20 টি রাটারের একটি নেন, ফলাফল খুব অবিশ্বাস্য হবে (.28), আপনি যদি 20 টি রাটার গড়ে নেন, ফলাফল নির্ভরযোগ্য (.88)। তিনটি এলোমেলো রাটারের বিভিন্ন সংমিশ্রণ গ্রহণের গড় নির্ভরযোগ্যতা .50 এবং .60 এর মধ্যে, যা এখনও খুব কম বলে গণ্য হবে।

দুটি কোডারের মধ্যে গড় দ্বিখণ্ডিত পারস্পরিক সম্পর্ক 34 34, এটিও কম।

যদি এই চুক্তির ব্যবস্থাগুলি কোডারগুলির মান (যেমন আসলে ভাল চুক্তি প্রদর্শন করা উচিত) হিসাবে দেখা যায় তবে উত্তরটি হ'ল: তারা ভাল কোডার নয় এবং আরও ভাল প্রশিক্ষিত হওয়া উচিত। যদি এটিকে "এলোমেলো ব্যক্তিদের মধ্যে স্বতঃস্ফূর্ত চুক্তি কতটা ভাল" এর পরিমাপ হিসাবে দেখা যায়, উত্তরটিও পাওয়া যায়: খুব বেশি নয়। একটি মানদণ্ড হিসাবে, শারীরিক আকর্ষণীয় রেটিংয়ের গড় পারস্পরিক সম্পর্ক lation৪ -। --১ [১]

[1] ল্যাংলোইস, জেএইচ, কালাকানিস, এল।, রুবেস্টাইন, এজে, লারসন, এ।, হাল্লাম, এম, এবং স্মুট, এম (2000)। ম্যাক্সিমস নাকি সৌন্দর্যের মিথ? একটি মেটা-অ্যানালিটিক এবং তাত্ত্বিক পর্যালোচনা। মনস্তাত্ত্বিক বুলেটিন, 126, 390–423। ডোই: 10.1037 / 0033-2909.126.3.390


7

স্কোরের নির্ভরযোগ্যতা প্রায়শই ক্লাসিকাল টেস্ট থিওরির ক্ষেত্রে ব্যাখ্যা করা হয় । এখানে একটির সত্যিকারের স্কোর রয়েছে Xতবে আপনি যে কোনও নির্দিষ্ট পরিণামে যা পর্যবেক্ষণ করছেন তা কেবলমাত্র সঠিক স্কোর নয়, তবে কিছু ত্রুটি (অর্থাত Observed = X + error) সহ সত্য স্কোর । তত্ত্ব অনুসারে, একই অন্তর্নিহিত পরীক্ষার একাধিক পর্যবেক্ষণমূলক ব্যবস্থা গ্রহণের মাধ্যমে (সেই পরীক্ষাগুলির ত্রুটির বন্টন সম্পর্কে কিছু অনুমান করা) তারপরে অনাবৃত সত্যিকারের স্কোরটি পরিমাপ করা যায়।

এই ফ্রেমওয়ার্কটিতে এখানে নোট করুন যে আপনাকে ধরে নিতে হবে যে আপনার একাধিক পর্যবেক্ষণকৃত পদক্ষেপগুলি একই অন্তর্নিহিত পরীক্ষাটি পরিমাপ করছে। পরীক্ষার আইটেমগুলির দুর্বল নির্ভরযোগ্যতা তখন ঘন ঘন প্রমাণ হিসাবে গৃহীত হয় যে পর্যবেক্ষণ করা পদক্ষেপগুলি একই অন্তর্নিহিত পরীক্ষাকে মাপছে না। এটি কেবলমাত্র ক্ষেত্রের একটি সম্মেলন, যদিও এবং নিজের মধ্যে দুর্বল নির্ভরযোগ্যতা প্রমাণ করে না (কোনও পরিসংখ্যানগত দিক থেকে) আইটেমগুলি একই নির্মাণকে পরিমাপ করছে না। সুতরাং এটি যুক্তিযুক্ত হতে পারে যে অনেক পর্যবেক্ষণমূলক ব্যবস্থা গ্রহণ করে, এমনকি খুব অবিশ্বাস্য পরীক্ষা দিয়েও, কেউ সত্য স্কোরের একটি নির্ভরযোগ্য পরিমাপ সম্পর্কে আসতে পারে।

এটি আরও উল্লেখ করা যায় যে শাস্ত্রীয় পরীক্ষা তত্ত্বটি এই জাতীয় পরীক্ষাগুলির ব্যাখ্যার একমাত্র উপায় নয়, এবং অনেক স্কোলাররা যুক্তি দিতেন যে সুপ্ত পরিবর্তনশীল এবং আইটেম-প্রতিক্রিয়া তত্ত্বের ধারণাটি ধ্রুপদী পরীক্ষার তত্ত্বের তুলনায় সর্বদা উপযুক্ত।


ক্লাসিকাল টেস্ট থিওরিতে একই রকম অন্তর্নিহিত অনুমানটি যখন লোকেরা বলে যে নির্ভরযোগ্যতা খুব বেশি থাকে। এটি নির্দিষ্ট আইটেম (গুলি) কিছু অন্তর্নিহিত পরীক্ষা পরিমাপ কিনা তা বৈধতা সম্পর্কে কিছুই বলে না, তবে যখন বিশ্বাসযোগ্যতা খুব বেশি হয় তখন গবেষকরা এটিকে প্রমাণ হিসাবে গ্রহণ করেন যে পরীক্ষার মধ্যে ত্রুটিগুলি স্বাধীন নয়।

আপনি নিজে না গিয়ে নির্ভরযোগ্যতা গণনা করার বিষয়ে কেন আপনি এত উত্সাহী তা আমি নিশ্চিত নই। কেন কেউ এটি করতে পারে না এবং পরবর্তীকালে এই অতিরিক্ত তথ্যের আলোকে বিশ্লেষণটি ব্যাখ্যা করতে পারে?


সুতরাং প্রথমে আমাকে তুলে ধরতে দাও যে আমি কোনও গ্রেড শিক্ষার্থী নন যে কোনও ভাল কারণে স্ট্যাটাস করছি: এটি আমার পক্ষে মোটেও ভুল ছিল না। আমি পদ্ধতিটি ভুলভাবে বিবেচনা করছি। সর্বোপরি, আমি মনে করি আপনি এবং আমি নির্ভরযোগ্যতার বিভিন্ন পদক্ষেপের বিষয়ে কথা বলব, বা অন্তত বিশ্লেষণের বৈধতার জন্য চূড়ান্ত বিশ্লেষণ করার আগে ইন্টারকোডার নির্ভরযোগ্যতা পরিমাপ করার পরামর্শ দেওয়ার জন্য গবেষণা রয়েছে। ওয়েবে আমার পাওয়া একটি উত্স অন্তর্ভুক্ত করার জন্য আমি প্রশ্নটি সম্পাদনা করেছি, যা এই বিষয়ে আরও গবেষণার উদ্ধৃতি দেয়।
ক্রিস্টোফার

এটি একটি ভিন্ন প্রসঙ্গ (কিছু ধারাবাহিক ফলাফলের পরিবর্তে দ্বি-পরীক্ষামূলক আইটেমগুলির নির্ভরযোগ্যতা), তবে যুক্তি কার্যত একই। সুতরাং কেন আমি নির্ভরযোগ্যতার কোনও নির্দিষ্ট পরিমাপের উল্লেখ করিনি (অনেকগুলি রয়েছে)। আপনার উক্তিটি কোনও বিষয়ে অন্তর্নিহিত করে না before the final analysis, তাই আমি ধারণাটি কোথা থেকে এসেছে তা আমি নিশ্চিত নই।
অ্যান্ডি ডাব্লু

আহ হা। আপনি সঠিক, এটি যথেষ্ট প্রয়োজন হয় না। আমি যে লিঙ্কটি পোস্ট করেছি সে সম্পর্কে আরও পড়তে দেখে মনে হচ্ছে এই পাইলট পরীক্ষাগুলি একটি পদ্ধতিগত সেরা অনুশীলন হিসাবে বিবেচিত হয় (এতে পাইলট পরীক্ষার জন্য অনুসন্ধান করুন)।
ক্রিস্টোফার

আমি নতুন তথ্য সমন্বিত করতে আমার প্রশ্ন পরিবর্তন করেছি। আমার ত্রুটি সংশোধন করতে সহায়তা করার জন্য আপনাকে ধন্যবাদ।
ক্রিস্টোফার

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.