পরিসংখ্যান ফরেনসিক: বেনফোর্ড এবং এর বাইরেও


23

তৃতীয় পক্ষ দ্বারা উত্পাদিত বৈজ্ঞানিক কাজগুলিতে জালিয়াতি, অসঙ্গতি, জালিয়াতি ইত্যাদি সনাক্ত করার জন্য কোন বিস্তৃত পদ্ধতি রয়েছে? (সাম্প্রতিক মার্ক হাউসার সম্পর্কে আমি এটি জিজ্ঞাসা করার জন্য অনুপ্রাণিত হয়েছিলাম ।) সাধারণত নির্বাচন এবং অ্যাকাউন্টিং জালিয়াতির জন্য, বেনফোর্ডের আইনের কিছু বৈকল্পিক উদ্ধৃত করা হয়। আমি নিশ্চিত না যে এটি কীভাবে উদাহরণস্বরূপ মার্ক হাউজারের ক্ষেত্রে প্রয়োগ করা যেতে পারে , কারণ বেনফোর্ডের আইনটিতে সংখ্যাগুলি প্রায় লগ ইউনিফর্মের প্রয়োজন।

একটি দৃ concrete় উদাহরণ হিসাবে, ধরুন একটি কাগজ প্রচুর পরিসংখ্যান পরীক্ষার জন্য পি-মানগুলি উদ্ধৃত করেছে। লগ ইউনিফর্মে কেউ কি এগুলিকে রূপান্তর করতে পারে, তারপরে বেনফোর্ডের আইন প্রয়োগ করতে পারে? দেখে মনে হচ্ছে এই পদ্ধতির সাথে সমস্ত ধরণের সমস্যা হবে ( যেমন নাল অনুমানের কিছু বৈধভাবে মিথ্যা হতে পারে, পরিসংখ্যানের কোডটি পি-মান দিতে পারে যা কেবল প্রায় সঠিক, পরীক্ষাগুলি কেবল পি-মান দিতে পারে যা অভিন্ন নাল অধীনে asyptotically, ইত্যাদি)


2
এই প্রশ্নের মরিয়া হয়ে উত্তর দরকার যা পরিসংখ্যানগত ফরেনসিকের প্রকৃত উদাহরণ সরবরাহ করতে পারে! গৃহীত উত্তরটি মোটেই তা করে না। দুর্দান্ত সাম্প্রতিক উদাহরণ রয়েছে যেমন যেমন সিমোনসোহন 2013 , কার্লিসিল 2012 (এবং 2015 ফলোআপ ), পিট এবং হিল 2013 এবং আরও অনেক কিছু।
অ্যামিবা বলেছেন মনিকা পুনরায়

উত্তর:


11

দুর্দান্ত প্রশ্ন!

বৈজ্ঞানিক প্রসঙ্গে বিভিন্ন ধরণের সমস্যাযুক্ত প্রতিবেদন এবং সমস্যাযুক্ত আচরণ রয়েছে:

  • জালিয়াতি : ফলাফলকে ভুলভাবে উপস্থাপন করার জন্য এবং লেখক বা বিশ্লেষক পক্ষের ইচ্ছাকৃত উদ্দেশ্য হিসাবে জালিয়াতির সংজ্ঞা দিয়েছি এবং যেখানে ভুল উপস্থাপনা যথেষ্ট গুরুতর প্রকৃতির। কাঁচা তথ্য বা সংক্ষিপ্ত পরিসংখ্যানের সম্পূর্ণ বানোয়াট হওয়াই প্রধান উদাহরণ।
  • ত্রুটি : ডেটা বিশ্লেষকরা ডেটা এন্ট্রি থেকে শুরু করে ডেটা ম্যানিপুলেশন, বিশ্লেষণ, রিপোর্টিং, ব্যাখ্যাসমূহে ডেটা বিশ্লেষণের অনেক পর্যায়ে ত্রুটি করতে পারেন।
  • অনুপযুক্ত আচরণ : অনুপযুক্ত আচরণের অনেকগুলি রূপ রয়েছে। সাধারণভাবে, এটি একটি অরিয়েন্টেশন দ্বারা সংক্ষিপ্ত করা যেতে পারে যা সত্যের অনুসন্ধানের চেয়ে কোনও নির্দিষ্ট অবস্থান নিশ্চিত করতে চায় to

অনুপযুক্ত আচরণের সাধারণ উদাহরণগুলির মধ্যে রয়েছে:

  • সম্ভাব্য নির্ভরশীল ভেরিয়েবলগুলির একটি সিরিজ পরীক্ষা করা এবং কেবলমাত্র এটিই রিপোর্টিং যা পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ
  • অনুমানের গুরুত্বপূর্ণ লঙ্ঘনের উল্লেখ নেই
  • উল্লেখ না করে ডেটা ম্যানিপুলেশন এবং আউটিলার অপসারণের পদ্ধতি সম্পাদন করা, বিশেষত যেখানে ফলাফলগুলি আরও ভাল দেখানোর জন্য এই পদ্ধতিগুলি উভয়ই অনুপযুক্ত এবং খাঁটিভাবে বেছে নেওয়া হয়েছে
  • একটি মডেলকে নিশ্চিতকরণ হিসাবে উপস্থাপন করা যা আসলে অনুসন্ধানী
  • পছন্দসই যুক্তিটির বিপরীতে যাওয়া গুরুত্বপূর্ণ ফলাফলগুলি ছাড়াই
  • পরিসংখ্যানগত পরীক্ষা নির্বাচন করা কেবলমাত্র সেই ভিত্তিতে যা ফলাফল আরও ভাল দেখায়
  • পাঁচ বা দশটি আন্ডার-পাওয়ার্ড স্টাডিজের একটি সিরিজ চালানো যেখানে কেবলমাত্র একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ (সম্ভবত পি = .04 এ) এবং তারপরে অন্যান্য অধ্যয়নের উল্লেখ ছাড়াই অধ্যয়নটি রিপোর্ট করা

সাধারণভাবে, আমি অনুমান করছিলাম যে অক্ষমতাটি তিনটি সমস্যাযুক্ত আচরণের সাথে সম্পর্কিত। যে গবেষক কীভাবে ভাল বিজ্ঞান করবেন তা বুঝতে পারেন না তবে অন্যথায় সফল হতে চান তাদের ফলাফলগুলিকে ভুলভাবে উপস্থাপন করার আরও বেশি প্ররোচনা পাবেন এবং নৈতিক তথ্য বিশ্লেষণের নীতির প্রতি শ্রদ্ধার সম্ভাবনা কম less

সমস্যাযুক্ত আচরণ সনাক্তকরণের জন্য উপরোক্ত পার্থক্যগুলির অন্তর্ভুক্ত রয়েছে। উদাহরণস্বরূপ, আপনি যদি রিপোর্ট করা ফলাফলের একটি সেট ভুল কিনা তা নির্ধারণ করতে পরিচালনা করেন, তবে ফলাফল এখনও জালিয়াতি, ত্রুটি বা অনুপযুক্ত আচরণ থেকে উত্থাপিত হয়েছে কিনা তা এখনও অনুসন্ধান করা দরকার। এছাড়াও, আমি ধরে নেব যে জালিয়াতির চেয়ে বিভিন্ন ধরণের অনুচিত আচরণ common

সমস্যাযুক্ত আচরণ শনাক্ত করার ক্ষেত্রে, আমি মনে করি এটি মূলত একটি দক্ষতা যা ডেটা নিয়ে কাজ করা, কোনও বিষয়ের সাথে কাজ করা এবং গবেষকদের সাথে কাজ করার অভিজ্ঞতা থেকে আসে from। এই সমস্ত অভিজ্ঞতা ডেটা কেমন হওয়া উচিত সে সম্পর্কে আপনার প্রত্যাশাগুলি মজবুত করে। সুতরাং, প্রত্যাশাগুলি থেকে বড় বিচ্যুতি একটি ব্যাখ্যা অনুসন্ধানের প্রক্রিয়া শুরু করে। গবেষকদের সাথে অভিজ্ঞতা আপনাকে এমন ধরণের অনুচিত আচরণের ধারণা দেয় যা কম বেশি সাধারণ। সংমিশ্রণে এটি অনুমানের প্রজন্মের দিকে পরিচালিত করে। উদাহরণস্বরূপ, যদি আমি একটি জার্নাল নিবন্ধটি পড়ে থাকি এবং ফলাফলগুলি নিয়ে আমি অবাক হয়ে যাই, গবেষণাটি নিম্নশক্ত হয় এবং লেখার প্রকৃতি থেকে বোঝা যায় যে লেখক একটি বক্তব্য রাখার বিষয়ে সেট করেছেন, আমি অনুমানটি তৈরি করি যে ফলাফলগুলি সম্ভবত না হওয়া উচিত বিশ্বস্ত.

অন্যান্য উৎস


4

আসলে, বেনফোর্ডের আইন একটি অবিশ্বাস্যভাবে শক্তিশালী পদ্ধতি। এটি কারণ বেনফোর্ডের প্রথম অঙ্কের ফ্রিকোয়েন্সি বিতরণ বাস্তব বা প্রাকৃতিক বিশ্বে ঘটে যাওয়া সমস্ত ধরণের ডেটা সেটের ক্ষেত্রে প্রযোজ্য।

আপনি ঠিক বলেছেন যে আপনি কিছু নির্দিষ্ট পরিস্থিতিতে বেনফোর্ডের আইন ব্যবহার করতে পারেন। আপনি বলেছেন যে ডেটাটির একটি অভিন্ন লগ বিতরণ থাকতে হবে। প্রযুক্তিগতভাবে, এটি একেবারে সঠিক। তবে, আপনি প্রয়োজনীয়তাটি আরও সহজ এবং স্বচ্ছভাবে বর্ণনা করতে পারেন। আপনার কেবলমাত্র ডেটা সেট পরিসরটি কমপক্ষে একটি মাত্রার প্রস্থকে অতিক্রম করতে হবে। আসুন 1 থেকে 9 বা 10 থেকে 99 বা 100 থেকে 999 পর্যন্ত বলুন it যদি এটি দুটি মাত্রার ক্রমটি অতিক্রম করে তবে আপনি ব্যবসায়ে রয়েছেন। এবং, বেনফোর্ডের আইনটি বেশ সহায়ক হওয়া উচিত।

বেনফোর্ডের আইনের সৌন্দর্যটি হ'ল এটি আপনাকে তথ্যের খড়ের স্তুপের মধ্যে সূঁচের উপর খুব দ্রুত আপনার তদন্তকে সংকীর্ণ করতে সহায়তা করে। আপনি অসঙ্গতিগুলির জন্য সন্ধান করেন যার মাধ্যমে প্রথম অঙ্কের ফ্রিকোয়েন্সি বেনফোর্ড ফ্রিকোয়েন্সিগুলির চেয়ে অনেক বেশি আলাদা। একবার আপনি লক্ষ্য করেন যে সেখানে দুটি আরও 6 টি রয়েছে, তারপরে আপনি কেবল 6s এর দিকে মনোনিবেশ করতে বেনফোর্ডের আইন ব্যবহার করেন; তবে, আপনি এখন এটি প্রথম দুটি অঙ্ক (60, 61, 62, 63, ইত্যাদি ...) এ নিয়ে যান। এখন, আপনি খুঁজে পেতে পারেন যে আরও অনেক s৩ এর পরে রয়েছে বেনফোর্ড কী পরামর্শ দেয় (আপনি বেনফোর্ডের ফ্রিকোয়েন্সি গণনা করে এটি করবেন: লগ (1 + 1/63) যা আপনাকে 0% এর কাছাকাছি একটি মান দেয়)। সুতরাং, আপনি প্রথম তিনটি অঙ্কে বেনফোর্ড ব্যবহার করেন। আপনি যখন আবিষ্কার করবেন তখন অনেকগুলি 632 সেকেন্ড (বা বেনফোর্ডের ফ্রিকোয়েন্সি গণনা করে যা কিছু আছে: লগ (1 + 1/632)) প্রত্যাশার চেয়ে আপনি সম্ভবত কোনও কিছুতে চলেছেন। সমস্ত অসঙ্গতিগুলি জালিয়াতি নয়। কিন্তু,

যদি মার্স হোসার যে ডেটা সেট করেছিল সেটি যদি প্রাসঙ্গিক পরিমাণের সাথে বিস্তৃত প্রাকৃতিক নিয়ন্ত্রণবিরোধী ডেটা হয় তবে এটি বেনফোর্ডের আইন একটি খুব ভাল ডায়াগনস্টিক টুল হতে পারে। আমি নিশ্চিত যে অপ্রত্যাশিত নিদর্শনগুলি সনাক্ত করার জন্য এবং অন্যান্য ভাল ডায়াগনস্টিক সরঞ্জামগুলিও রয়েছে এবং বেনফোর্ডের আইনের সাথে মিশ্রিত করে আপনি সম্ভবত মার্ক হাউসার সম্পর্কিত বিষয়টি কার্যকরভাবে তদন্ত করতে পারেন (বেনফোর্ডের আইনের উল্লিখিত ডেটা প্রয়োজনীয়তার বিষয়টি বিবেচনা করে)।

আমি এই সংক্ষিপ্ত উপস্থাপনায় বেনফোর্ডের আইনটিকে আরও কিছুটা ব্যাখ্যা করি যা আপনি এখানে দেখতে পারেন: http://www.slideshare.net/gaetanlion/benfords-law-4669483

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.