ডেটা ভিজ্যুয়ালাইজ করার পরে একটি পরিসংখ্যান পরীক্ষা করা - ডেটার ড্রেজিং?


31

আমি একটি উদাহরণের মাধ্যমে এই প্রশ্নটি প্রস্তাব করব।

ধরুন আমার কাছে ডেটা সেট রয়েছে যেমন বোস্টন হাউজিং প্রাইস ডেটা সেট, এতে আমার ক্রমাগত এবং শ্রেণিবদ্ধ ভেরিয়েবল রয়েছে। এখানে, আমাদের কাছে 1 থেকে 10 এবং "বিক্রয়মূল্য" মানের একটি পরিবর্তনশীল রয়েছে। আমি (নিম্নমানের) "উচ্চ" মানের মানের ঘরগুলিতে (নির্বিচারে) মানের জন্য কাট অফ তৈরি করে ডেটা আলাদা করতে পারি। তারপরে, এই গোষ্ঠীগুলি ব্যবহার করে, আমি একে অপরের বিরুদ্ধে বিক্রয়মূল্যের হিস্টোগ্রামগুলি প্লট করতে পারি। তাই ভালো:

আবাসন মানের এবং বিক্রয় মূল্য

এখানে, "নিম্ন "টি 3 এবং " মানের "স্কোরটিতে " উচ্চ " । আমাদের কাছে এখন তিনটি দলের প্রত্যেকের জন্য বিক্রয়মূল্যের বিতরণ রয়েছে। এটি স্পষ্ট যে মাঝারি এবং উচ্চ মানের ঘরগুলির জন্য অবস্থানের কেন্দ্রস্থানে একটি পার্থক্য রয়েছে। এখন, এই সমস্ত কাজটি করার পরে, আমি মনে করি "এইচএম। অবস্থানের কেন্দ্রে কোনও পার্থক্য রয়েছে বলে মনে হচ্ছে! কেন আমি উপায়গুলির উপর টি-টেস্ট করব না?"। তারপরে, আমি একটি পি-মান পাই যা নাল অনুমানটিকে সঠিকভাবে প্রত্যাখ্যান করে বলে মনে হয় যে কোনও উপায় নেই।>7

এখন, ধরুন আমি ডেটা প্লট না করা পর্যন্ত এই অনুমানটি পরীক্ষার জন্য আমার মনে কিছু ছিল না mind

এই তথ্য ড্রেজিং হয়?

এটি কি এখনও ডেটার ড্রেজিং করছে যদি আমি ভেবেছিলাম: "এইচএম, আমি উচ্চ মানের মানের বাড়িগুলির জন্য বেশি ব্যয় করে থাকি, যেহেতু আমি একজন মানুষ যে আগে একটি বাড়িতে বাস করতাম। আমি ডেটা চক্রান্ত করতে যাচ্ছি। আহ হা! অন্যরকম দেখাচ্ছে! সময় টি-টেস্ট করতে! "

স্বভাবতই, এই অনুমানটি পরীক্ষা-নিরীক্ষার মাধ্যমে পরীক্ষা করার উদ্দেশ্যে যদি ডেটা সেটটি সংগ্রহ করা হয় তবে এটি ডেটা-ড্রেজিং নয়। তবে প্রায়শই একটি আমাদের দেওয়া ডেটা সেটগুলির সাথে কাজ করতে হয় এবং তাদের "নিদর্শনগুলির সন্ধান" করতে বলা হয়। এই অস্পষ্ট কাজটি মাথায় রেখে কেউ কীভাবে ডেটা ড্রেজিং এড়াতে পারে? ডেটা পরীক্ষার জন্য হোল্ড আউট সেট তৈরি করবেন? উপাত্ত দ্বারা প্রস্তাবিত হাইপোথিসিস পরীক্ষা করার সুযোগের জন্য ভিজ্যুয়ালাইজেশন কি "গণনা" করে?

উত্তর:


27

@ ইঙ্গোলিফসের জবাবকে সংক্ষেপে একমত / জবাব দেওয়া: হ্যাঁ, আপনার ডেটা ভিজ্যুয়ালাইজ করা জরুরী। তবে বিশ্লেষণের সিদ্ধান্ত নেওয়ার আগে ভিজ্যুয়ালাইজিং আপনাকে গেলম্যান এবং লোকেনের বাগানের পথে বাগানের দিকে নিয়ে যায় । এটি ডেটা ড্রেজিং বা পি-হ্যাকিংয়ের মতো নয়, আংশিকভাবে অভিপ্রায় (GoFP সাধারণত ভাল-অর্থপূর্ণ) এবং আংশিক কারণ আপনি একাধিক বিশ্লেষণ না চালাতে পারেন। কিন্তু এটা হয় snooping একটি ফর্ম: আপনার বিশ্লেষণ ডেটা-নির্ভরশীল, আপনার মিথ্যা বা overconfident সিদ্ধান্তে হতে পারে হয়।

আপনার উদ্দেশ্য বিশ্লেষণ কী তা কোনওভাবে নির্ধারণ করা উচিত (যেমন "উচ্চ মানের ঘরগুলি দামের চেয়ে বেশি হওয়া উচিত") এবং আপনার ডেটা দেখার আগে এটি লিখে (বা আনুষ্ঠানিকভাবে এটি প্রাক-নিবন্ধন করুন) এতে আপনার ভবিষ্যদ্বাণী ভেরিয়েবলগুলি দেখার জন্য এটি ঠিক আছে অগ্রিম, শুধু না প্রতিক্রিয়া ভেরিয়েবলের (গুলি), কিন্তু আপনি সত্যিই কোন আছে যদি অবরোহমার্গী ধারনা তারপর আপনি এমনকি কোন ভেরিয়েবল ভবিষ্যতবক্তা হতে পারে জানি না এবং প্রতিক্রিয়া হতে পারে যা); যদি আপনার ডেটা কিছু আলাদা বা অতিরিক্ত বিশ্লেষণের পরামর্শ দেয়, তবে আপনার লেখার মাধ্যমে আপনি প্রাথমিকভাবে কী বোঝাতে চেয়েছিলেন এবং কী (এবং কেন) আপনি এটি শেষ করেছেন তা উভয়ই জানিয়ে দিতে পারে।

আপনি যদি সত্যিই খাঁটি অন্বেষণ করে থাকেন (যেমন, আপনার কোনও পূর্বোত্ত অনুমান নেই, আপনি কেবল ডেটাতে কী দেখতে চান):

  • নিশ্চিতকরণের জন্য একটি নমুনা রাখা সম্পর্কে আপনার ধারণা ভাল good
    • আমার বিশ্বে (আমি বিশাল ডেটা সেট নিয়ে কাজ করি না) কম নমুনার আকারের কারণে রেজোলিউশনের ক্ষতি যন্ত্রণাদায়ক হবে
    • আপনার ডেটা কোনও উপায়ে (ভৌগোলিকভাবে, সময় ধারাবাহিক ইত্যাদি) কাঠামোগত করা থাকলে আপনার হোল্ডআউট নমুনা বাছতে আপনাকে কিছুটা সতর্ক হওয়া দরকার। ডেটা আইডির মতো সাবম্যাম্পলিংয়ের ফলে অতিরিক্ত আত্মবিশ্বাসের দিকে পরিচালিত হয় ( বাস্তুশাস্ত্র ও বিবর্তন ২০১২-তে ওয়েঙ্গার এবং ওল্ডেন পদ্ধতিগুলি দেখুন ), তাই আপনি ভৌগলিক ইউনিটগুলি ধরে রাখতে বেছে নিতে পারেন ( উদাহরণস্বরূপ বাস্তুশাস্ত্র এবং বিবর্তন 2015- ডিজে হ্যারিস পদ্ধতিগুলি দেখুন )
  • আপনি স্বীকার করতে পারবেন যে আপনি খাঁটি অন্বেষণ করছেন। আদর্শভাবে আপনি এক্ষেত্রে সম্পূর্ণরূপে পি-মানগুলি রক্ষা করবেন তবে আপনার দর্শকদের কমপক্ষে বলবেন যে আপনি জিওএফপিতে ঘুরে বেড়াচ্ছেন তারা তাদের জানতে দেয় যে তারা লবণের প্রচুর শস্যের সাথে পি-মানগুলি নিতে পারে।

"নিরাপদ পরিসংখ্যান অনুশীলন" এর জন্য আমার প্রিয় উল্লেখটি হ্যারেলের রেগ্রেশন মডেলিং কৌশলগুলি (স্প্রঞ্জার); তিনি কঠোর কিন্তু ব্যবহারিক পদ্ধতিতে অনুমান বনাম পূর্বাভাস বনাম অনুসন্ধানের জন্য সেরা অনুশীলনগুলি রাখেন।


4
খুব ভাল লাগিয়ে! আমি ভবিষ্যতে লোকদের এই উত্তরটি উল্লেখ করব বলে আশা করি।
গ্রেট 38

ঠিক আমি যে ধরণের প্রতিক্রিয়াটি খুঁজছিলাম, ধন্যবাদ আমি এই প্রতিক্রিয়াটির উত্তর হিসাবে জমা দিয়েছি। নিরাপদ পরিসংখ্যান চর্চা শেখায় এমন কোনও সংস্থান সম্পর্কে আপনি কি জানেন? আপনার পোস্ট করা (দুর্দান্ত) নিবন্ধগুলির চেয়ে সম্ভবত কিছুটা প্রশস্ততা
মার্সেল

দুর্দান্ত উত্তর (+1), তবে আমি একমত নই যে এটি ডেটা-ড্রেজিংয়ের চেয়ে আলাদা; অভিপ্রায় অপ্রাসঙ্গিক - প্রভাব একই।
মনিকা 7

আমি আসলে মনে করি এটি স্নুপিংয়ের বিভিন্ন রূপের মধ্যে পার্থক্য বজায় রাখার পক্ষে মূল্যবান। ড্রেজিং তর্কসাপেক্ষে আরো গুরুতর কারণ এটি জড়িত (1) একাধিক হয় স্পষ্ট বদলে পরীক্ষার একাধিক অন্তর্নিহিত পরীক্ষা এবং (2) শর্তসাপেক্ষ; / p & <0.05 (অথবা যাই হোক না কেন) পর্যন্ত পরীক্ষা করতে লাগল এটা করা যায়। গুণগত প্রভাব অবশ্যই একই।
বেন বলকার

11

ডেটা ভিজ্যুয়ালাইজ করা বিশ্লেষণের একটি অপরিহার্য অংশ এবং অপরিচিত ডেটা সেট নিয়ে আপনার করা প্রথম কাজগুলির একটি। তথ্যগুলির একটি চক্ষুশ্রুতি পরবর্তী পদক্ষেপগুলি জানাতে পারে। প্রকৃতপক্ষে, গ্রাফটি দেখে বোঝা গেল যে উপায়গুলি ভিন্ন, এবং আমি নিশ্চিত নই কেন এটির জন্য কোনও টি-টেস্টের দরকার ছিল - উপায়গুলি যথেষ্ট পরিমাণে পৃথক হয়ে গেছে যে গ্রাফ নিজেই সমস্ত প্রমাণ যা আমি করব প্রয়োজন হয়।

আর2

আমি মনে করি যদিও এখানে একটি গভীর প্রশ্ন আছে। আপনি কীভাবে জেনের মতো নিরপেক্ষতা বজায় রাখবেন এবং বৈজ্ঞানিক উপায়ে ডেটা নিয়ে কাজ করার সময় পক্ষপাত এড়বেন? উত্তর, আপনি না। বা বরং, আপনি করতে হবে না। হানচ এবং হাইপোথিসিকে গঠন করা এবং ডেটা বলতে কী বোঝায় তার মানসিক বিবরণ তৈরি করা পুরোপুরি প্রাকৃতিক এবং গ্রহণযোগ্য, তবে আপনি যদি এই বিষয়ে অবগত হন যে আপনি বিবাদমান তথ্যের সাথে লড়াইয়ের সময় এই সমস্ত অনুমানটি পুনর্বিবেচনার জন্য মানসিকভাবে প্রস্তুত রয়েছেন।


7
পরীক্ষা চালানোর আগে ডেটা ভিজ্যুয়ালাইজ করা এই নির্দিষ্ট ক্ষেত্রে নিরীহ হতে পারে। তবে, এরপরে একজন আরেকটি মাত্রা কল্পনা করবে ... এবং অন্যটি ... এবং স্ক্র্যাটারপ্লটগুলি দেখুন ... এবং শীঘ্রই, একজন এমন একটি জিনিস খুঁজে পাবেন যা "যথেষ্ট সুস্পষ্ট" দেখায় যাতে একটি আনুষ্ঠানিক পরীক্ষা এবং একটি আখ্যান প্রাকৃতিকভাবে আসে। ওহ হ্যাঁ, ডেটা ড্রেজিং অবশ্যই এমন কিছু যা দুর্ঘটনাক্রমে আপনি সহজেই করতে পারেন। দেখুন "পাথ forking উদ্যান" Gelman এর
এস কোলাসা - মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.