কুরটোসিস দ্বারা উত্পাদিত আউটলিয়ারদের চিকিত্সা


10

আমি ভাবছিলাম যে কেউ আমাকে কুর্তোসিস সম্পর্কে তথ্য সাহায্য করতে পারে (অর্থাত আপনার ডেটা হ্রাস করার জন্য এটি রূপান্তর করার কোনও উপায় আছে?)

আমার কাছে একটি প্রশ্নপত্র ডেটাসেট রয়েছে যাতে প্রচুর পরিমাণে কেস এবং ভেরিয়েবল থাকে। আমার কয়েকটি ভেরিয়েবলের জন্য, ডেটাগুলি বেশ উচ্চ কুর্তোসিস মানগুলি (অর্থাত্ একটি লেপটোকুর্টিক বিতরণ) দেখায় যা অংশগ্রহণকারীদের মধ্যে অনেকগুলি ভেরিয়েবলের জন্য ঠিক একই স্কোর দেয় তা থেকে প্রাপ্ত। আমার একটি বিশেষত বড় আকারের নমুনা আকার রয়েছে, তাই কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্য অনুসারে, স্বাভাবিকতার লঙ্ঘনগুলি এখনও ঠিক হওয়া উচিত।

তবে সমস্যাটি হ'ল সত্য যে উচ্চতর স্তরের কুর্তোসিস আমার ডেটাসেটে অবিচ্ছিন্ন বহিরাগতদের একটি সংখ্যা তৈরি করে। যেমন, আমি যদি ডেটাটি রূপান্তর করি, বা আউটলিয়ারগুলি অপসারণ / সামঞ্জস্য করি তবে কুর্তোসিসের উচ্চ স্তরের অর্থ হ'ল পরবর্তী চরম স্কোরগুলি স্বয়ংক্রিয়ভাবে আউটলিয়ার হয়ে যায়। আমি ব্যবহার (লক্ষ্যভেদ ফাংশন বিশ্লেষণ) লক্ষ্য। বলা হয় যে ডিএফএ স্বাভাবিকতা থেকে বিদায় নেওয়ার পক্ষে শক্তিশালী, তবে শর্ত হয় যে লঙ্ঘনটি স্কিউনেসের কারণে হয়েছে এবং বিদেশী না হয়ে। তদ্ব্যতীত, ডিএফএ এছাড়াও ডেটা (ট্যাবচনিক এবং ফিদেল) এর outliers দ্বারা বিশেষত প্রভাবিত বলে বলা হয়।

এই কাছাকাছি পেতে কোন ধারণা? (আমার প্রাথমিক চিন্তাটি কুর্তোসিস নিয়ন্ত্রণের কিছু উপায় ছিল, তবে আমার নমুনার বেশিরভাগ ক্ষেত্রে একই রকম রেটিং দিলে কি এটি কোনও ভাল জিনিস নয়?)

উত্তর:


8

আপনার সমস্যার সমাধানের সুস্পষ্ট "সাধারণ জ্ঞান" উপায়টি হল

  1. সম্পূর্ণ ডেটা সেট ব্যবহার করে উপসংহারটি পান । অর্থাত্ মধ্যবর্তী গণনা উপেক্ষা করে আপনি কী ফলাফল ঘোষণা করবেন?
  2. "আউটলিয়ার্স" সরানো আছে বলে ডেটা সেট ব্যবহার করে উপসংহারটি পান । অর্থাত্ মধ্যবর্তী গণনা উপেক্ষা করে আপনি কী ফলাফল ঘোষণা করবেন?
  3. ধাপ 1 এর সাথে দ্বিতীয় ধাপের তুলনা করুন
  4. যদি কোনও পার্থক্য না থাকে তবে ভুলেও আপনার কোনও সমস্যা হয়েছিল। আউটলিয়াররা আপনার উপসংহারে অপ্রাসঙ্গিক । আউটলিয়াররা এই ডেটা ব্যবহার করে আঁকা হতে পারে এমন আরও কিছু সিদ্ধান্তে প্রভাব ফেলতে পারে তবে এটি আপনার কাজের সাথে অপ্রাসঙ্গিক। এটি অন্য কারও সমস্যা।
  5. যদি কোনও পার্থক্য থাকে, তবে আপনার কাছে মূলত "বিশ্বাস" এর প্রশ্ন রয়েছে। এই "আউটলিয়ার" কি এই অর্থে সত্য যে তারা সত্যই আপনার বিশ্লেষণ সম্পর্কে কিছু উপস্থাপন করে? বা "আউটলিয়ার" কি খারাপ যে তারা কিছু "দূষিত উত্স" থেকে এসেছে?

পরিস্থিতি 5-এ আপনি মূলত "জনসংখ্যা" বর্ণনার জন্য যে কোনও "মডেল" ব্যবহার করেছেন তা অসম্পূর্ণ - এর একটি বিবরণ রয়েছে যা অনির্দিষ্টভাবে ছেড়ে গেছে, তবে কোন সিদ্ধান্তে তা গুরুত্বপূর্ণ। এটি সমাধানের দুটি উপায় রয়েছে, দুটি "বিশ্বাস" পরিস্থিতি অনুসারে:

  1. আপনার মডেলটিতে কিছু অতিরিক্ত কাঠামো যুক্ত করুন যাতে এটি "আউটলিয়ার" বর্ণনা করে। সুতরাং পরিবর্তে , বিবেচনা ।P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. একটি "মডেল-মডেল" তৈরি করুন, একটি "ভাল" পর্যবেক্ষণের জন্য এবং একটি "খারাপ" পর্যবেক্ষণের জন্য। সুতরাং পরিবর্তে আপনি , আপনি কি পাওয়ার সম্ভাবনা ছিল? আপনার নমুনায় একটি "ভাল" পর্যবেক্ষণ এবং জি এবং বি "ভাল" এবং "খারাপ" ডেটার জন্য মডেলগুলি উপস্থাপন করে।P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

বেশিরভাগ "স্ট্যান্ডার্ড" প্রক্রিয়াগুলিকে এই ধরণের মডেলের সাদৃশ্য হিসাবে দেখানো যেতে পারে। সর্বাধিক সুস্পষ্ট একটি কেস 1 বিবেচনা করে দেখা যায়, যেখানে পর্যবেক্ষণগুলি জুড়ে বৈচিত্রটি ধ্রুবক হিসাবে ধরে নেওয়া হয়। বিতরণে এই ধারণাটি শিথিল করে আপনি একটি মিশ্রণ বিতরণ পাবেন। এটি "সাধারণ" এবং "টি" বিতরণের মধ্যে সংযোগ। স্বাভাবিকের মধ্যে বৈকল্পিক নির্দিষ্ট থাকে, যেখানে "টি" বিভিন্ন রূপের সাথে মিশে যায়, "মিক্সিং" এর পরিমাণ স্বাধীনতার ডিগ্রিগুলির উপর নির্ভর করে depends উচ্চ ডিএফ মানে লো মিক্সিং (আউটলিয়াররা অসম্ভাব্য), নিম্ন ডিএফ মানে উচ্চ মিক্সিং (আউটলিয়াররা সম্ভবতঃ)। প্রকৃতপক্ষে আপনি কেস 2 কে বিশেষ 1 কেস 1 হিসাবে বিবেচনা করতে পারেন, যেখানে "ভাল" পর্যবেক্ষণগুলি স্বাভাবিক এবং "খারাপ" পর্যবেক্ষণগুলি কচি (1 ডিএফ সহ টি)।


কী দুর্দান্ত উত্তর, @ প্রবলেসিসপ্লিক
পিটার

কেবল একটি স্পষ্টকরণ নোট: সর্বোত্তম শ্রেণিবিন্যাসের জন্য সত্যিকারের মাল্টিভারিয়েট বিতরণগুলির জ্ঞান প্রয়োজন। আপনি যদি এই বিতরণগুলি ভালভাবে অনুমান করতে পারেন তবে ফলাফলযুক্ত শ্রেণিবিন্যাস কার্যটি প্রায় অনুকূল। আউটলিয়াররা (কুর্তোসিস দ্বারা নির্দেশিত) প্রকৃতপক্ষে সমস্যাযুক্ত কারণ ঘনত্বটি অনুমান করার জন্য এই অঞ্চলে খুব কম ডেটা নেই। মাল্টিভারিয়েট ডেটা সহ, মাত্রিকতার অভিশাপও এই সমস্যায় অবদান রাখে।
পিটার ওয়েস্টফল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.