একই বাক্স এবং হুইস্কার প্লট (মানে / স্টাডি / মিডিয়ান / এমএডি / মিনিট / সর্বোচ্চ) সহ আনসকম্বের মতো ডেটাসেটগুলি


21

সম্পাদনা: যেহেতু এই প্রশ্নটি ফুলে উঠেছে, একটি সংক্ষিপ্তসার: একই মিশ্র পরিসংখ্যানের সাথে বিভিন্ন অর্থপূর্ণ এবং ব্যাখ্যাযোগ্য ডেটাসেটগুলি সন্ধান করা (মানে, মিডিয়ান, মিডরেঞ্জ এবং তাদের সম্পর্কিত বিচ্ছুরণ এবং রিগ্রেশন)।

আনসকম্বের চৌকোটিটি ( উচ্চ মাত্রিক ডেটা দেখার উদ্দেশ্যে দেখুন ? ) একই প্রান্তিক গড় / স্ট্যান্ডার্ড বিচ্যুতি ( আলাদাভাবে চার x এবং চার y এর উপর ) এবং একই ওএলএস লিনিয়ার ফিটের সাথে চার এক্স - Y ডেটাসেটের একটি বিখ্যাত উদাহরণ , রিগ্রেশন এবং স্কোয়ারের অবশিষ্টাংশ যোগফল এবং পারস্পরিক সম্পর্কের সহগের আর 22 টাইপ পরিসংখ্যান (প্রান্তিক এবং জয়েন্ট) যখন ডেটাসেট বেশ ভিন্ন, একই এইভাবে হয়।এক্সYআর22

আনসকম্বের চৌকোটি

সম্পাদনা করুন (ওপি মন্তব্যগুলি থেকে) ছোট ডেটাসেটের আকারটি পৃথক করে রেখে আমাকে কিছু ব্যাখ্যা দেওয়ার প্রস্তাব দিই। সেট 1 টি বিতরণ শব্দের সাথে একটি আদর্শ রৈখিক (affine, সঠিক হতে) সম্পর্ক হিসাবে দেখা যেতে পারে। সেট 2 একটি পরিষ্কার সম্পর্ক দেখায় যা উচ্চ-ডিগ্রি ফিটের আকীম হতে পারে। সেট 3 কোনও আউটলারের সাথে সুস্পষ্ট রৈখিক পরিসংখ্যান নির্ভরতা দেখায়। সেট 4 আরো চতুর হল: প্রচেষ্টা "ভবিষ্যদ্বাণী করা" Y থেকে করার চেষ্টা ব্যর্থতার পক্ষে আবদ্ধ বলে মনে হচ্ছে। নকশা এক্স মূল্যবোধের একটি অপর্যাপ্ত পরিসীমা সঙ্গে একটি hysteresis প্রপঞ্চ প্রকাশ করতে পারে, একটি quantization প্রভাব পড়ে না ( এক্স খুব প্রচন্ডভাবে quantizied হতে পারে), অথবা ব্যবহারকারীর নির্ভর এবং স্বাধীন ভেরিয়েবল সুইচড হয়েছে।এক্সএক্সএক্স

সুতরাং সংক্ষিপ্ত বৈশিষ্ট্যগুলি খুব আলাদা আচরণ লুকায়। 2 সেটটি বহুতোষ ফিটের সাথে আরও ভালভাবে মোকাবেলা করা যেতে পারে। আউটলেটার-প্রতিরোধী পদ্ধতিগুলির সাথে 3 সেট করুন (1 বা লাইক) পাশাপাশি সেট 4 One অন্যরকম ব্যয়ের কাজগুলি বা তাত্পর্যপূর্ণ সূচকগুলি নিষ্পত্তি করতে পারে কিনা তা অবাক করতে পারে বা কমপক্ষে ডেটাসেট বৈষম্যকে উন্নত করতে পারে One সম্পাদনা করুন (ওপি মন্তব্যগুলি থেকে): ব্লগ পোস্টকৌতূহলী রেজিস্ট্রেশনগুলিবলে যে:21

ঘটনাক্রমে, আমাকে বলা হয়েছে যে ফ্রাঙ্ক আনসকম্ব কখনই প্রকাশ করেননি যে তিনি কীভাবে এই ডেটা সেটগুলি নিয়ে এসেছেন। আপনি যদি মনে করেন যে সমস্ত সংক্ষিপ্তসার পরিসংখ্যান এবং রিগ্রেশন ফলাফলগুলি একই পাওয়া সহজ কাজ, তবে এটি চেষ্টা করে দেখুন!

ইন একটি উদ্দেশ্য Anscombe এর চৌতাল অনুরূপ জন্য নির্মিত ডেটাসেটস , বিভিন্ন আকর্ষণীয় ডেটাসেট একই সমাংশক ভিত্তিক histograms সঙ্গে দেওয়া হয়, উদাহরণস্বরূপ। আমি অর্থবহ সম্পর্ক এবং মিশ্র পরিসংখ্যানের মিশ্রণ দেখিনি।

আমার প্রশ্নটি হ'ল: এখানে কি দ্বিবিভক্ত (বা তাত্পর্যপূর্ণ, ভিজ্যুয়ালাইজেশন রাখতে) আনসকম্বের মতো ডেটাসেটগুলি রয়েছে যা একই টাইপের পরিসংখ্যান ছাড়াও2 :

  • তাদের প্লটগুলির মধ্যে একটি সম্পর্ক হিসাবে ব্যাখ্যাযোগ্য এবং ওয়াইয়ের, যেন কেউ পরিমাপের মধ্যে কোনও আইন খুঁজছে,এক্সY
  • তাদের সমান (আরও ) margin 1 প্রান্তিক সম্পত্তি (একই মিডিয়ান এবং পরম বিচ্যুতির মধ্যস্থ),1
  • তাদের একই বাউন্ডিং বাক্স রয়েছে: একই মিনিট, সর্বোচ্চ (এবং তাই) টাইপ মধ্য পরিসীমা ও মধ্য বিঘত পরিসংখ্যান)।

এই জাতীয় ডেটাসেটের প্রতিটি " ভেরিয়েবল " তে একই "বক্স-ও-হুইস্কার" প্লট সংক্ষিপ্তসারগুলি (মিনিট, সর্বাধিক, মধ্যক, মাঝারি পরম বিচ্যুতি / এমএডি, গড় এবং এসটিডি সহ) থাকবে এবং তবুও এটি ব্যাখ্যায় বেশ আলাদা হবে be

এটি আরও আকর্ষণীয় হবে যদি কিছুটা পরম রেগ্রেশন ডেটাসেটগুলির জন্য একই হয় (তবে সম্ভবত আমি ইতিমধ্যে খুব বেশি জিজ্ঞাসা করছি)। তারা একটি দিতে পেরেছিলেন সতর্কীকরণ যখন শক্তসমর্থ বনাম না শক্তসমর্থ প্রত্যাবৃত্তি, ও মন রিচার্ড Hamming এর উদ্ধৃতি সাহায্যের রাখা সম্পর্কে কথা বলা:

গণনার উদ্দেশ্য অন্তর্দৃষ্টি, সংখ্যা নয়

সম্পাদনা (ওপি মন্তব্য থেকে) অনুরূপ ইস্যুগুলি আইডেন্টিক্যাল স্ট্যাটিস্টিক্স সহ ডেটা উত্পন্ন করার ক্ষেত্রে মোকাবেলা করা হয় তবে বিচ্ছিন্ন গ্রাফিক্স , সংগীত চ্যাটার্জী এবং আইকুট ফিরাটা, আমেরিকান স্ট্যাটিস্টিশিয়ান, 2007, বা ক্লোনিং ডেটা: ঠিক একই একাধিক লিনিয়ার রিগ্রেশন ফিটের সাথে ডেটাসেট তৈরি করা, জে। আস্ট-। N.-Z. তাত্ক্ষণিকবাজার। জে 2009।

চ্যাটার্জি (2007) -র উদ্দেশ্য হ'ল উপন্যাস ( x , y ) উত্পন্ন করাপ্রাথমিক ডেটাসেট থেকে একই উপায় এবং মানক বিচ্যুতি নিয়ে ) যুক্ত করা , যখন বিভিন্ন "বৈষম্য / ভিন্নতা" উদ্দেশ্যমূলক কার্যকে সর্বাধিক করে তোলা izing যেহেতু এই ফাংশনগুলি অ-উত্তেজক বা অবিচ্ছিন্ন হতে পারে, তারা জেনেটিক অ্যালগরিদম (জিএ) ব্যবহার করে। গুরুত্বপূর্ণ পদক্ষেপগুলি অর্থো-নরমালাইজেশন ধারণ করে, যা সংরক্ষণের গড় এবং (ইউনিট) বৈকল্পিকের সাথে খুব সামঞ্জস্যপূর্ণ। কাগজের পরিসংখ্যান (অর্ধেক কাগজের সামগ্রী) সুপারপোজ ইনপুট এবং জিএ আউটপুট ডেটা। আমার অভিমত জিএ আউটপুটগুলি মূল স্বজ্ঞাত ব্যাখ্যাটি অনেকটা হারাতে পারে।(এক্স,Y)

এবং প্রযুক্তিগতভাবে, মিডিয়ান বা মিডরেঞ্জ উভয়ই সংরক্ষণ করা হয় না এবং কাগজটিতে রেনারমালাইজেশন প্রক্রিয়াগুলি উল্লেখ করে না যা , 1 এবং ats পরিসংখ্যান সংরক্ষণ করে।21


3
আপনি যদি একই বাক্সপ্লটগুলির সাথে অবিচ্ছিন্ন ডেটা সেট করার পরে থাকেন তবে আমি একটি কাগজের বিকাশের ভিত্তিতে কিছুক্ষণ আগে একটি প্রশ্নের উত্তরে একটি সেট দিয়েছি। ধরো, আমি এটি খনন করব। (সম্পাদনা) ... এখানে । একই বৈশিষ্ট্যগুলির সাথে আরও ডেটা সেট করা সহজ ... আমি এখানে অন্য উত্তরে উত্তর দিয়েছি ।
গ্লেন_বি -রিনস্টেট মনিকা

2
এক্সY

এক্সY

3
চ্যাটার্জী ও Firat ( আমেরিকান পরিসংখ্যানবিদ , 2007) , ইন লিঙ্ক এই উত্তর করতে এই প্রশ্নের , বরং একটি সাধারণ জেনেটিক আলগোরিদিম আপনি আপনার উদ্দেশ্য করার জন্য একটি সহজবোধ্য ভাবে খাপ খাওয়ানো করতে সক্ষম হওয়া উচিত প্রদান।
এস। কোলাসা - মনিকা

1
প্লটগুলি হ'ল জনসংখ্যার মুহুর্ত অর্থহীন হওয়ার উদাহরণ, যখন বিতরণের মুহুর্তগুলিকে উপেক্ষা করা হয়। গড়, আদর্শ বিচ্যুতি, স্কিউনেস এবং অন্যান্য জনসংখ্যার মুহুর্তগুলি সেই জনসংখ্যার সর্বোত্তমভাবে বর্ণনা করে এমন বিতরণের প্রত্যাশিত মান, মানক বিচ্যুতি, স্কিউনেস এবং বিতরণের অন্যান্য মুহুর্তগুলির সাথে মিলে না। উপরের প্লটগুলিকে যখন এক্স-মান এবং y- মানগুলির বিতরণ হিসাবে দেখানো হয়, সেগুলি সমস্ত আলাদা হয় এবং তাই বিভিন্ন বিতরণের মুহুর্তগুলি থাকে। এটি আরও খারাপ যে কেবলমাত্র অবশিষ্ট অবকাঠামোকে উপেক্ষা করা, যা সম্ভবত এটিই ছিল পয়েন্ট, কেউই শাস্তি ছাড়াই উপেক্ষা করতে পারে না।
কার্ল

উত্তর:


1

কংক্রিট হতে, আমি দুটি ডাটাसेट তৈরির সমস্যা বিবেচনা করছি যার মধ্যে প্রতিটিই একটি সম্পর্কের পরামর্শ দেয় তবে প্রত্যেকটির সম্পর্ক আলাদা এবং তবুও প্রায় একই রকম থাকে:

  • মানে x
  • মানে y
  • এসডি এক্স
  • এসডি ওয়াই
  • মিডিয়ান এক্স
  • মধ্যম y
  • সর্বনিম্ন x
  • সর্বনিম্ন y
  • সর্বাধিক এক্স
  • সর্বাধিক y
  • x এর মধ্যক থেকে মধ্যমা পরম বিচ্যুতি
  • y এর মধ্যমা থেকে মিডিয়ান পরম বিচ্যুতি
  • এক্স উপর y এর সাধারণ লিনিয়ার রিগ্রেশন থেকে সহগফল

গড়Y=0সর্বনিম্নY=-সর্বোচ্চY । তারপরে আমরা স্পষ্টত স্বতন্ত্র বন্টনের পরামর্শমূলক কিছু পেতে কেবল উল্লম্বভাবে তথ্যগুলি উল্টাতে পারি তবে যেখানে উপরের সমস্ত পরিসংখ্যান সংরক্ষিত রয়েছে।

উদাহরণস্বরূপ, বিবেচনা করুন

এক্স019293949596979891Y-1-1201211120-12-1

যার উপরের দিকের Vর্ধ্বমুখী-ভি-আকৃতির গ্রাফ রয়েছে:

চিত্রলেখ

Y-Y


দুর্দান্ত অবদান। প্রকৃতপক্ষে, আমি অনুভূমিক লাইনটি পড়েছি কিছুটা প্রতারণামূলক আরএলএস। উল্টানো একটি ভাল ধারণা, তবুও যদি ডেটাসেটগুলি পৃথক হয় তবে সেগুলি একই থাকে। তবে আমি মনে করি আপনার ভাল ধারণা আছে, সম্ভবত একটি "এন" আকৃতি এবং একই ফ্যাশনে "ডাব্লু" আকৃতিটি কোনও পথের সূচনা হতে পারে
লরেন্ট ডুভাল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.