সম্পাদনা: যেহেতু এই প্রশ্নটি ফুলে উঠেছে, একটি সংক্ষিপ্তসার: একই মিশ্র পরিসংখ্যানের সাথে বিভিন্ন অর্থপূর্ণ এবং ব্যাখ্যাযোগ্য ডেটাসেটগুলি সন্ধান করা (মানে, মিডিয়ান, মিডরেঞ্জ এবং তাদের সম্পর্কিত বিচ্ছুরণ এবং রিগ্রেশন)।
আনসকম্বের চৌকোটিটি ( উচ্চ মাত্রিক ডেটা দেখার উদ্দেশ্যে দেখুন ? ) একই প্রান্তিক গড় / স্ট্যান্ডার্ড বিচ্যুতি ( আলাদাভাবে চার x এবং চার y এর উপর ) এবং একই ওএলএস লিনিয়ার ফিটের সাথে চার - ডেটাসেটের একটি বিখ্যাত উদাহরণ , রিগ্রেশন এবং স্কোয়ারের অবশিষ্টাংশ যোগফল এবং পারস্পরিক সম্পর্কের সহগের আর 2 । ℓ 2 টাইপ পরিসংখ্যান (প্রান্তিক এবং জয়েন্ট) যখন ডেটাসেট বেশ ভিন্ন, একই এইভাবে হয়।
সম্পাদনা করুন (ওপি মন্তব্যগুলি থেকে) ছোট ডেটাসেটের আকারটি পৃথক করে রেখে আমাকে কিছু ব্যাখ্যা দেওয়ার প্রস্তাব দিই। সেট 1 টি বিতরণ শব্দের সাথে একটি আদর্শ রৈখিক (affine, সঠিক হতে) সম্পর্ক হিসাবে দেখা যেতে পারে। সেট 2 একটি পরিষ্কার সম্পর্ক দেখায় যা উচ্চ-ডিগ্রি ফিটের আকীম হতে পারে। সেট 3 কোনও আউটলারের সাথে সুস্পষ্ট রৈখিক পরিসংখ্যান নির্ভরতা দেখায়। সেট 4 আরো চতুর হল: প্রচেষ্টা "ভবিষ্যদ্বাণী করা" থেকে করার চেষ্টা ব্যর্থতার পক্ষে আবদ্ধ বলে মনে হচ্ছে। নকশা এক্স মূল্যবোধের একটি অপর্যাপ্ত পরিসীমা সঙ্গে একটি hysteresis প্রপঞ্চ প্রকাশ করতে পারে, একটি quantization প্রভাব পড়ে না ( এক্স খুব প্রচন্ডভাবে quantizied হতে পারে), অথবা ব্যবহারকারীর নির্ভর এবং স্বাধীন ভেরিয়েবল সুইচড হয়েছে।
সুতরাং সংক্ষিপ্ত বৈশিষ্ট্যগুলি খুব আলাদা আচরণ লুকায়। 2 সেটটি বহুতোষ ফিটের সাথে আরও ভালভাবে মোকাবেলা করা যেতে পারে। আউটলেটার-প্রতিরোধী পদ্ধতিগুলির সাথে 3 সেট করুন ( ℓ 1 বা লাইক) পাশাপাশি সেট 4 One অন্যরকম ব্যয়ের কাজগুলি বা তাত্পর্যপূর্ণ সূচকগুলি নিষ্পত্তি করতে পারে কিনা তা অবাক করতে পারে বা কমপক্ষে ডেটাসেট বৈষম্যকে উন্নত করতে পারে One সম্পাদনা করুন (ওপি মন্তব্যগুলি থেকে): ব্লগ পোস্টকৌতূহলী রেজিস্ট্রেশনগুলিবলে যে:
ঘটনাক্রমে, আমাকে বলা হয়েছে যে ফ্রাঙ্ক আনসকম্ব কখনই প্রকাশ করেননি যে তিনি কীভাবে এই ডেটা সেটগুলি নিয়ে এসেছেন। আপনি যদি মনে করেন যে সমস্ত সংক্ষিপ্তসার পরিসংখ্যান এবং রিগ্রেশন ফলাফলগুলি একই পাওয়া সহজ কাজ, তবে এটি চেষ্টা করে দেখুন!
ইন একটি উদ্দেশ্য Anscombe এর চৌতাল অনুরূপ জন্য নির্মিত ডেটাসেটস , বিভিন্ন আকর্ষণীয় ডেটাসেট একই সমাংশক ভিত্তিক histograms সঙ্গে দেওয়া হয়, উদাহরণস্বরূপ। আমি অর্থবহ সম্পর্ক এবং মিশ্র পরিসংখ্যানের মিশ্রণ দেখিনি।
আমার প্রশ্নটি হ'ল: এখানে কি দ্বিবিভক্ত (বা তাত্পর্যপূর্ণ, ভিজ্যুয়ালাইজেশন রাখতে) আনসকম্বের মতো ডেটাসেটগুলি রয়েছে যা একই টাইপের পরিসংখ্যান ছাড়াও :
- তাদের প্লটগুলির মধ্যে একটি সম্পর্ক হিসাবে ব্যাখ্যাযোগ্য এবং ওয়াইয়ের, যেন কেউ পরিমাপের মধ্যে কোনও আইন খুঁজছে,
- তাদের সমান (আরও ) margin 1 প্রান্তিক সম্পত্তি (একই মিডিয়ান এবং পরম বিচ্যুতির মধ্যস্থ),
- তাদের একই বাউন্ডিং বাক্স রয়েছে: একই মিনিট, সর্বোচ্চ (এবং তাই) টাইপ মধ্য পরিসীমা ও মধ্য বিঘত পরিসংখ্যান)।
এই জাতীয় ডেটাসেটের প্রতিটি " ভেরিয়েবল " তে একই "বক্স-ও-হুইস্কার" প্লট সংক্ষিপ্তসারগুলি (মিনিট, সর্বাধিক, মধ্যক, মাঝারি পরম বিচ্যুতি / এমএডি, গড় এবং এসটিডি সহ) থাকবে এবং তবুও এটি ব্যাখ্যায় বেশ আলাদা হবে be
এটি আরও আকর্ষণীয় হবে যদি কিছুটা পরম রেগ্রেশন ডেটাসেটগুলির জন্য একই হয় (তবে সম্ভবত আমি ইতিমধ্যে খুব বেশি জিজ্ঞাসা করছি)। তারা একটি দিতে পেরেছিলেন সতর্কীকরণ যখন শক্তসমর্থ বনাম না শক্তসমর্থ প্রত্যাবৃত্তি, ও মন রিচার্ড Hamming এর উদ্ধৃতি সাহায্যের রাখা সম্পর্কে কথা বলা:
গণনার উদ্দেশ্য অন্তর্দৃষ্টি, সংখ্যা নয়
সম্পাদনা (ওপি মন্তব্য থেকে) অনুরূপ ইস্যুগুলি আইডেন্টিক্যাল স্ট্যাটিস্টিক্স সহ ডেটা উত্পন্ন করার ক্ষেত্রে মোকাবেলা করা হয় তবে বিচ্ছিন্ন গ্রাফিক্স , সংগীত চ্যাটার্জী এবং আইকুট ফিরাটা, আমেরিকান স্ট্যাটিস্টিশিয়ান, 2007, বা ক্লোনিং ডেটা: ঠিক একই একাধিক লিনিয়ার রিগ্রেশন ফিটের সাথে ডেটাসেট তৈরি করা, জে। আস্ট-। N.-Z. তাত্ক্ষণিকবাজার। জে 2009।
চ্যাটার্জি (2007) -র উদ্দেশ্য হ'ল উপন্যাস ( x , y ) উত্পন্ন করাপ্রাথমিক ডেটাসেট থেকে একই উপায় এবং মানক বিচ্যুতি নিয়ে ) যুক্ত করা , যখন বিভিন্ন "বৈষম্য / ভিন্নতা" উদ্দেশ্যমূলক কার্যকে সর্বাধিক করে তোলা izing যেহেতু এই ফাংশনগুলি অ-উত্তেজক বা অবিচ্ছিন্ন হতে পারে, তারা জেনেটিক অ্যালগরিদম (জিএ) ব্যবহার করে। গুরুত্বপূর্ণ পদক্ষেপগুলি অর্থো-নরমালাইজেশন ধারণ করে, যা সংরক্ষণের গড় এবং (ইউনিট) বৈকল্পিকের সাথে খুব সামঞ্জস্যপূর্ণ। কাগজের পরিসংখ্যান (অর্ধেক কাগজের সামগ্রী) সুপারপোজ ইনপুট এবং জিএ আউটপুট ডেটা। আমার অভিমত জিএ আউটপুটগুলি মূল স্বজ্ঞাত ব্যাখ্যাটি অনেকটা হারাতে পারে।
এবং প্রযুক্তিগতভাবে, মিডিয়ান বা মিডরেঞ্জ উভয়ই সংরক্ষণ করা হয় না এবং কাগজটিতে রেনারমালাইজেশন প্রক্রিয়াগুলি উল্লেখ করে না যা , ℓ 1 এবং ℓ ats পরিসংখ্যান সংরক্ষণ করে।