"আইরিস" ডেটা সেট এর কোন দিকটি উদাহরণ / শিক্ষণ / পরীক্ষার ডেটা সেট হিসাবে এটি এত সফল করে তোলে


28

"আইরিস" ডেটা সেটটি সম্ভবত এখানে অধিকাংশ লোক পরিচিত - এটা ক্যানোনিকাল পরীক্ষা ডেটা সেট এক এবং তথ্য ঠাহর থেকে মেশিন লার্নিং থেকে সব কিছুর জন্য একটি উদাহরণ যান থেকে ডেটা সেটটি আছে। উদাহরণস্বরূপ, এই প্রশ্নের প্রত্যেকে চিকিত্সার দ্বারা পৃথক করা স্ক্যাটারপ্লটগুলির আলোচনার জন্য এটি ব্যবহার করে শেষ করে।

কি করে তোলে আইরিস তথ্য এত দরকারী সেট? ঠিক সেখানেই আগে ছিল? যদি কেউ কোনও দরকারী উদাহরণ / পরীক্ষার ডেটা সেট তৈরি করার চেষ্টা করে থাকে তবে তারা এ থেকে কোন পাঠ গ্রহণ করতে পারে?


13
ছোট কিন্তু তুচ্ছ নয়। সহজ তবে চ্যালেঞ্জিং। বাস্তব তথ্য। ফিশারের সুনাম, যদিও এটি তার ডেটা নয়। ঐতিহ্য। নিষ্ক্রিয়তা। নিরবচ্ছিন্ন। আপনি এটির বানান ফুলের ছবি খুঁজে পেতে পারেন।
নিক কক্স

এবং এখন এটি ঘড়ির কাঁটার মতো চলে।
মাইকেল এম

আমি বলব @ নিককক্স ঠিক ঠিক আছে।
মার্ক ক্লেসেন

@ নিককক্স একটি উত্তর হিসাবে সামান্য বিস্তৃত করতে চান?
ফোমেট

6
'আইরিস' ডেটাসেটটি বৈষম্যমূলক বিশ্লেষণের জন্য ব্যবহার করা যেতে পারে, পাশাপাশি উদাহরণস্বরূপ উদ্দেশ্যে অসচ্ছল শ্রেণিবদ্ধকরণ (মডেল-ভিত্তিক বা মডেল-মুক্ত ক্লাস্টারিং) ব্যবহার করা যেতে পারে। এই প্রশ্নটি পরিসংখ্যানগত বিশ্লেষণের বিশেষ দিকগুলি বর্ণনা করার জন্য ভাল ডেটাসেটগুলি কীসের
chl

উত্তর:


40

আইরিস ডেটা সেটটি সমীচীনভাবে ব্যাপকভাবে বিশেষত পরিসংখ্যানগত গ্রাফিক্স, বহুচলকীয় পরিসংখ্যান এবং মেশিন লার্নিং বিভিন্ন সমস্যার ব্যাখ্যা জন্য, পরিসংখ্যানগত বিজ্ঞান সর্বত্র ব্যবহার করা হয়।

  • 150 টি পর্যবেক্ষণ সমন্বিত, এটি ছোট তবে তুচ্ছ নয়।

  • আইরিসের তিনটি প্রজাতির মধ্যে তাদের পাপড়ি এবং সিপালগুলির পরিমাপ থেকে বৈষম্য তৈরি করার বিষয়টিটি সহজ তবে চ্যালেঞ্জিং।

  • তথ্যগুলি আসল তথ্য, তবে দৃশ্যত ভাল মানের apparent নীতিগতভাবে এবং অনুশীলনে, পরীক্ষার ডেটাসেটগুলি সিনথেটিক হতে পারে এবং এটি কোনও বিষয় তৈরি করার জন্য প্রয়োজনীয় বা দরকারী হতে পারে। তা সত্ত্বেও, অল্প কিছু লোকই আসল তথ্য নিয়ে আপত্তি জানায়।

  • তথ্যটি ১৯৩36 সালে খ্যাতিমান ব্রিটিশ পরিসংখ্যানবিদ রোনাল্ড ফিশার ব্যবহার করেছিলেন। (পরে তিনি নাইট হয়েছিলেন এবং স্যার রোনাল্ড হয়েছিলেন।) কমপক্ষে কিছু শিক্ষক ক্ষেত্রের মধ্যে পরিচিত এমন কারও সাথে লিঙ্কযুক্ত একটি ডেটাসেটের ধারণা পছন্দ করেন like তথ্যটি মূলত পরিসংখ্যান-বিবেচ্য উদ্ভিদবিদ এডগার এস অ্যান্ডারসন দ্বারা প্রকাশিত হয়েছিল, তবে সেই পূর্বের উত্সটি কমিয়ে দেয় না।

  • কয়েকটি বিখ্যাত ডেটাসেট ব্যবহার করা আমাদের theতিহ্যগুলির মধ্যে একটি, যেমন প্রতিটি নতুন প্রজন্মকে বলা যে শিক্ষার্থী গিনেসের পক্ষে কাজ করেছে বা অনেক বিখ্যাত পরিসংখ্যানবিদ একে অপরের সাথে খাপ খাইয়েছে। এটি জড়তার মতো শোনাতে পারে তবে পুরানো এবং নতুন পদ্ধতির তুলনায় এবং যে কোনও পদ্ধতির মূল্যায়নের ক্ষেত্রে এটি প্রায়শই পরিচিত ডেটাসেটগুলিতে ব্যবহার করে দেখার জন্য সহায়ক হিসাবে বিবেচিত হয়, সুতরাং আমরা কীভাবে পদ্ধতিগুলি মূল্যায়ন করি তাতে কিছুটা ধারাবাহিকতা বজায় রাখা যায়।

  • সর্বশেষে, তবে কমপক্ষে, আইরিস ডেটাসেটটি উপভোগের সাথে সম্পর্কিত ফুলের ছবি সহ উপভোগ করা যেতে পারে, যেমন ডেটাসেটে দরকারী উইকিপিডিয়া প্রবেশিকা থেকে

বিঃদ্রঃ. উদ্ভিদের যত্ন সহকারে উদ্ধৃত করার ক্ষেত্রে জৈবিক নির্ভুলতার জন্য আপনার বিট করুন। আইরিস সেটোসা , আইরিস ভার্সিকোলার এবং আইরিস ভার্জিনিকা তিনটি প্রজাতি (কোনও পরিসংখ্যানের বিবরণ অনুসারে জাত নয়); তাদের দ্বিপাদাগুলি এখানে যেমন ইটালিক উপস্থাপন করা উচিত; এবং আইরিস মহাজাতি নাম এবং বিশেষ প্রজাতি ইঙ্গিত অন্যান্য নামগুলি যেমন হাতের এবং ছোট হাতের সঙ্গে যথাক্রমে শুরু হবে।


3
(+1) উত্তরে আপনার মন্তব্যটি সুন্দরভাবে প্রসারণ করার জন্য ধন্যবাদ।
কার্ডিনাল

5
জৈবিক নির্ভুলতার জন্য যদি আমি মূলত অবস্থান নিতে পারি তবে আমি একটি অতিরিক্ত +1 দিতাম।
ফোমেট

6

ডেটাসেটটি তুচ্ছ তাত্পর্যপূর্ণ হওয়ার পক্ষে যথেষ্ট বড় এবং আকর্ষণীয় তবে এটি "আপনার পকেটে ফিট" করার পক্ষে যথেষ্ট ছোট, এবং এটির সাথে পরীক্ষা নিরীক্ষণও কমিয়ে দেবে না।

আমি মনে করি একটি মূল দিক হ'ল এটি ওভার-ফিটিং সম্পর্কেও শেখায়। নিখুঁত স্কোর দেওয়ার জন্য পর্যাপ্ত পরিমাণে কলাম নেই: আমরা যখন স্ক্রেটারপ্লটগুলিতে নজর রাখি তখন আমরা এটি ততক্ষনে দেখতে পাই এবং সেগুলি ওভারল্যাপ হয়ে একে অপরের সাথে চলে। সুতরাং নিখুঁত স্কোর পাওয়ার জন্য যে কোনও মেশিন-লার্নিং পদ্ধতির সন্দেহজনক হিসাবে বিবেচনা করা যেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.