বেসিক মেশিন লার্নিং অ্যালগরিদম শিখতে কিছু ভাল ডেটাসেট কী এবং কেন?


19

আমি মেশিন লার্নিংয়ে নতুন এবং এমন কিছু ডেটাসেট সন্ধান করছি যার মাধ্যমে আমি বিভিন্ন মেশিন লার্নিং অ্যালগরিদমের (ডিসিশন ট্রি, বুস্টিং, এসভিএম এবং নিউরাল নেটওয়ার্ক) মধ্যে পার্থক্য তুলনা করতে এবং তার বিপরীতে তুলনা করতে পারি

আমি এই জাতীয় ডেটাসেটগুলি কোথায় পাব? ডেটাসেট বিবেচনা করার সময় আমার কী সন্ধান করা উচিত?

আপনি যদি কিছু ভাল ডেটাসেটগুলিতে ইঙ্গিত করতে পারেন এবং এগুলি আমাকে একটি ভাল ডেটাसेट তৈরি করে তাও আমাকে বলতে পারেন তবে তা দুর্দান্ত হবে?


6
আমি অবাক হয়েছি যদি এই প্রশ্নটি ওপেনডেটা.স্ট্যাকেক্সেঞ্জোয়েন্ট.কমের জন্য আরও ফিট করে না ... ডেটাসেটগুলি সম্পর্কে, বেশিরভাগ পাঠ্যপুস্তকগুলিতে এই জাতীয় ডেটাসেট উল্লেখ করা হয় এবং সেগুলি উপলভ্য করে তোলে, অনেকগুলি ইতিমধ্যে পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার বা এই জাতীয় সফ্টওয়্যারের লাইব্রেরিতে উপলব্ধ। আপনি আর্কাইভ.িক.ইসি.ইউ / এমএল / ডেটাসেটস html দেখতে পারেন । অবশ্যই, আরেকটি প্রশ্ন হ'ল কিছু ডেটাসেটগুলি শেখার জন্য "ভাল" এবং কিছু "খারাপ" - এটি একটি আকর্ষণীয় প্রশ্ন।
টিম

আপনি CRAN- তে প্যাকেজ হিসাবে কিছু ডেটাসেটগুলি দেখতে পাবেন, যেমন: এলেমস্ট্যাটলার্ন এবং অন্যান্য।
কেজেটিল বি হালওয়ারসেন

2
@ টিম কারণ এই প্রশ্নের একটি শিক্ষাগত দিক রয়েছে (উদাহরণস্বরূপ, শেখার উদ্দেশ্যে একটি "ভাল" ডেটা সেট করার একটি উদাহরণ এটি দেখায় যেখানে বিভিন্ন অ্যালগোরিদমগুলি খুব আলাদা ফলাফল দেয়) আমি মনে করি এটি ওপেনডাটার চেয়ে সিভিতে আরও উপযুক্ত।
সিলভারফিশ

2
আমি মনে করি একটি পাঠ্যক্রমিক দৃষ্টিকোণ থেকে ডেটা সেটগুলি সম্পর্কে প্রশ্নগুলি এখানে অবশ্যই স্পষ্টত অনন্য বিষয়: যেমন "আইরিস" ডেটা সেটটির কোন দিকগুলি উদাহরণ / শিক্ষণ / পরীক্ষার ডেটা সেট হিসাবে এটি এত সফল করে তোলে ; আনসকম্বের চৌকোঠির অনুরূপ উদ্দেশ্যে নির্মিত ডেটাসেটগুলি
সিলভারফিশ

@ সিলভারফিশ: এটি মেটাতে আলোচনা করা হয়েছে - " ডেটাসেট সম্পর্কিত প্রশ্নাবলী": সম্ভাব্য ব্যতিক্রম? - এবং আপনার দৃষ্টিভঙ্গির সাথে সাধারণ চুক্তি হয়েছে বলে মনে হয়। তবে আমি এখনও এই q মনে করি। বরং বিস্তৃত - অবাধে উপলভ্য ডেটা নমুনাগুলি সনাক্ত করা থেকে এটি কী স্পষ্টভাবে আলাদা করে ?
স্কোর্টচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


16

নিম্নলিখিত সাইটগুলিতে ডেটা সেটগুলি বিনামূল্যে পাওয়া যায়। এই ডেটা সেটগুলি শিক্ষার্থীদের এমএল অ্যালগরিদম শেখাতে ব্যবহার করা হয়েছে কারণ বেশিরভাগ ক্ষেত্রে ডেটা সেটগুলির সাথে বর্ণনা রয়েছে। এছাড়াও, কোন ধরণের অ্যালগোরিদম প্রযোজ্য তা উল্লেখ করা হয়েছে।

  1. ইউসিআই- মেশিন লার্নিংয়ের সংগ্রহশালা
  2. এমএল কমপ্লেক্স
  3. মামো ইমেজ
  4. Mulan

11

ক্যাগল এর সাথে ডেটাসেটের পুরো হোস্ট রয়েছে যার সাহায্যে আপনি অনুশীলন করতে পারেন।

(আমি অবাক হয়েছি এটি এতদিনে উল্লেখ করা হয়নি!)

এটি দুটি জিনিস পেয়েছে (অনেকের মধ্যে) যা এটিকে একটি অত্যন্ত অমূল্য সংস্থান করে:

  • প্রচুর পরিচ্ছন্ন ডেটাসেট। যদিও শব্দ-মুক্ত ডেটাসেটগুলি সত্যই বিশ্বের ডেটাসেটগুলির প্রতিনিধিত্বমূলক নয়, তারা বিশেষত আপনার উদ্দেশ্যটির জন্য উপযুক্ত - এমএল অ্যালগরিদম মোতায়েন।
  • আপনি একই ডেটাসেটের জন্য অন্যের এমএল মডেলগুলিও দেখতে পারেন, যা কিছু হ্যাকগুলি পথ ধরে নেওয়া মজাদার উপায় হতে পারে। এটি সর্বোপরি বলার অপেক্ষা রাখে না যে সেরা অনুশীলনকারীদের কাছ থেকে শেখার মাধ্যমে আপনি যে ধরণের এক্সপোজার পান তা অন্য যে কোনও কিছুর মতো, অত্যন্ত সহায়ক helpful

1
এটি সত্যই শীর্ষস্থানীয় উত্তর হওয়া উচিত কারণ বিপুল পরিমাণে ডেটাসেটের পাশাপাশি, প্রতিটি চ্যালেঞ্জের ফোরামগুলি কোডের উদাহরণগুলি সহ কৌশল এবং কৌশলগুলি বাছাইয়ের জন্য একটি অমূল্য সম্পদ।
অ্যালেক্স আর।

2

প্রথমত, আমি সফ্টওয়্যারটি সরবরাহিত নমুনা ডেটা দিয়ে শুরু করার পরামর্শ দেব। বেশিরভাগ সফ্টওয়্যার বিতরণে উদাহরণস্বরূপ ডেটা অন্তর্ভুক্ত থাকে যা আপনি অ্যালগরিদমের সাথে পরিচিত হওয়ার জন্য ব্যবহার করতে পারেন ডেটা ধরণের সাথে ডিল না করে এবং অ্যালগরিদমের জন্য সঠিক ফর্ম্যাটে ডেটা কুস্তি করে। এমনকি যদি আপনি স্ক্র্যাচ থেকে একটি অ্যালগরিদম তৈরি করে চলেছেন, আপনি অনুরূপ প্রয়োগ থেকে নমুনাটি দিয়ে শুরু করতে পারেন এবং কার্য সম্পাদনকে তুলনা করতে পারেন।

দ্বিতীয়ত, যখন আপনি জানেন যে কীভাবে ডেটা উত্পন্ন হয়েছিল এবং শব্দ অনুপাতের সংকেত হবে তখন অ্যালগরিদম কীভাবে সম্পাদন করে সে সম্পর্কে অনুভূতি পেতে সিনথেটিক ডেটা সেটগুলির সাথে পরীক্ষার পরামর্শ দেব।

আর-তে, আপনি বর্তমানে এই ইনস্টলড প্যাকেজগুলিতে সমস্ত কমান্ডের সাহায্যে এই কমান্ডটি তালিকাভুক্ত করতে পারেন:

data(package = installed.packages()[, 1])

আর প্যাকেজ mlbench এর রিয়েল ডেটাসেট রয়েছে এবং এটি সিন্থেটিক ডেটাসেট তৈরি করতে পারে যা অ্যালগরিদম পারফরম্যান্স অধ্যয়নের জন্য দরকারী।

পাইথনের সাইকিট-লার্নের নমুনা ডেটা রয়েছে এবং সিন্থেটিক / টয় ডেটা सेट ও উত্পন্ন করে।

এসএএসের ডাউনলোডের জন্য প্রশিক্ষণ ডেটাসেট রয়েছে এবং এসপিএসএস নমুনা ডেটা সি: \ প্রোগ্রাম ফাইলগুলি \ আইবিএম \ এসপিএসএস \ পরিসংখ্যান \ 22 \ সফ্টওয়্যারগুলির সাথে ইনস্টল করা আছে

সবশেষে, আমি বন্য মধ্যে ডেটা তাকান। আমি বাস্তব ডেটা সেটগুলিতে বিভিন্ন অ্যালগরিদম এবং টিউনিং প্যারামিটারগুলির পারফরম্যান্স তুলনা করব। এটির জন্য সাধারণত আরও অনেক কাজ করা প্রয়োজন কারণ আপনি খুব সহজেই ডেটা টাইপ এবং ডেটা কাঠামো খুঁজে পাবেন যা আপনি আপনার অ্যালগরিদমে ডান ড্রপ করতে পারেন।

বন্য মধ্যে ডেটা জন্য, আমি সুপারিশ করব:

reddit এর ডেটাসেট সংরক্ষণাগার

কেডনুগেটের তালিকা


1
যাদের আর নেই, এবং এই ডেটাসেটগুলিতে অ্যাক্সেস পাওয়ার জন্য এটি ডাউনলোড করতে চান না তাদের জন্য, ডেটাসেট এবং বিবরণগুলি এখানে অনলাইনে উপলব্ধ ।
গুং - মনিকা পুনরায়

0

আইরিস ডেটা সেট হাত নিচে। এটি বেস বেসেও রয়েছে।


1
দয়া করে প্রশ্নের মূল অংশটির জবাব দিন: "... আমাকেও বলুন যে এগুলি একটি ভাল ডেটাसेटকে কী করে?"
whuber

0

আমার মতে, আপনি ছোট ডেটাসেটগুলি দিয়ে শুরু করতে পারেন যার খুব বেশি বৈশিষ্ট্য নেই।

একটি উদাহরণ আইরিস ডেটাसेट (শ্রেণিবিন্যাসের জন্য) হবে। এটিতে 3 শ্রেণি রয়েছে, প্রতিটি ক্লাসের 150 টি পয়েন্টের জন্য 50 টি নমুনা রয়েছে। আপনাকে এই ডেটাसेटটি অন্বেষণে সহায়তা করার জন্য একটি দুর্দান্ত উত্স হ'ল ডেটা স্কুল দ্বারা নির্মিত এই ভিডিও সিরিজ

চেকআউট করার জন্য আর একটি ডেটাসেট হ'ল ইউসিআই-এমএমএল সংগ্রহস্থল থেকে ওয়াইন কোয়ালিটির ডেটা সেট। এটিতে 12 টি গুণাবলী সহ 4898 ডেটা পয়েন্ট রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.