অত্যন্ত উচ্চ মাত্রিক শ্রেণিবিন্যাসের জন্য নিখরচায় সেট সেট [বন্ধ]


35

1000 টিরও বেশি বৈশিষ্ট্য (বা নমুনা পয়েন্ট এতে কার্ভগুলি অন্তর্ভুক্ত থাকলে) সহ শ্রেণিবিন্যাসের জন্য অবাধে উপলভ্য ডেটা কী ?

ফ্রি ডেটা সেটগুলি সম্পর্কে ইতিমধ্যে একটি সম্প্রদায় উইকি রয়েছে: অবাধে উপলভ্য ডেটা নমুনাগুলি সনাক্ত করা

তবে এখানে, আরও বেশি কেন্দ্রীভূত তালিকা থাকা আরও ভাল হবে যা আরও সুবিধে করে ব্যবহার করা যেতে পারে , এছাড়াও আমি নীচের নিয়মগুলি প্রস্তাব করি:

  1. ডেটাসেটের জন্য একটি পোস্ট
  2. ডেটাসেটের সেট করার কোনও লিঙ্ক নেই
  3. প্রতিটি ডেটা সেট অবশ্যই যুক্ত থাকতে হবে

    • একটি নাম (এটি কী তা বোঝার জন্য) এবং ডেটাসেটের একটি লিঙ্ক (প্যাকেজের নামের সাথে আর ডেটাসেটের নাম দেওয়া যেতে পারে)

    • বৈশিষ্ট্য নম্বর (তা বলছেন কেন দিন পি ) ডেটাসেটের আকার (বলা যাক এটা এন ) এবং লেবেল / বর্গ সংখ্যা (বলা যাক এটা )

    • আপনার অভিজ্ঞতা থেকে একটি সাধারণ ত্রুটির হার (শব্দগুলিতে ব্যবহৃত অ্যালগরিদমটি লিখুন) বা সাহিত্যিক থেকে (এই শেষ ক্ষেত্রে কাগজের সাথে লিঙ্ক করুন)


+1, তবে এনআইপিএস ২০০৩ এ কেবল ট্রেনের লেবেল রয়েছে - এনআইপিএস ২০০৩ পত্রিকায় পরিষ্কারভাবে বলা হয়েছে "বৈধকরণ এবং পরীক্ষার সেট লেবেলগুলি আটকানো হয়েছে"।
ডেনিস

ধন্যবাদ। এনআইপিএস সম্পর্কে মন্তব্যটি @ এমএমকিউ থেকে উত্তরের জন্য।
রবিন গিরার্ড

এখানে কারও কাছে দুটি শ্রেণির বেশি লেবেল সহ উচ্চ মাত্রিক ডেটাসেট রয়েছে?
hlin117

উত্তর:


3

ডোরোথিয়া
এন = 1950
পি = 100000 (0.1 মি, অর্ধটি কৃত্রিমভাবে শব্দ যোগ করা হয়েছে)
কে = 2 (~ 10x ভারসাম্যহীন) এনআইপিএস 2003
থেকে।


এটি 100000 বৈশিষ্ট্যগুলি কীভাবে ব্যাখ্যা করতে পারেন? আমি প্রশিক্ষণের ডেটা দেখি এবং প্রতিটি লাইনে প্রতি লাইনে 2500 পূর্ণসংখ্যা থাকে।
জেরেমিকুন

এটি একটি বিচ্ছিন্ন অ্যারে, পূর্ণসংখ্যা N এর অর্থ

3

Gisette
এন = 13500
P = 5000 (অর্ধেক কৃত্রিমভাবে গোলমাল যোগ করা হয়)
ট = 2 (সুষম)
থেকে NIPS2003


3

ডেক্সটার
এন = 2600
পি = 20000 (10 কে + 53 কৃত্রিম শব্দ)
কে = 2 (সুষম) এনআইপিএস 2003
থেকে।


আমি বুঝতে পারছি না ... প্রতি জন এক সেট?

@robin এবং @mbq আমি পোস্টের জন্য এটিতে একটি ডেটাসেট রাখার পরামর্শ দেব। এটি যাতে লোকে ভোট দিয়ে ইঙ্গিত দিতে পারে যে প্রস্তাবিতগুলির মধ্যে কোনটি প্রস্তাব / সমর্থনও করে
পিটার স্মিথ

@ পিটার, ঠিক আছে, আমি আপনার ধারণাটি অনুসরণ করি, আমি সেই অনুসারে প্রশ্নটি পরিবর্তন করেছি।
রবিন গিরার্ড


2

প্রোস্টেট (জিন এক্সপ্রেশন অ্যারে)

  • ট = 2
  • এন = 48 + + 52
  • P = 6033

(অন্যান্যদের মধ্যে) এর মাধ্যমে উপলব্ধ প্যাকেজটি ডেটাসেটের নাম স্প্লট করে ls

ত্রুটি হার = 3/102 ( এখানে দেখুন ) এছাড়াও আমার মনে হয় এমন কাগজ রয়েছে যা 1-102 ত্রুটি হার দেখায়। আমি বলব এটি একটি সহজ পরীক্ষার কেস।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.