আমার নিজের মেশিন লার্নিং বাস্তবায়নগুলি পরীক্ষা করার জন্য ডেটাসেটগুলি দরকারী কোথায় খুঁজে পাব? [বন্ধ]


9

আমি বর্তমানে আমার নিজের থেকে কিছু মেশিন লার্নিং অ্যালগরিদম বাস্তবায়নের চেষ্টা করছি। তাদের মধ্যে অনেকগুলি ডিবাগ করা শক্ত হওয়ার নোংরা সম্পত্তি রয়েছে, কিছু বাগের ফলে প্রোগ্রামটি ক্র্যাশ হয় না, বরং ইচ্ছানুসারে কাজ করে না এবং মনে হয় অ্যালগরিদমগুলি কেবল দুর্বল ফলাফল দেয়।

আমি বাস্তবায়নের ক্ষেত্রে আমার আত্মবিশ্বাস বাড়ানোর কিছু উপায় রাখতে চাই, উদাহরণস্বরূপ যদি অতিরিক্ত তথ্য সহ "অ্যালগরিদম এক্স ওয়াই পুনরাবৃত্তির জন্য কাজ করে এবং ফলাফলটি জেড এই ডেটাসেটে রেখে" থাকে তবে এটি সত্যিই সহায়ক হবে if এমন ডেটাসেটের কথা কি কেউ শুনেছেন?


এই প্রশ্নটি তদন্ত করতে আপনি কী গবেষণা করেছেন? প্রথম ব্লাশে, কেউ ভাববেন যে আপনি এই অ্যালগোরিদমগুলি খুঁজে পেতে যে সাহিত্যটি ব্যবহার করছেন তা নমুনা ডেটাসেটে পূর্ণ হবে।
হুড়হুড়ি করে

1
ওয়েল, আমি এমএলটি বেশিরভাগই বিশ্ববিদ্যালয় কোর্স, কোর্সিয়া, ইন্টারনেটে বক্তৃতার ভিডিও এবং নির্দিষ্ট বিষয়ের উপর পড়েছি এমন কয়েকটি প্রবন্ধ থেকে জানি। আমি জানি যে সমস্ত জায়গায় প্রচুর নমুনা ডেটাসেট রয়েছে, তবে আমি বিভিন্ন এমএল অ্যালগরিদমগুলি কীভাবে সেগুলি সম্পাদন করে সে সম্পর্কে তথ্য সহ কিছু খুঁজছি, তাই আমি আমার নিজের প্রয়োগগুলি যাচাই করতে পারি।
sjm.majewski

মানকযুক্ত ডেটাসেটগুলির সমস্যা নিয়ে সম্প্রতি আইসিএমএলে একটি ভাল কাগজ ছিল - এটি আপনাকে বাস্তব বিশ্বের সমস্যাগুলি এবং সত্যিকারের সমস্যার সাথে জড়িত এমন গণ্ডগোল সম্পর্কে খুব কঠোর চিন্তা করা থেকে বিরত করে। ব্যক্তিগতভাবে যখন আমি বাস্তব-বিশ্বের ডেটা ব্যবহার করতে শুরু করি তখন আমার দক্ষতাটি একজন অনুশীলনকারী হিসাবে প্রস্ফুটিত হয়। সুতরাং আমি আপনাকে যখন ইউসিআইয়ের মতো পদক্ষেপ বা পাথর হিসাবে ব্যবহার করতে নিরুৎসাহিত করব না, তখন পুরষ্কারের দিকে নজর রাখুন!
প্যাট্রিক ক্যালডন

1
আপনি কী ধরণের মেশিন লার্নিং করছেন তা নির্দিষ্ট করা উচিত। বাইনারি শ্রেণিবদ্ধকরণ ডেটা সেটগুলি ফাংশন আনুমানিক (রিগ্রেশন) ডেটা সেট থেকে আলাদা।
ডগলাস জারে

উত্তর:


10

থেকে ইউসি আরভাইন মেশিন লার্নিং সংগ্রহস্থলের প্রয়োগ :

আমরা বর্তমানে মেশিন লার্নিং সম্প্রদায়ের পরিষেবা হিসাবে 223 ডেটা সেট বজায় রাখছি। আপনি আমাদের অনুসন্ধানযোগ্য ইন্টারফেসের মাধ্যমে সমস্ত ডেটা সেট দেখতে পারেন। যারা পুরানো ফর্ম্যাট পছন্দ করেন তাদের জন্য আমাদের পুরাতন ওয়েবসাইটটি এখনও উপলব্ধ। ... আপনি যদি কোনও ডেটা সেট দান করতে চান তবে অনুগ্রহ করে আমাদের অনুদান নীতিটি পরামর্শ করুন। ... আমরা সংগ্রহস্থলের জন্য একটি আয়না সাইটও স্থাপন করেছি।

এছাড়াও, নিম্নলিখিত এমআইএএস ডেটাসেটটি ব্যাপকভাবে ব্যবহৃত হয়েছে এবং অধ্যয়ন করা হয়েছে:

অ্যালগরিদম বেঞ্চমার্ক করার সময় গবেষকরা ফলাফলগুলি সরাসরি তুলনা করতে সক্ষম হওয়ার জন্য এটি একটি স্ট্যান্ডার্ড টেস্ট ডাটাবেস (ডেটা সেট) ব্যবহার করার পরামর্শ দেওয়া হয়। বেশিরভাগ ম্যামোগ্রাফিক ডেটাবেস প্রকাশ্যে উপলভ্য নয়। সর্বাধিক সহজে অ্যাক্সেস করা ডেটাবেস এবং সেহেতু সর্বাধিক ব্যবহৃত ডাটাবেসগুলি হ'ল ম্যামোগ্রাফিক ইমেজ এনালাইসিস সোসাইটি (এমআইএএস) ডাটাবেস এবং স্ক্রিনিং ম্যামোগ্রাফির জন্য ডিজিটাল ডাটাবেস (ডিডিএসএম)। এছাড়াও বর্তমানে নতুন ম্যামোগ্রাফিক চিত্রের ডেটাবেস বিকাশের পাশাপাশি কয়েকটি পুরানো প্রকল্প রয়েছে few


2
+1 যদি আপনি আরও উত্স খুঁজে পেতে থাকেন তবে দয়া করে এই উত্তরটি বাড়িয়ে তুলবেন।
শুশুক

5

বাশার দ্বারা উল্লিখিত ইউসিআই ভান্ডার সম্ভবত সম্ভবত সবচেয়ে বড়, তবুও আমি যে কয়েকটি ছোট সংগ্রহ সংগ্রহ করেছি তা যোগ করতে চেয়েছিলাম:

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.