প্রথমত, আমি সফ্টওয়্যারটি সরবরাহিত নমুনা ডেটা দিয়ে শুরু করার পরামর্শ দেব। বেশিরভাগ সফ্টওয়্যার বিতরণে উদাহরণস্বরূপ ডেটা অন্তর্ভুক্ত থাকে যা আপনি অ্যালগরিদমের সাথে পরিচিত হওয়ার জন্য ব্যবহার করতে পারেন ডেটা ধরণের সাথে ডিল না করে এবং অ্যালগরিদমের জন্য সঠিক ফর্ম্যাটে ডেটা কুস্তি করে। এমনকি যদি আপনি স্ক্র্যাচ থেকে একটি অ্যালগরিদম তৈরি করে চলেছেন, আপনি অনুরূপ প্রয়োগ থেকে নমুনাটি দিয়ে শুরু করতে পারেন এবং কার্য সম্পাদনকে তুলনা করতে পারেন।
দ্বিতীয়ত, যখন আপনি জানেন যে কীভাবে ডেটা উত্পন্ন হয়েছিল এবং শব্দ অনুপাতের সংকেত হবে তখন অ্যালগরিদম কীভাবে সম্পাদন করে সে সম্পর্কে অনুভূতি পেতে সিনথেটিক ডেটা সেটগুলির সাথে পরীক্ষার পরামর্শ দেব।
আর-তে, আপনি বর্তমানে এই ইনস্টলড প্যাকেজগুলিতে সমস্ত কমান্ডের সাহায্যে এই কমান্ডটি তালিকাভুক্ত করতে পারেন:
data(package = installed.packages()[, 1])
আর প্যাকেজ mlbench এর রিয়েল ডেটাসেট রয়েছে এবং এটি সিন্থেটিক ডেটাসেট তৈরি করতে পারে যা অ্যালগরিদম পারফরম্যান্স অধ্যয়নের জন্য দরকারী।
পাইথনের সাইকিট-লার্নের নমুনা ডেটা রয়েছে এবং সিন্থেটিক / টয় ডেটা सेट ও উত্পন্ন করে।
এসএএসের ডাউনলোডের জন্য প্রশিক্ষণ ডেটাসেট রয়েছে এবং এসপিএসএস নমুনা ডেটা সি: \ প্রোগ্রাম ফাইলগুলি \ আইবিএম \ এসপিএসএস \ পরিসংখ্যান \ 22 \ সফ্টওয়্যারগুলির সাথে ইনস্টল করা আছে
সবশেষে, আমি বন্য মধ্যে ডেটা তাকান। আমি বাস্তব ডেটা সেটগুলিতে বিভিন্ন অ্যালগরিদম এবং টিউনিং প্যারামিটারগুলির পারফরম্যান্স তুলনা করব। এটির জন্য সাধারণত আরও অনেক কাজ করা প্রয়োজন কারণ আপনি খুব সহজেই ডেটা টাইপ এবং ডেটা কাঠামো খুঁজে পাবেন যা আপনি আপনার অ্যালগরিদমে ডান ড্রপ করতে পারেন।
বন্য মধ্যে ডেটা জন্য, আমি সুপারিশ করব:
reddit এর ডেটাসেট সংরক্ষণাগার
কেডনুগেটের তালিকা