আমার 20000 নমুনা সহ একটি ডেটা সেট রয়েছে, প্রত্যেকের 12 টি আলাদা আলাদা বৈশিষ্ট্য রয়েছে। প্রতিটি নমুনা হয় হয় 0 বা 1 বিভাগে। আমি নমুনাগুলি শ্রেণীবদ্ধ করার জন্য একটি নিউরাল নেটওয়ার্ক এবং সিদ্ধান্ত বনকে প্রশিক্ষণ দিতে চাই যাতে ফলাফল এবং উভয় কৌশলই আমি তুলনা করতে পারি।
আমি হোঁচট খেয়ে প্রথম জিনিসটি হ'ল ডেটার যথাযথ স্বাভাবিককরণ। একটি বৈশিষ্ট্য , অন্য একটি এবং এর মধ্যে একটি বৈশিষ্ট্য রয়েছে যা বেশিরভাগ মান 8 এবং কখনও কখনও takes গ্রহণ করে So সুতরাং আমি বিভিন্ন উত্সে পড়তে যথাযথ স্বাভাবিককরণ করব So নিউরাল নেটওয়ার্কগুলির জন্য ডেটা গুরুত্বপূর্ণ। আমি যেমন জানতে পেরেছি, ডেটা স্বাভাবিক করার জন্য অনেকগুলি সম্ভাব্য উপায় রয়েছে, উদাহরণস্বরূপ:
- ন্যূনতম-সর্বাধিক নরমালাইজেশন : ইনপুট পরিসরটি রৈখিকভাবে ব্যবধানে রূপান্তরিত হয় (বা বিকল্পভাবে , ব্যাপারটি কি?)
- জেড-স্কোর নরমালাইজেশন : ডেটা শূন্য গড় এবং একক বৈকল্পিকতে রূপান্তরিত হয়েছে:
আমার কোন স্বাভাবিকীকরণটি বেছে নেওয়া উচিত? সিদ্ধান্ত বনের জন্যও কি সাধারণীকরণ প্রয়োজন? জেড-স্কোর স্বাভাবিককরণের সাথে, আমার পরীক্ষার ডেটার বিভিন্ন বৈশিষ্ট্য একই পরিসরে পড়ে না। এই সমস্যা হতে পারে? প্রতিটি বৈশিষ্ট্যটি কি একই অ্যালগরিদমের সাথে স্বাভাবিক হওয়া উচিত, যাতে আমি সমস্ত বৈশিষ্ট্যের জন্য ন্যূনতম-ম্যাক্স বা সমস্ত বৈশিষ্ট্যের জন্য জেড-স্কোর ব্যবহারের সিদ্ধান্ত নেব?
এমন কোনও সংমিশ্রণ রয়েছে যেখানে ডেটা ম্যাপ করা হয়েছে এবং এর শূন্য অর্থও রয়েছে (যা একটি অ-রৈখিক রূপান্তর এবং তাই ইনপুট ডেটার বৈকল্পিক এবং অন্যান্য বৈশিষ্ট্যগুলিতে পরিবর্তন বোঝায়)।
আমি কিছুটা হারাতে পেরেছি কারণ এই প্রশ্নের উত্তরগুলির জন্য উল্লেখগুলি খুঁজে পাচ্ছি না।