অনেক তথ্য উত্স সমন্বিত আলগাভাবে কাঠামোগত ডেটার একটি সেট (যেমন ওয়েব টেবিল / লিঙ্কযুক্ত ওপেন ডেটা) ধরে নিন। ডেটা অনুসরণ করার পরে কোনও সাধারণ স্কিমা নেই এবং প্রতিটি উত্স মানগুলি বর্ণনা করার জন্য প্রতিশব্দ বৈশিষ্ট্য ব্যবহার করতে পারে (যেমন "জাতীয়তা" বনাম "জন্মানো")।
আমার লক্ষ্য হ'ল এমন কিছু "গুরুত্বপূর্ণ" গুণাবলীর সন্ধান যা তারা বর্ণনা করে এমন সত্তাগুলি "সংজ্ঞায়িত" করে। সুতরাং, যখন আমি এই জাতীয় কোনও বৈশিষ্ট্যের জন্য একই মান খুঁজে পাই, তখন আমি জানব যে দুটি বিবরণ একই সত্তা সম্পর্কে (যেমন একই ব্যক্তি) সম্ভবত are
উদাহরণস্বরূপ, "সর্বশেষ নাম" বৈশিষ্ট্যটি "জাতীয়তা" গুণাবলীর চেয়ে বেশি বৈষম্যমূলক।
অন্যের চেয়ে গুরুত্বপূর্ণ এমন বৈশিষ্ট্যগুলিকে আমি কীভাবে (পরিসংখ্যানগতভাবে) খুঁজে পেতে পারি?
একটি নিষ্পাপ সমাধান হ'ল প্রতিটি বৈশিষ্ট্যের মানগুলির গড় আইডিএফ নেওয়া এবং এটিকে গুণকের "গুরুত্ব" ফ্যাক্টর তৈরি করা। প্রতিটি অ্যাট্রিবিউটের জন্য কতগুলি স্বতন্ত্র মান উপস্থিত হয় তা গণনা করার জন্য একটি অনুরূপ পন্থা হবে।
আমি মেশিন লার্নিংয়ে বৈশিষ্ট্য বা বৈশিষ্ট্য নির্বাচন শব্দটি দেখেছি, তবে আমি অবশিষ্ট বৈশিষ্ট্যগুলি বাতিল করতে চাই না, আমি কেবলমাত্র সবচেয়ে গুরুত্বপূর্ণ ওজনকে আরও উচ্চতর করে রাখতে চাই।