গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি কীভাবে নির্দিষ্ট করবেন?


15

অনেক তথ্য উত্স সমন্বিত আলগাভাবে কাঠামোগত ডেটার একটি সেট (যেমন ওয়েব টেবিল / লিঙ্কযুক্ত ওপেন ডেটা) ধরে নিন। ডেটা অনুসরণ করার পরে কোনও সাধারণ স্কিমা নেই এবং প্রতিটি উত্স মানগুলি বর্ণনা করার জন্য প্রতিশব্দ বৈশিষ্ট্য ব্যবহার করতে পারে (যেমন "জাতীয়তা" বনাম "জন্মানো")।

আমার লক্ষ্য হ'ল এমন কিছু "গুরুত্বপূর্ণ" গুণাবলীর সন্ধান যা তারা বর্ণনা করে এমন সত্তাগুলি "সংজ্ঞায়িত" করে। সুতরাং, যখন আমি এই জাতীয় কোনও বৈশিষ্ট্যের জন্য একই মান খুঁজে পাই, তখন আমি জানব যে দুটি বিবরণ একই সত্তা সম্পর্কে (যেমন একই ব্যক্তি) সম্ভবত are

উদাহরণস্বরূপ, "সর্বশেষ নাম" বৈশিষ্ট্যটি "জাতীয়তা" গুণাবলীর চেয়ে বেশি বৈষম্যমূলক।

অন্যের চেয়ে গুরুত্বপূর্ণ এমন বৈশিষ্ট্যগুলিকে আমি কীভাবে (পরিসংখ্যানগতভাবে) খুঁজে পেতে পারি?

একটি নিষ্পাপ সমাধান হ'ল প্রতিটি বৈশিষ্ট্যের মানগুলির গড় আইডিএফ নেওয়া এবং এটিকে গুণকের "গুরুত্ব" ফ্যাক্টর তৈরি করা। প্রতিটি অ্যাট্রিবিউটের জন্য কতগুলি স্বতন্ত্র মান উপস্থিত হয় তা গণনা করার জন্য একটি অনুরূপ পন্থা হবে।

আমি মেশিন লার্নিংয়ে বৈশিষ্ট্য বা বৈশিষ্ট্য নির্বাচন শব্দটি দেখেছি, তবে আমি অবশিষ্ট বৈশিষ্ট্যগুলি বাতিল করতে চাই না, আমি কেবলমাত্র সবচেয়ে গুরুত্বপূর্ণ ওজনকে আরও উচ্চতর করে রাখতে চাই।

উত্তর:


16

একটি সম্ভাব্য সমাধান হ'ল তথ্য লাভের গণনা করা প্রতিটি বৈশিষ্ট্যের সাথে সম্পর্কিত করা:

তথ্য লাভ

প্রাথমিকভাবে আপনার কাছে পুরো ডেটাসেট রয়েছে এবং প্রতিটি আইটেমের তথ্য লাভের গণনা করুন। সেরা তথ্য লাভের সাথে আইটেমটি হ'ল ডেটাসেটটি ভাগ করার জন্য আপনার ব্যবহার করা উচিত (আইটেমের মান বিবেচনা করে)। তারপরে, প্রতিটি আইটেমের জন্য একই গণনা সম্পাদন করুন (তবে নির্বাচিতগুলি) এবং সর্বদা সেরাটি বেছে নিন আপনার ডেটাসেট থেকে এন্ট্রিগুলিকে বর্ণনা / আলাদা করে।

এই ধরনের গণনার জন্য বাস্তবায়ন উপলব্ধ। সিদ্ধান্তের গাছগুলি সাধারণত তাদের বৈশিষ্ট্য নির্বাচনকে সর্বোত্তম তথ্য লাভের সাথে বৈশিষ্ট্যগুলির উপর ভিত্তি করে। আপনি এই গুরুত্বপূর্ণ আইটেমগুলি সন্ধানের জন্য ফলস্বরূপ গাছের কাঠামোটি ব্যবহার করতে পারেন ।


এটি কি এন্ট্রপি? আমি দ্বিধান্বিত.
ভ্যালেন্টাস

দেরী উত্তর দেওয়ার জন্য দুঃখিত। করার লাভ তথ্য হয় কমাতে সামগ্রিক এনট্রপি; সুতরাং তারা মূলত একই ধারণা। "এন্ট্রপি" এবং "তথ্য লাভ" এর সংজ্ঞাটি একবার দেখুন
রুবেন্স

7

আসলে এখানে একাধিক প্রশ্নের উত্তর দিতে হবে:

  1. স্কিমহীন / লুজ / হারিয়ে যাওয়া ডেটাতে কীভাবে কাজ করবেন
  2. কোনও ব্যক্তিকে কীভাবে লেবেল করবেন (যা থেকে আমি অস্বীকার করি তা থেকে) এবং একটি শনাক্তকারী তৈরি করুন
  3. আপনার সিস্টেমকে কীভাবে প্রশিক্ষণ দেওয়া যায় যাতে এটি আপনাকে বলতে পারে যে ব্যক্তিকে সনাক্ত করার জন্য আপনাকে কোন গুণাবলী ব্যবহার করা উচিত

রুবেন্স যেমন উল্লেখ করেছেন, আপনি সিদ্ধান্ত গাছের পদ্ধতিগুলি বিশেষত র্যান্ডম অরণ্যগুলি ব্যবহার করতে পারেন তথ্য প্রাপ্তির উপর ভিত্তি করে সর্বাধিক গুরুত্বপূর্ণ গুণাবলী গণনার জন্য যদি আপনি ইতিমধ্যে কোনও ব্যক্তিকে কীভাবে লেবেল দেবেন তা সনাক্ত করার কোনও উপায় খুঁজে পেয়েছেন।

তবে আপনার যদি কোনও লেবেল তথ্য না থাকে তবে আপনি প্রাথমিক বৈশিষ্ট্য নির্বাচনের জন্য কিছু বিশেষজ্ঞের দৃষ্টিভঙ্গি ব্যবহার করতে পারেন। এর পরে আপনি আপনার লেবেলগুলি পুনরুদ্ধার করতে নিরীক্ষণযুক্ত শ্রেণিবিন্যাস করেন। শেষ অবধি, আপনি র্যান্ডম ফরেস্ট বা অন্যান্য পদ্ধতি যেমন বায়েশিয়ান বিশ্বাস নেটওয়ার্কগুলি ব্যবহার করে সর্বাধিক গুরুত্বপূর্ণ ক্ষেত্রগুলি নির্বাচন করতে পারেন ।

এই সমস্ত অর্জন করার জন্য আপনার সম্পূর্ণ ডেটা সেটও প্রয়োজন। যদি আপনার ডেটা সেটটি আলগা হয় তবে আপনাকে ম্যানুয়ালি বা তাত্পর্যপূর্ণভাবে বিভিন্ন নামের সাথে একই জিনিসকে নির্দেশ করে এমন কয়েকটি বৈশিষ্ট্যগুলির একটি উপায় খুঁজে বের করতে হবে। আর কী, আপনি প্রত্যাশা সর্বাধিক পদ্ধতি হিসাবে অভিশাপ কৌশল ব্যবহার করতে পারেন এবং আপনার ডেটা সেটটি সম্পূর্ণ করতে পারেন। অথবা আপনি বায়েশিয়ান নেটওয়ার্কগুলির সাথেও কাজ করতে পারেন এবং নিখোঁজ ক্ষেত্রগুলি যেমন সেগুলি রেখে যেতে পারেন।


2

অনেক কৌশল আছে। যদি আপনার তথ্য সিস্টেমে কোনও সিদ্ধান্তের বৈশিষ্ট্য বা লেবেল সংযুক্ত থাকে তবে আমি সবচেয়ে ভাল উপায়টি খুঁজে পেয়েছি মোটামুটি সেট ভিত্তিক অ্যাট্রিবিউট হ্রাস ব্যবহার করা। কিয়াং শেন এবং রিচার্ড জেনসেনের দ্রুত হ্রাস অ্যালগরিদমটি দেখুন।

আপনার কাছে লেবেলযুক্ত ডেটা থাকলে প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) দেখুন


0

কেবলমাত্র এটির জন্য, প্রায় 5 বছর পরে, আমি ভেবেছিলাম যে আমি আমার পিএইচডিটিতে যা ব্যবহার করেছি তা ভাগ করে নিতে পারি এই সমস্যাটি সমাধান করার জন্য, যা নতুন নয় বা আমার পিএইচডি-র অবদান, যদি এটি অন্য কাউকে সহায়তা করে।

পরিমাপ যে আমরা গুরুত্বপূর্ণ বৈশিষ্ট্য নির্বাচনের জন্য ব্যবহৃত মধ্যে সমন্বয়পূর্ণ গড় (ওরফে এফ পরিমাপ) হল supportএবং discriminability

একটি বৈশিষ্ট্য পি এর সমর্থন স্বজ্ঞাতভাবে হয় যে আমাদের ডেটাসেটে সত্তা এই বৈশিষ্ট্যের জন্য কতগুলি মান থাকে:

support(p) = |instances(p)|/ |D|, 

যেখানে দৃষ্টান্তগুলি (পি) হ'ল সংস্থাগুলির সেট যা পি, এবং | ডি | এর মান রয়েছে ডেটাসেট ডি-তে সত্ত্বার সংখ্যা

discriminability(p) = |values(p)| / |instances(p)|, 

যেখানে মান (পি) হ'ল (স্বতন্ত্র, যেহেতু এটি একটি সেট) মানগুলির সেট যা বৈশিষ্ট্য পি আমাদের ডেটাসেটে থাকতে পারে values এটিকে এই সংখ্যার জন্য আসলে একটি মান আছে এমন সংস্থাগুলির সংখ্যা দ্বারা এটি স্বাভাবিক করা হয়েছে।

অন্য কথায়, সমর্থন ডেটাসেটে পি যে ফ্রিকোয়েন্সি পরিমাপ করে তা পরিমাপ করে এবং বৈষম্যতা নির্দেশ করে যে এই বৈশিষ্ট্যটি "কী" হওয়ার কতটা কাছাকাছি।

আরও তথ্যের জন্য, আপনি আমার গবেষণামূলক প্রবন্ধটি (বিভাগ 4.3.2) পড়তে পারেন , বা আমাদের EDBT 2019 এর কাগজে (বিভাগ 2) একটি সংক্ষিপ্ত সংস্করণ খুঁজে পেতে পারেন ।

আপনার গঠনমূলক উত্তরের জন্য সবাইকে ধন্যবাদ!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.