এখানে আমি তত্ত্বাবধানে শেখার বৈশিষ্ট্য নির্বাচনের কব্জির ফলাফলের জন্য চি স্কোয়ার্ড টেস্ট ব্যবহার করার জন্য অন্যরা সাধারণত কী করে সে সম্পর্কে জিজ্ঞাসা করছি। আমি যদি সঠিকভাবে বুঝতে পারি তবে তারা কি প্রতিটি বৈশিষ্ট্য এবং ফলাফলের মধ্যে স্বাধীনতা পরীক্ষা করে এবং প্রতিটি বৈশিষ্ট্যের জন্য পরীক্ষার মধ্যে পি মানগুলি তুলনা করে?
ইন http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
পিয়ারসনের চি-স্কোয়ার্ড পরীক্ষাটি এমন একটি স্ট্যাটিস্টিকাল টেস্ট যা শ্রেণিবিন্যাসের উপাত্তগুলির সেটগুলিতে প্রয়োগ করা হয় যা মূল্যায়নের জন্য সেটগুলির মধ্যে যে কোনও পর্যবেক্ষণের পার্থক্য সুযোগের কারণে উত্থাপিত হয়েছিল তা কতটা সম্ভাবনা রয়েছে তা মূল্যায়নের জন্য।
...
স্বতন্ত্রতার পরীক্ষাটি নির্ধারণ করে যে आकस्मिक টেবিলে প্রকাশিত দুটি পরিবর্তনশীলগুলির জুটিবদ্ধ পর্যবেক্ষণগুলি একে অপরের থেকে স্বতন্ত্র কিনা (যেমন, কোনও ব্যক্তির জাতীয়তার প্রতিক্রিয়া সম্পর্কিত কিনা তা দেখতে বিভিন্ন জাতীয়তার লোকদের পোলিং প্রতিক্রিয়াগুলি)।
সুতরাং যে দুটি ভেরিয়েবলের স্বাধীনতার পরীক্ষা দ্বারা পরীক্ষা করা হয় তা অবশ্যই শ্রেণিবদ্ধ বা বিযুক্ত (শ্রেণীবদ্ধের পাশাপাশি আদেশের অনুমতি দেওয়া) হওয়া উচিত, তবে স্বচ্ছ নয়?
Http://scikit-learn.org/stable/modules/feature_selection.html থেকে তারা
কেবল দুটি সেরা বৈশিষ্ট্য পুনরুদ্ধার করতে আইরিস ডেটাসেটে একটি পরীক্ষা করুন ।
ইন Iris ডেটা সেটটি , সমস্ত বৈশিষ্ট্য সংখ্যাসূচক এবং ক্রমাগত মূল্যবান, এবং ফলাফল বর্গ লেবেল (শ্রেণীগত) হয়। কীভাবে চি স্কোয়ার্ড স্বতন্ত্রতা পরীক্ষা ধারাবাহিক বৈশিষ্ট্যগুলিতে প্রয়োগ হয়?
ডেটাসেটে চি স্কোয়ার্ড স্বতন্ত্রতা পরীক্ষা প্রয়োগ করার জন্য, আমরা কি প্রথমে বিন্যস্ত করে অবিচ্ছিন্ন বৈশিষ্ট্যগুলিকে বিচ্ছিন্ন বৈশিষ্ট্যগুলিতে রূপান্তর করি (অর্থাত্ প্রথমে বৈশিষ্ট্যগুলি 'ধারাবাহিক ডোমেনগুলিকে বিনে বিভক্ত করে, এবং তারপরে বৈশিষ্ট্যগুলিকে বিন্যাসে মূল্যবোধগুলির উপস্থিতি দিয়ে প্রতিস্থাপন করে) )?
বেশ কয়েকটি ডাবের সংঘটনগুলি বহু-জাতীয় বৈশিষ্ট্য গঠন করে (হয় হয় প্রতিটি বাক্সে হয় না), তাই চি স্কোয়ার্ড স্বতন্ত্রতা পরীক্ষা তাদের জন্য প্রয়োগ করতে পারে, তাই না?
আমার অনুমান অনুসারে, আমরা কোনও ধরণের বৈশিষ্ট্য এবং ফলাফলগুলিতে চি স্কোয়ার্ড স্বাধীনতা পরীক্ষা প্রয়োগ করতে পারি , সঠিক?
ফলাফলের অংশের জন্য, আমরা কেবল শ্রেণিবদ্ধের জন্য বৈশিষ্ট্যগুলি নির্বাচন করতে পারি না, তবে প্রতিরোধের জন্য, চি স্কোয়ারের স্বাধীনতা পরীক্ষা দ্বারা, অবিচ্ছিন্ন ফলাফলকে বিন্যাস করে, ডান?
-
প্রতিটি অ-নেতিবাচক বৈশিষ্ট্য এবং শ্রেণীর মধ্যে চি-স্কোয়ারের পরিসংখ্যান গণনা করুন ।
এই স্কোরটি এক্স থেকে চি চি-স্কোড স্ট্যাটিস্টিকের জন্য সর্বাধিক মানগুলির সাথে n_features বৈশিষ্ট্যগুলি নির্বাচন করতে ব্যবহার করা যেতে পারে, যার মধ্যে কেবলমাত্র বুলিয়ান বা ফ্রিকোয়েন্সিগুলির (যেমন, নথির শ্রেণিবিন্যাসে টার্ম গণনা) নন-নেতিবাচক বৈশিষ্ট্য থাকতে হবে ক্লাস।
কেন পরীক্ষার জন্য ননজিগিটিভ বৈশিষ্ট্য প্রয়োজন?
বৈশিষ্ট্যগুলিতে যদি লক্ষণ না থাকে তবে শ্রেণিবদ্ধ বা বিযুক্ত হয়, তবুও কি তাদের জন্য পরীক্ষাটি প্রয়োগ করা যেতে পারে? (আমার প্রথম অংশ দেখুন)
যদি বৈশিষ্ট্যগুলি নেতিবাচক হয় তবে আমরা সর্বদা তাদের ডোমেনগুলিকে বিনিন করতে পারি এবং তাদের উপস্থিতিগুলি তাদের সাথে প্রতিস্থাপন করতে পারি (আইরিস ডেটাসেটটিতে পরীক্ষা প্রয়োগের জন্য যেমনটি আমি অনুমান করি ঠিক তেমন, অংশ 2 দেখুন), তাই না?
দ্রষ্টব্য: আমার ধারণা, সাইকিত শিখুন সাধারণ নীতি অনুসরণ করে এবং আমি এখানে যা চাইছি তা সেটাই। যদি তা না হয় তবে এটি এখনও ঠিক আছে।