চি স্কোয়ার পরীক্ষাটি কী ধরণের বৈশিষ্ট্য নির্বাচনের জন্য ব্যবহার করা যেতে পারে?


11
  1. এখানে আমি তত্ত্বাবধানে শেখার বৈশিষ্ট্য নির্বাচনের কব্জির ফলাফলের জন্য চি স্কোয়ার্ড টেস্ট ব্যবহার করার জন্য অন্যরা সাধারণত কী করে সে সম্পর্কে জিজ্ঞাসা করছি। আমি যদি সঠিকভাবে বুঝতে পারি তবে তারা কি প্রতিটি বৈশিষ্ট্য এবং ফলাফলের মধ্যে স্বাধীনতা পরীক্ষা করে এবং প্রতিটি বৈশিষ্ট্যের জন্য পরীক্ষার মধ্যে পি মানগুলি তুলনা করে?

  2. ইন http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    পিয়ারসনের চি-স্কোয়ার্ড পরীক্ষাটি এমন একটি স্ট্যাটিস্টিকাল টেস্ট যা শ্রেণিবিন্যাসের উপাত্তগুলির সেটগুলিতে প্রয়োগ করা হয় যা মূল্যায়নের জন্য সেটগুলির মধ্যে যে কোনও পর্যবেক্ষণের পার্থক্য সুযোগের কারণে উত্থাপিত হয়েছিল তা কতটা সম্ভাবনা রয়েছে তা মূল্যায়নের জন্য।

    ...

    স্বতন্ত্রতার পরীক্ষাটি নির্ধারণ করে যে आकस्मिक টেবিলে প্রকাশিত দুটি পরিবর্তনশীলগুলির জুটিবদ্ধ পর্যবেক্ষণগুলি একে অপরের থেকে স্বতন্ত্র কিনা (যেমন, কোনও ব্যক্তির জাতীয়তার প্রতিক্রিয়া সম্পর্কিত কিনা তা দেখতে বিভিন্ন জাতীয়তার লোকদের পোলিং প্রতিক্রিয়াগুলি)।

    সুতরাং যে দুটি ভেরিয়েবলের স্বাধীনতার পরীক্ষা দ্বারা পরীক্ষা করা হয় তা অবশ্যই শ্রেণিবদ্ধ বা বিযুক্ত (শ্রেণীবদ্ধের পাশাপাশি আদেশের অনুমতি দেওয়া) হওয়া উচিত, তবে স্বচ্ছ নয়?

  3. Http://scikit-learn.org/stable/modules/feature_selection.html থেকে তারা

    কেবল দুটি সেরা বৈশিষ্ট্য পুনরুদ্ধার করতে আইরিস ডেটাসেটে একটি পরীক্ষা করুন ।χ2

    ইন Iris ডেটা সেটটি , সমস্ত বৈশিষ্ট্য সংখ্যাসূচক এবং ক্রমাগত মূল্যবান, এবং ফলাফল বর্গ লেবেল (শ্রেণীগত) হয়। কীভাবে চি স্কোয়ার্ড স্বতন্ত্রতা পরীক্ষা ধারাবাহিক বৈশিষ্ট্যগুলিতে প্রয়োগ হয়?

    ডেটাসেটে চি স্কোয়ার্ড স্বতন্ত্রতা পরীক্ষা প্রয়োগ করার জন্য, আমরা কি প্রথমে বিন্যস্ত করে অবিচ্ছিন্ন বৈশিষ্ট্যগুলিকে বিচ্ছিন্ন বৈশিষ্ট্যগুলিতে রূপান্তর করি (অর্থাত্ প্রথমে বৈশিষ্ট্যগুলি 'ধারাবাহিক ডোমেনগুলিকে বিনে বিভক্ত করে, এবং তারপরে বৈশিষ্ট্যগুলিকে বিন্যাসে মূল্যবোধগুলির উপস্থিতি দিয়ে প্রতিস্থাপন করে) )?

    বেশ কয়েকটি ডাবের সংঘটনগুলি বহু-জাতীয় বৈশিষ্ট্য গঠন করে (হয় হয় প্রতিটি বাক্সে হয় না), তাই চি স্কোয়ার্ড স্বতন্ত্রতা পরীক্ষা তাদের জন্য প্রয়োগ করতে পারে, তাই না?

    আমার অনুমান অনুসারে, আমরা কোনও ধরণের বৈশিষ্ট্য এবং ফলাফলগুলিতে চি স্কোয়ার্ড স্বাধীনতা পরীক্ষা প্রয়োগ করতে পারি , সঠিক?

    ফলাফলের অংশের জন্য, আমরা কেবল শ্রেণিবদ্ধের জন্য বৈশিষ্ট্যগুলি নির্বাচন করতে পারি না, তবে প্রতিরোধের জন্য, চি স্কোয়ারের স্বাধীনতা পরীক্ষা দ্বারা, অবিচ্ছিন্ন ফলাফলকে বিন্যাস করে, ডান?

  4. সাইকিট শিখার সাইটটিও বলে

    প্রতিটি অ-নেতিবাচক বৈশিষ্ট্য এবং শ্রেণীর মধ্যে চি-স্কোয়ারের পরিসংখ্যান গণনা করুন ।

    এই স্কোরটি এক্স থেকে চি চি-স্কোড স্ট্যাটিস্টিকের জন্য সর্বাধিক মানগুলির সাথে n_features বৈশিষ্ট্যগুলি নির্বাচন করতে ব্যবহার করা যেতে পারে, যার মধ্যে কেবলমাত্র বুলিয়ান বা ফ্রিকোয়েন্সিগুলির (যেমন, নথির শ্রেণিবিন্যাসে টার্ম গণনা) নন-নেতিবাচক বৈশিষ্ট্য থাকতে হবে ক্লাস।

    কেন পরীক্ষার জন্য ননজিগিটিভ বৈশিষ্ট্য প্রয়োজন?

    বৈশিষ্ট্যগুলিতে যদি লক্ষণ না থাকে তবে শ্রেণিবদ্ধ বা বিযুক্ত হয়, তবুও কি তাদের জন্য পরীক্ষাটি প্রয়োগ করা যেতে পারে? (আমার প্রথম অংশ দেখুন)

    যদি বৈশিষ্ট্যগুলি নেতিবাচক হয় তবে আমরা সর্বদা তাদের ডোমেনগুলিকে বিনিন করতে পারি এবং তাদের উপস্থিতিগুলি তাদের সাথে প্রতিস্থাপন করতে পারি (আইরিস ডেটাসেটটিতে পরীক্ষা প্রয়োগের জন্য যেমনটি আমি অনুমান করি ঠিক তেমন, অংশ 2 দেখুন), তাই না?

দ্রষ্টব্য: আমার ধারণা, সাইকিত শিখুন সাধারণ নীতি অনুসরণ করে এবং আমি এখানে যা চাইছি তা সেটাই। যদি তা না হয় তবে এটি এখনও ঠিক আছে।

উত্তর:


2

আমি মনে করি আপনার বিভ্রান্তির একটি অংশটি হ'ল কোন ধরণের ভেরিয়েবলের সাথে চি-স্কোয়ার্ড তুলনা করতে পারে। উইকিপিডিয়া এই সম্পর্কে নিম্নলিখিত বলে:

এটি একটি নাল অনুমানের পরীক্ষা করে বলেছে যে কোনও নমুনায় দেখা কিছু ইভেন্টের ফ্রিকোয়েন্সি বিতরণ একটি নির্দিষ্ট তাত্ত্বিক বিতরণের সাথে সামঞ্জস্যপূর্ণ।

সুতরাং এটি ফ্রিকোয়েন্সি বিতরণগুলির সাথে তুলনা করে, এটি গণনা হিসাবেও পরিচিত, অ-নেতিবাচক সংখ্যা হিসাবেও পরিচিত। বিভিন্ন ফ্রিকোয়েন্সি বিতরণ শ্রেণিবদ্ধ ভেরিয়েবল দ্বারা সংজ্ঞায়িত করা হয়; অর্থাত্ একটি শ্রেণিবদ্ধ ভেরিয়েবলের প্রতিটি মানের জন্য একটি ফ্রিকোয়েন্সি বিতরণ হওয়া দরকার যা অন্যগুলির সাথে তুলনা করা যায়।

ফ্রিকোয়েন্সি বিতরণ পাওয়ার বিভিন্ন উপায় রয়েছে। এটি দ্বিতীয় শ্রেণীবদ্ধ পরিবর্তনশীল হতে পারে যেখানে প্রথম শ্রেণিবদ্ধ ভেরিয়েবলের সহ-ঘটনাগুলি একটি পৃথক ফ্রিকোয়েন্সি বিতরণ পেতে গণনা করা হয়। অন্য বিকল্পটি হল একটি শ্রেণীবদ্ধ ভেরিয়েবলের বিভিন্ন মানের জন্য একটি (একাধিক) সংখ্যার ভেরিয়েবল ব্যবহার করা, এটি (যেমন) সংখ্যার ভেরিয়েবলের মানগুলি যোগ করতে পারে। প্রকৃতপক্ষে, যদি শ্রেণিবদ্ধ ভেরিয়েবলগুলি বাইনারি হয় তবে পূর্ববর্তীটি একটি পরবর্তী সংস্করণ।

উদাহরণ

উদাহরণ হিসাবে এই ভেরিয়েবলগুলির সেটগুলি দেখুন:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

শ্রেণীবদ্ধ ভেরিয়েবলগুলি xএবং yসহ-ঘটনাগুলি গণনা করে তুলনা করা যায় এবং চি-স্কোয়ার পরীক্ষার মাধ্যমে এটি ঘটে:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

তবে আপনি 'x' এর মানগুলি দ্বিখণ্ডিত করতে পারেন এবং নিম্নলিখিত ভেরিয়েবলগুলি পেতে পারেন:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

মান গণনা এখন মানগুলির সাথে মিলিত সংখ্যার সমষ্টি হিসাবে সমান z

                 x1    x2
'wild'           1     0
'domesticated'   1     2

আপনি দেখতে পাচ্ছেন একটি একক শ্রেণিবদ্ধ ভেরিয়েবল ( x) বা একাধিক সংখ্যাসূচক ভেরিয়েবল ( x1এবং x2) সমানভাবে উপস্থাপিত সারণীতে প্রদর্শিত হয়। সুতরাং চি-স্কোয়ার পরীক্ষাগুলি অন্য শ্রেণীবদ্ধ ভেরিয়েবল বা একাধিক সংখ্যাসূচক ভেরিয়েবল (স্কেলের্নের বৈশিষ্ট্যগুলি) এর সাথে মিলিয়ে একটি শ্রেণিবদ্ধ ভেরিয়েবলের উপর প্রয়োগ করা যেতে পারে sk


সুতরাং যদি chi_square বৈশিষ্ট্য নির্বাচনটি কেবল অ-নেতিবাচক বৈশিষ্ট্যগুলির জন্য ব্যবহার করা যেতে পারে (freq, গণনা, ect), এমন পরিস্থিতিতে যেখানে নেতিবাচক মানগুলির সাথে বৈশিষ্ট্য রয়েছে তার অর্থ কী? বৈশিষ্ট্যটি রূপান্তর করুন বা অন্য বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করবেন? ধরা যাক আমরা আইরিস ডেটাসেট সম্পর্কে নতুন গবেষণা করেছি এবং প্রতিদিন সিপাল দৈর্ঘ্যের পরিবর্তন পরিমাপ করার একটি বৈশিষ্ট্য আমাদের রয়েছে। শেষ পর্যন্ত এবং নেতিবাচক মান থাকবে। দৈর্ঘ্যের একটি নেতিবাচক পরিবর্তন দিয়ে উদ্ভিদটি শুকিয়ে সঙ্কুচিত হবে। সম্ভবত আমরা কোন গাছটি কত দ্রুত তা শুকিয়ে বা কোনও কিছুর দ্বারা শ্রেণিবদ্ধ করার চেষ্টা করছি।
আরশ হাওয়েদা

1
চি-স্কোয়ার মানগুলির অনুপাতের উপর ভিত্তি করে (যেমন ফ্রিকোয়েন্সি বিতরণ)। এটি (বাইনারিযুক্ত) বৈশিষ্ট্য মানগুলিকে সংক্ষিপ্ত করে প্রয়োগ করা হয়। সুতরাং পুরো যোগফলের একটি অংশ থাকা উচিত। নেতিবাচক মানগুলির সাথে এটি হয় না।
পিটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.