কীভাবে পরিসংখ্যানগতভাবে প্রমাণ করবেন যে কোনও কলামে শ্রেণিবদ্ধ ডেটা রয়েছে বা পাইথন ব্যবহার করছে না


10

পাইথনে আমার একটি ডেটা ফ্রেম রয়েছে যেখানে আমাকে সমস্ত শ্রেণীবদ্ধ ভেরিয়েবলগুলি সন্ধান করতে হবে। কলামের ধরণটি পরীক্ষা করা সবসময় কাজ করে না কারণ intপ্রকারটিও শ্রেণিবদ্ধ হতে পারে।

সুতরাং আমি কোনও কলামটি শ্রেণিবদ্ধ কিনা তা সনাক্ত করার জন্য সঠিক অনুমানের পরীক্ষা পদ্ধতিটি অনুসন্ধানে সহায়তা চাই।

আমি চি-স্কোয়ার পরীক্ষার নীচে চেষ্টা করছিলাম তবে এটি যথেষ্ট ভাল কিনা তা আমি নিশ্চিত নই

import numpy as np
data = np.random.randint(0,5,100)
import scipy.stats as ss
ss.chisquare(data)

দয়া করে উপদেশ দাও.


1
আপনি যদি স্পষ্ট করে বলতে পারেন যে আমি সঠিকভাবে বুঝতে পেরেছি যে আপনি একটি সাধারণ ভেরিয়েবল হিসাবে ব্যবহৃত এবং যথেচ্ছ শ্রেণিবদ্ধ কোডিং হিসাবে ব্যবহৃত ইন্টের মধ্যে পার্থক্য করতে চান? আমার কাছে কোনও উত্তর নেই তবে এটি অন্য পাঠকদের আপনি কী চান তা পরিষ্কার হতে সহায়তা করতে পারে। স্বজ্ঞাতভাবে আমি মনে করি না চি 2 নির্ভরযোগ্যভাবে কাজটি করতে পারে।
রিনিব্যাট

হ্যাঁ তুমিই ঠিক. আমার ফোকাসটি ভেরিয়েবলের ধরণের পরিবর্তে নয় যে ডেটা বহন করে। সুতরাং উদাহরণ কোডটিতে আমি ফলাফলটি ভাগ করেছি এটি হওয়া উচিত যে এটি একটি স্পষ্টিকর পরিবর্তনশীল কারণ এর কেবল 5 টি অনন্য মান রয়েছে।
অমিত

1
নিয়মটি কোথা থেকে আসে না "ফলাফলটি এমন হওয়া উচিত যে এটি একটি শ্রেণিবদ্ধ পরিবর্তনশীল কারণ এর কেবলমাত্র 5 টি অনন্য মান রয়েছে।" থেকে আসছে?
ডেনিস সোয়েমারস

ওহ এটি কোনও নিয়ম নয়, স্বজ্ঞাতভাবে আমি জানি যে আমার সমস্ত কলামের ডেটা এই 5 টি মান।
অমিত

যদিও অন্যরা সঠিকভাবে এটি চিহ্নিত করতে পারে না যে এটি করা যায় না, তা সত্ত্বেও এটি একটি আকর্ষণীয় মেশিন শেখার সমস্যা তৈরি করে make নিঃসন্দেহে এমন সমস্যা ডোমেন রয়েছে যাতে যুক্তিসঙ্গতভাবে সঠিক পূর্বাভাস দেওয়া যেতে পারে।
জন কোলেম্যান

উত্তর:


34

সংক্ষিপ্ত উত্তর: আপনি পারবেন না।

কোনও পরিসংখ্যানগত পরীক্ষা নেই যা আপনাকে বলবে যে 1 এবং 10 এর মধ্যে পূর্ণসংখ্যা রয়েছে এমন কোনও ভবিষ্যদ্বাণী সংখ্যার পূর্বাভাসকারী (যেমন, শিশুদের সংখ্যা) বা দশটি বিভিন্ন বিভাগকে এনকোড করে কিনা। (যদি ভবিষ্যদ্বাণীকারীতে নেতিবাচক সংখ্যা থাকে, বা ক্ষুদ্রতম সংখ্যাটি একের চেয়ে বড় হয়, বা এটি পূর্ণসংখ্যাকে এড়িয়ে যায়, তবে এটির একটি শ্রেণিবদ্ধ এনকোডিং হওয়ার বিরুদ্ধে তর্ক হতে পারে - বা এর অর্থ কেবল বিশ্লেষক অমানুষিক এনকোডিং ব্যবহার করেছেন))

নিশ্চিত হওয়ার একমাত্র উপায় হ'ল ডোমেন দক্ষতা বা ডেটাসেটের কোডবুক (যা সর্বদা উপস্থিত থাকা উচিত) le


14
"ডেটাসেটের কোডবুক (যা সর্বদা উপস্থিত থাকা উচিত)" - হা, ভাল।
কোডিওলজিস্ট 16 '35

12

যে কোনও মানদণ্ড - বা থাম্বের নিয়ম - আপনার ডেটাসেটের জন্য কাজ আপনাকে স্বাগতম, তবে আমরা আপনার ডেটা দেখতে পাচ্ছি না। যে কোনও ক্ষেত্রে সমস্যাটি সাধারণত উন্নততর হয় এবং কোনও নির্দিষ্ট সফ্টওয়্যারটির উল্লেখ ছাড়াই।

এটি আপনি যা ভাবেন তার থেকেও খারাপ, এমনকি যদি আপনি এটি ভাবেন তার থেকেও খারাপ।

  1. @ স্টেফান কোলাসার উত্তর ইতিমধ্যে একটি মূল বিষয় তুলে ধরেছে। ক্ষুদ্র পূর্ণসংখ্যার অর্থ বিভাগগুলির পরিবর্তে গণনাগুলি বোঝানো যেতে পারে: 3, যার অর্থ 3 গাড়ি বা বিড়াল 3 এর মতো নয়, যার অর্থ "ব্যক্তি একটি গাড়ীর মালিক" বা "বিড়ালের মালিক ব্যক্তি"।

  2. দশমিক পয়েন্টগুলি কোডেড শ্রেণিবদ্ধকরণের অংশ হিসাবে যেমন শিল্প বা রোগের ক্ষেত্রে শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে লুকিয়ে থাকতে পারে।

  3. পরিমাপের কঠোর বোধটি কেবল কনভেনশন দ্বারা পূর্ণসংখ্যার হতে পারে, যেমন লোকেদের উচ্চতা কেবল পূর্ণসংখ্যার সেমি বা ইঞ্চি হিসাবে চিহ্নিত হতে পারে, রক্তচাপগুলি পূর্ণসংখ্যার মিমি এইচজি হিসাবে দেখা যায়।

  4. স্বতন্ত্র সংখ্যা ("অনন্য" এর চেয়ে ভাল শব্দ, যা এখনও একবারে ঘটার প্রাথমিক অর্থ রয়েছে) মানগুলিও কোনও ভাল গাইড নয়। বিভিন্ন ধার্মিক অনুষঙ্গ বা জাতিগত উত্সের সংখ্যার চেয়ে কম পরিমিত নমুনায় মানুষের বিভিন্ন উচ্চতার সংখ্যা সম্ভবত অনেক কম।


+1 টি। এটি বিবেচনার জন্য জিনিসগুলির একটি ভাল তালিকা। শ্রেণিবদ্ধ পরিবর্তনশীল সনাক্তকরণটি স্বয়ংক্রিয় করতে আপনার ডেটাসেট (এবং কোনও ডকুমেন্টেশন) সম্পর্কে আপনার ডোমেন জ্ঞানের সাথে এটি একত্রিত করা উচিত।
আনা

@ আন্না আমি বলব যে স্বয়ংক্রিয় সনাক্তকরণ করা উচিত নয় এবং এই থ্রেডে বর্ণিত হিসাবে আপনাকে ঠিক সমস্যায় ফেলতে পারে। ডোমেন জ্ঞান এবং ডকুমেন্টেশনগুলি সহজেই অন্যান্য ভেরিয়েবলগুলির মধ্যে থেকে বহুভোজী ভেরিয়েবলগুলি সনাক্ত করা উচিত, যাতে আপনার অনুমান করতে হবে না।
যুবরাজ_ও_পরে

7

ঠিক আছে, আমি মনে করি এটি অন্যান্য উত্তরগুলির তুলনায় আরও খারাপ: ডেটাটি শ্রেণিবদ্ধ বা সংখ্যাসূচক সাব স্পেসিফিক ইন্টারন্যাটিস নয় - "পরিমাপের স্তর" কোনও নির্দিষ্ট অনুষ্ঠানে নির্দিষ্ট প্রশ্নের উত্তর দেওয়ার জন্য বিশ্লেষক দ্বারা নির্ধারিত কিছু। এখানে গ্লেন_বি এর উত্তর দেখুন ।

এটি বুঝতে ব্যবহারিক গুরুত্ব রয়েছে। উদাহরণস্বরূপ, একটি শ্রেণিবিন্যাস গাছের সাথে অনুপাত, ব্যবধান এবং নিয়মিত স্তরের ভবিষ্যদ্বাণীকারীদের মধ্যে পার্থক্যটির কোনও ফল হয় না the কেবলমাত্র পার্থক্যটি যা সাধারণ এবং নামমাত্র ভবিষ্যদ্বাণীকের মধ্যে থাকে। একটি রেখার সাথে একটি বিন্দুতে ভবিষ্যদ্বাণীকে বিভক্ত করার জন্য অ্যালগরিদমকে সীমাবদ্ধ করে, নিম্ন মানের থেকে উচ্চতর পৃথক করে, তার ভবিষ্যদ্বাণীমূলক কার্যকারণায় একটি উল্লেখযোগ্য প্রভাব ফেলতে পারে - ভাল বা অসুস্থতার জন্য, প্রতিক্রিয়ার সাথে সামঞ্জস্যতার (আবশ্যকভাবে অর্ডিনাল) সাবলীলতা নির্ভর করে & ডেটা-সেট আকার। ভবিষ্যদ্বাণী পরিবর্তনশীল আপনি যে বিশ্লেষণ গ্রহণ করতে চলেছেন তা নির্বিশেষে বাস্তবতার প্রতিনিধিত্ব করার উপর ভিত্তি করে সিদ্ধান্ত নেওয়ার কোনও বুদ্ধিমান উপায় নেই, আপনি কী কী মূল্যবোধগুলি খুঁজে পেয়েছেন তা নমুনায় নিয়ে যায় তা ছেড়ে দেওয়া।


0

এটি একটি মুক্ত গবেষণা প্রশ্ন question উদাহরণস্বরূপ ভ্যালেরা এট আল র কাজটি দেখুন। ( কাগজ ) বা এক্সটেনশানগুলি (যেমন ধীর এট আল - কাগজ দ্বারা একটি )।

সম্পাদনা:

পরিসংখ্যান এবং মেশিন লার্নিংয়ের একটি সাধারণ অনুশীলন হ'ল পরিসংখ্যানগত ডেটা ধরণের (যেমন, নিয়মিত, শ্রেণিবদ্ধ বা বাস্তব-মূল্যবান) ভেরিয়েবলগুলির, এবং সাধারণত, সম্ভাবনা মডেলটিও জানা যায় ass যাইহোক, বাস্তব-বিশ্বের ডেটাগুলির প্রাপ্যতা বৃদ্ধি পাওয়ার সাথে সাথে এই অনুমানটি খুব সীমাবদ্ধ হয়ে যায়। ডেটা প্রায়শই ভিন্ন ভিন্ন, জটিল এবং অযথাই বা অসম্পূর্ণভাবে নথিভুক্ত হয়। আশ্চর্যজনকভাবে, তাদের ব্যবহারিক গুরুত্ব সত্ত্বেও, এখনও একটি ডেটাশেটের ভেরিয়েবলগুলির পরিসংখ্যানগত প্রকারের পাশাপাশি যথাযথ সম্ভাবনা (শোরগোল) মডেলগুলির স্বয়ংক্রিয়ভাবে আবিষ্কার করার জন্য এখনও সরঞ্জামগুলির অভাব রয়েছে।

(ভ্যালেরা কাগজ থেকে।)

সুতরাং যখন আমরা বলি যে এটি একটি "ওপেন প্রশ্ন" (অদ্ভুতভাবে নিজেকে উদ্ধৃত করার পক্ষে যথেষ্ট), তখন আমরা বলতে চাইছি যে সীমাবদ্ধ নমুনা দেওয়া তথ্যের ধরণের অনুমানের জন্য বর্তমানে কোনও ভাল স্বয়ংক্রিয় পদ্ধতি নেই। আপনার যদি অসীম নমুনা থাকে তবে এটি সহজ হবে, তবে যেহেতু এটি সম্ভব নয়, তাই আমাদের অন্য উপায়ে ফিরে যেতে হবে।


"ওপেন রিসার্চ প্রশ্ন" দ্বারা আপনি কী উল্লেখ করছেন তা আমাদের বলতে পারেন? আপনার উত্তর কীভাবে (বা না!) এই থ্রেডের অন্যান্য উত্তরগুলির সাথে বিরোধিতা করে না তা দয়া করে ব্যাখ্যা করার বিষয়টি বিবেচনা করুন।
হোবল

অবশ্যই, আমার উত্তর সম্পাদনা করুন।
অ্যাস্ট্রিড

ধন্যবাদ. ভ্যালেরা কাগজটি অনুধাবন করার পরে আমার কাছে মনে হয়েছিল যে এটি আরও দৃ stronger় দাবি করেছে: যথা, এটি পরিবর্তনশীল ধরণের সম্পর্কে অনুমান করার একটি পদ্ধতি রয়েছে এবং বিশেষত শ্রেণিবদ্ধ এবং সাধারণ তথ্যগুলির মধ্যে পার্থক্য করার জন্য পুরোপুরি সমর্থন করে না। আমি পদ্ধতিটি অধ্যয়ন করি নি, তবে অনুমান করি যে এগুলি ভেরিয়েবল এবং অন্যান্য ভেরিয়েবলগুলির সাথে সম্পর্কিত বলে মনে করা হচ্ছে এর মধ্যে সম্পর্কগুলি দেখার ক্ষেত্রে এটি অবশ্যই (অন্তত অংশে) ভিত্তিতে থাকতে হবে। "অসীম নমুনা" (যা কিছু থাকুক না কেন) কোনও অতিরিক্ত ব্যবহারে কীভাবে ব্যবহার হবে তা আমি বুঝতে অক্ষম: আপনি কীভাবে ব্যাখ্যা করতে পারবেন যে কীভাবে এই সমস্যাটি "সহজ" হয়ে যায়?
whuber

এটি আসলে একটি খুব শক্ত পদ্ধতি, এবং আমি নিজেই এটি বিশদভাবে অধ্যয়ন করেছি (যা আমাকে কিছুটা পক্ষপাতদুষ্ট মনে করে তোলে); তবে তারা ধারণা খুব চালাক। আমরা অনুমান করি যে প্রতিটি কলামের ধরণকে প্রকারের মিশ্রণ হিসাবে বর্ণনা করা যেতে পারে (অনেকটা একটি মিশ্রণের মডেলের মতো) এবং তারপরে আমরা সর্বোচ্চ ওজনযুক্ত প্রকারটি খুঁজতে চাই এবং তারপরে সংবাদদাতাকে 'টাইপ' বলব ভেরিয়েবলের আসল প্রকারকে। টাইপ অনুমান যতদূর যায়, এটি অত্যন্ত চালাক এবং সেরা স্বয়ংক্রিয় পদ্ধতি (যা আমি জানি)। অন্যরা যদি অন্যকে জানতে থাকে, তবে শেয়ার করুন!
অ্যাস্ট্রিড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.