কীভাবে পরিসংখ্যানগতভাবে প্রমাণ করবেন যে কোনও কলামে শ্রেণিবদ্ধ ডেটা রয়েছে বা পাইথন ব্যবহার করছে না
10
পাইথনে আমার একটি ডেটা ফ্রেম রয়েছে যেখানে আমাকে সমস্ত শ্রেণীবদ্ধ ভেরিয়েবলগুলি সন্ধান করতে হবে। কলামের ধরণটি পরীক্ষা করা সবসময় কাজ করে না কারণ intপ্রকারটিও শ্রেণিবদ্ধ হতে পারে।
সুতরাং আমি কোনও কলামটি শ্রেণিবদ্ধ কিনা তা সনাক্ত করার জন্য সঠিক অনুমানের পরীক্ষা পদ্ধতিটি অনুসন্ধানে সহায়তা চাই।
আমি চি-স্কোয়ার পরীক্ষার নীচে চেষ্টা করছিলাম তবে এটি যথেষ্ট ভাল কিনা তা আমি নিশ্চিত নই
import numpy as np
data = np.random.randint(0,5,100)import scipy.stats as ss
ss.chisquare(data)
আপনি যদি স্পষ্ট করে বলতে পারেন যে আমি সঠিকভাবে বুঝতে পেরেছি যে আপনি একটি সাধারণ ভেরিয়েবল হিসাবে ব্যবহৃত এবং যথেচ্ছ শ্রেণিবদ্ধ কোডিং হিসাবে ব্যবহৃত ইন্টের মধ্যে পার্থক্য করতে চান? আমার কাছে কোনও উত্তর নেই তবে এটি অন্য পাঠকদের আপনি কী চান তা পরিষ্কার হতে সহায়তা করতে পারে। স্বজ্ঞাতভাবে আমি মনে করি না চি 2 নির্ভরযোগ্যভাবে কাজটি করতে পারে।
হ্যাঁ তুমিই ঠিক. আমার ফোকাসটি ভেরিয়েবলের ধরণের পরিবর্তে নয় যে ডেটা বহন করে। সুতরাং উদাহরণ কোডটিতে আমি ফলাফলটি ভাগ করেছি এটি হওয়া উচিত যে এটি একটি স্পষ্টিকর পরিবর্তনশীল কারণ এর কেবল 5 টি অনন্য মান রয়েছে।
যদিও অন্যরা সঠিকভাবে এটি চিহ্নিত করতে পারে না যে এটি করা যায় না, তা সত্ত্বেও এটি একটি আকর্ষণীয় মেশিন শেখার সমস্যা তৈরি করে make নিঃসন্দেহে এমন সমস্যা ডোমেন রয়েছে যাতে যুক্তিসঙ্গতভাবে সঠিক পূর্বাভাস দেওয়া যেতে পারে।
কোনও পরিসংখ্যানগত পরীক্ষা নেই যা আপনাকে বলবে যে 1 এবং 10 এর মধ্যে পূর্ণসংখ্যা রয়েছে এমন কোনও ভবিষ্যদ্বাণী সংখ্যার পূর্বাভাসকারী (যেমন, শিশুদের সংখ্যা) বা দশটি বিভিন্ন বিভাগকে এনকোড করে কিনা। (যদি ভবিষ্যদ্বাণীকারীতে নেতিবাচক সংখ্যা থাকে, বা ক্ষুদ্রতম সংখ্যাটি একের চেয়ে বড় হয়, বা এটি পূর্ণসংখ্যাকে এড়িয়ে যায়, তবে এটির একটি শ্রেণিবদ্ধ এনকোডিং হওয়ার বিরুদ্ধে তর্ক হতে পারে - বা এর অর্থ কেবল বিশ্লেষক অমানুষিক এনকোডিং ব্যবহার করেছেন))
নিশ্চিত হওয়ার একমাত্র উপায় হ'ল ডোমেন দক্ষতা বা ডেটাসেটের কোডবুক (যা সর্বদা উপস্থিত থাকা উচিত) le
যে কোনও মানদণ্ড - বা থাম্বের নিয়ম - আপনার ডেটাসেটের জন্য কাজ আপনাকে স্বাগতম, তবে আমরা আপনার ডেটা দেখতে পাচ্ছি না। যে কোনও ক্ষেত্রে সমস্যাটি সাধারণত উন্নততর হয় এবং কোনও নির্দিষ্ট সফ্টওয়্যারটির উল্লেখ ছাড়াই।
এটি আপনি যা ভাবেন তার থেকেও খারাপ, এমনকি যদি আপনি এটি ভাবেন তার থেকেও খারাপ।
@ স্টেফান কোলাসার উত্তর ইতিমধ্যে একটি মূল বিষয় তুলে ধরেছে। ক্ষুদ্র পূর্ণসংখ্যার অর্থ বিভাগগুলির পরিবর্তে গণনাগুলি বোঝানো যেতে পারে: 3, যার অর্থ 3 গাড়ি বা বিড়াল 3 এর মতো নয়, যার অর্থ "ব্যক্তি একটি গাড়ীর মালিক" বা "বিড়ালের মালিক ব্যক্তি"।
দশমিক পয়েন্টগুলি কোডেড শ্রেণিবদ্ধকরণের অংশ হিসাবে যেমন শিল্প বা রোগের ক্ষেত্রে শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে লুকিয়ে থাকতে পারে।
পরিমাপের কঠোর বোধটি কেবল কনভেনশন দ্বারা পূর্ণসংখ্যার হতে পারে, যেমন লোকেদের উচ্চতা কেবল পূর্ণসংখ্যার সেমি বা ইঞ্চি হিসাবে চিহ্নিত হতে পারে, রক্তচাপগুলি পূর্ণসংখ্যার মিমি এইচজি হিসাবে দেখা যায়।
স্বতন্ত্র সংখ্যা ("অনন্য" এর চেয়ে ভাল শব্দ, যা এখনও একবারে ঘটার প্রাথমিক অর্থ রয়েছে) মানগুলিও কোনও ভাল গাইড নয়। বিভিন্ন ধার্মিক অনুষঙ্গ বা জাতিগত উত্সের সংখ্যার চেয়ে কম পরিমিত নমুনায় মানুষের বিভিন্ন উচ্চতার সংখ্যা সম্ভবত অনেক কম।
+1 টি। এটি বিবেচনার জন্য জিনিসগুলির একটি ভাল তালিকা। শ্রেণিবদ্ধ পরিবর্তনশীল সনাক্তকরণটি স্বয়ংক্রিয় করতে আপনার ডেটাসেট (এবং কোনও ডকুমেন্টেশন) সম্পর্কে আপনার ডোমেন জ্ঞানের সাথে এটি একত্রিত করা উচিত।
@ আন্না আমি বলব যে স্বয়ংক্রিয় সনাক্তকরণ করা উচিত নয় এবং এই থ্রেডে বর্ণিত হিসাবে আপনাকে ঠিক সমস্যায় ফেলতে পারে। ডোমেন জ্ঞান এবং ডকুমেন্টেশনগুলি সহজেই অন্যান্য ভেরিয়েবলগুলির মধ্যে থেকে বহুভোজী ভেরিয়েবলগুলি সনাক্ত করা উচিত, যাতে আপনার অনুমান করতে হবে না।
ঠিক আছে, আমি মনে করি এটি অন্যান্য উত্তরগুলির তুলনায় আরও খারাপ: ডেটাটি শ্রেণিবদ্ধ বা সংখ্যাসূচক সাব স্পেসিফিক ইন্টারন্যাটিস নয় - "পরিমাপের স্তর" কোনও নির্দিষ্ট অনুষ্ঠানে নির্দিষ্ট প্রশ্নের উত্তর দেওয়ার জন্য বিশ্লেষক দ্বারা নির্ধারিত কিছু। এখানে গ্লেন_বি এর উত্তর দেখুন ।
এটি বুঝতে ব্যবহারিক গুরুত্ব রয়েছে। উদাহরণস্বরূপ, একটি শ্রেণিবিন্যাস গাছের সাথে অনুপাত, ব্যবধান এবং নিয়মিত স্তরের ভবিষ্যদ্বাণীকারীদের মধ্যে পার্থক্যটির কোনও ফল হয় না the কেবলমাত্র পার্থক্যটি যা সাধারণ এবং নামমাত্র ভবিষ্যদ্বাণীকের মধ্যে থাকে। একটি রেখার সাথে একটি বিন্দুতে ভবিষ্যদ্বাণীকে বিভক্ত করার জন্য অ্যালগরিদমকে সীমাবদ্ধ করে, নিম্ন মানের থেকে উচ্চতর পৃথক করে, তার ভবিষ্যদ্বাণীমূলক কার্যকারণায় একটি উল্লেখযোগ্য প্রভাব ফেলতে পারে - ভাল বা অসুস্থতার জন্য, প্রতিক্রিয়ার সাথে সামঞ্জস্যতার (আবশ্যকভাবে অর্ডিনাল) সাবলীলতা নির্ভর করে & ডেটা-সেট আকার। ভবিষ্যদ্বাণী পরিবর্তনশীল আপনি যে বিশ্লেষণ গ্রহণ করতে চলেছেন তা নির্বিশেষে বাস্তবতার প্রতিনিধিত্ব করার উপর ভিত্তি করে সিদ্ধান্ত নেওয়ার কোনও বুদ্ধিমান উপায় নেই, আপনি কী কী মূল্যবোধগুলি খুঁজে পেয়েছেন তা নমুনায় নিয়ে যায় তা ছেড়ে দেওয়া।
এটি একটি মুক্ত গবেষণা প্রশ্ন question উদাহরণস্বরূপ ভ্যালেরা এট আল র কাজটি দেখুন। ( কাগজ ) বা এক্সটেনশানগুলি (যেমন ধীর এট আল - কাগজ দ্বারা একটি )।
সম্পাদনা:
পরিসংখ্যান এবং মেশিন লার্নিংয়ের একটি সাধারণ অনুশীলন হ'ল পরিসংখ্যানগত ডেটা ধরণের (যেমন, নিয়মিত, শ্রেণিবদ্ধ বা বাস্তব-মূল্যবান) ভেরিয়েবলগুলির, এবং সাধারণত, সম্ভাবনা মডেলটিও জানা যায় ass যাইহোক, বাস্তব-বিশ্বের ডেটাগুলির প্রাপ্যতা বৃদ্ধি পাওয়ার সাথে সাথে এই অনুমানটি খুব সীমাবদ্ধ হয়ে যায়। ডেটা প্রায়শই ভিন্ন ভিন্ন, জটিল এবং অযথাই বা অসম্পূর্ণভাবে নথিভুক্ত হয়। আশ্চর্যজনকভাবে, তাদের ব্যবহারিক গুরুত্ব সত্ত্বেও, এখনও একটি ডেটাশেটের ভেরিয়েবলগুলির পরিসংখ্যানগত প্রকারের পাশাপাশি যথাযথ সম্ভাবনা (শোরগোল) মডেলগুলির স্বয়ংক্রিয়ভাবে আবিষ্কার করার জন্য এখনও সরঞ্জামগুলির অভাব রয়েছে।
(ভ্যালেরা কাগজ থেকে।)
সুতরাং যখন আমরা বলি যে এটি একটি "ওপেন প্রশ্ন" (অদ্ভুতভাবে নিজেকে উদ্ধৃত করার পক্ষে যথেষ্ট), তখন আমরা বলতে চাইছি যে সীমাবদ্ধ নমুনা দেওয়া তথ্যের ধরণের অনুমানের জন্য বর্তমানে কোনও ভাল স্বয়ংক্রিয় পদ্ধতি নেই। আপনার যদি অসীম নমুনা থাকে তবে এটি সহজ হবে, তবে যেহেতু এটি সম্ভব নয়, তাই আমাদের অন্য উপায়ে ফিরে যেতে হবে।
"ওপেন রিসার্চ প্রশ্ন" দ্বারা আপনি কী উল্লেখ করছেন তা আমাদের বলতে পারেন? আপনার উত্তর কীভাবে (বা না!) এই থ্রেডের অন্যান্য উত্তরগুলির সাথে বিরোধিতা করে না তা দয়া করে ব্যাখ্যা করার বিষয়টি বিবেচনা করুন।
ধন্যবাদ. ভ্যালেরা কাগজটি অনুধাবন করার পরে আমার কাছে মনে হয়েছিল যে এটি আরও দৃ stronger় দাবি করেছে: যথা, এটি পরিবর্তনশীল ধরণের সম্পর্কে অনুমান করার একটি পদ্ধতি রয়েছে এবং বিশেষত শ্রেণিবদ্ধ এবং সাধারণ তথ্যগুলির মধ্যে পার্থক্য করার জন্য পুরোপুরি সমর্থন করে না। আমি পদ্ধতিটি অধ্যয়ন করি নি, তবে অনুমান করি যে এগুলি ভেরিয়েবল এবং অন্যান্য ভেরিয়েবলগুলির সাথে সম্পর্কিত বলে মনে করা হচ্ছে এর মধ্যে সম্পর্কগুলি দেখার ক্ষেত্রে এটি অবশ্যই (অন্তত অংশে) ভিত্তিতে থাকতে হবে। "অসীম নমুনা" (যা কিছু থাকুক না কেন) কোনও অতিরিক্ত ব্যবহারে কীভাবে ব্যবহার হবে তা আমি বুঝতে অক্ষম: আপনি কীভাবে ব্যাখ্যা করতে পারবেন যে কীভাবে এই সমস্যাটি "সহজ" হয়ে যায়?
এটি আসলে একটি খুব শক্ত পদ্ধতি, এবং আমি নিজেই এটি বিশদভাবে অধ্যয়ন করেছি (যা আমাকে কিছুটা পক্ষপাতদুষ্ট মনে করে তোলে); তবে তারা ধারণা খুব চালাক। আমরা অনুমান করি যে প্রতিটি কলামের ধরণকে প্রকারের মিশ্রণ হিসাবে বর্ণনা করা যেতে পারে (অনেকটা একটি মিশ্রণের মডেলের মতো) এবং তারপরে আমরা সর্বোচ্চ ওজনযুক্ত প্রকারটি খুঁজতে চাই এবং তারপরে সংবাদদাতাকে 'টাইপ' বলব ভেরিয়েবলের আসল প্রকারকে। টাইপ অনুমান যতদূর যায়, এটি অত্যন্ত চালাক এবং সেরা স্বয়ংক্রিয় পদ্ধতি (যা আমি জানি)। অন্যরা যদি অন্যকে জানতে থাকে, তবে শেয়ার করুন!