আমি কীভাবে শ্রেণিবদ্ধভাবে ডেটা এবং সংখ্যাসূচক তথ্যগুলির মধ্যে পার্থক্য করতে পারি?


12

আমি এমন কাউকে জানি যে এমন একটি প্রকল্পে কাজ করছেন যা কলাম বা ডেটা ধরণের বিবেচনা না করে ডেটা ফাইল অন্তর্ভুক্ত করার সাথে জড়িত। কাজটি হ'ল সংখ্যার ডেটাতে যে কোনও সংখ্যক কলাম এবং বিভিন্ন ডেটা ধরণের এবং আউটপুট সংক্ষিপ্ত পরিসংখ্যান সহ একটি ফাইল নেওয়া।

তবে নির্দিষ্ট নম্বর-ভিত্তিক ডেটার জন্য কীভাবে ডায়নামিকভাবে ডেটা টাইপ প্রদান করবেন সে সম্পর্কে তিনি অনিশ্চিত। উদাহরণ স্বরূপ:

    CITY
    Albuquerque
    Boston
    Chicago

এটি স্পষ্টত সংখ্যাসূচক তথ্য নয় এবং এটি পাঠ্য হিসাবে সংরক্ষণ করা হবে। যাহোক,

    ZIP
    80221
    60653
    25525

স্পষ্টত শ্রেণীবদ্ধ হিসাবে চিহ্নিত করা হয় না। তার সফ্টওয়্যারটি এর জন্য সংখ্যা এবং আউটপুট সংক্ষিপ্ত পরিসংখ্যান হিসাবে জিপ কোড বরাদ্দ করবে, যা এই ধরণের ডেটা বোঝায় না।


আমাদের কাছে কয়েকটি দর্শন ছিল:

  1. কোনও কলাম যদি সমস্ত পূর্ণসংখ্যার হয় তবে এটিকে শ্রেণিবদ্ধ হিসাবে লেবেল করুন। এটি পরিষ্কারভাবে কাজ করবে না, তবে এটি একটি ধারণা ছিল।
  2. যদি কোনও কলামে n এর চেয়ে কম স্বতন্ত্র মান থাকে এবং এটি সংখ্যাসূচক হয় তবে এটিকে শ্রেণিবদ্ধভাবে লেবেল করুন। এটি আরও কাছাকাছি হতে পারে তবে সংখ্যাসূচক ডেটা পড়ে যাওয়ার সাথে এখনও সমস্যা হতে পারে।
  3. সাধারণ সংখ্যাগত তথ্যের একটি তালিকা বজায় রাখুন যা প্রকৃতপক্ষে শ্রেণিবদ্ধ হওয়া উচিত এবং ম্যাচের জন্য কলামের শিরোনামকে এই তালিকার সাথে তুলনা করুন। উদাহরণস্বরূপ, এতে "জিপ" সহ যে কোনও কিছু শ্রেণিবদ্ধ হবে।

আমার অন্ত্রটি আমাকে বলে যে সংখ্যাসূচক তথ্যটিকে শ্রেণিবদ্ধ বা সংখ্যাসূচক হিসাবে নির্ধারণের কোনও উপায় নেই, তবে পরামর্শের প্রত্যাশায় ছিল। আপনার যে কোনও অন্তর্দৃষ্টি প্রশংসিত হয়।


না পূর্ণ প্রমাণ কিন্তু যদি এটি একটি 0 দিয়ে শুরু এটা সাধারণত নয় সাংখ্যিক
paparazzo

আপনার নিজেরও নিজেকে জিজ্ঞাসা করা উচিত যে এটি ভুল হওয়ার পরিণতি কী? প্রক্রিয়াটিতে আপনাকে কত প্রয়াসের দরকার তা নির্ধারণ করা উচিত। আপনি কি 90% নির্ভুল, বা 99% সঠিক, বা 99.9999% নির্ভুল চান?
স্পেসডম্যান

আমি উত্তরে প্রস্তাবিত সমস্ত হিউরিস্টিক্সকে বৈশিষ্ট্য হিসাবে গ্রহণ করব এবং একটি বাইনারি শ্রেণিবদ্ধ প্রশিক্ষণ দেব।
এমেরে

Stats.stackexchange.com/a/106400/17230 দেখুন । সত্যিকার অর্থে এখানে সত্য নেই।
স্কোর্টচি

উত্তর:


8

আমি এটি করার একটি বুদ্ধিমান উপায় সম্পর্কে অবগত নই। আমার মাথার উপরের দিক থেকে একটি ধারণা এখানে:

  1. ডিফল্টরূপে মানকে শ্রেণিবদ্ধ হিসাবে বিবেচনা করুন।
  2. ডেটার বিভিন্ন বৈশিষ্ট্যের জন্য পরীক্ষা করুন যা বোঝায় যে এটি আসলে অবিচ্ছিন্ন। এই বৈশিষ্ট্যগুলি ওজন করে নিন যে তারা কীভাবে অবিচ্ছিন্ন ডেটার সাথে সম্পর্কিত হতে পারে on এখানে কয়েকটি সম্ভাব্য উদাহরণ রয়েছে:
    • মানগুলি পূর্ণসংখ্যা: +.7
    • মানগুলি ভাসমান: +.8
    • মানগুলি সাধারণত বিতরণ করা হয়: +.3
    • মানগুলিতে অপেক্ষাকৃত কম সংখ্যক অনন্য মান রয়েছে: +.3
    • মানগুলি হ'ল অক্ষরের সমস্ত সংখ্যার নয়: +.1 .1
    • মানগুলিতে শীর্ষস্থানীয় শূন্যগুলি থাকে না: +১
  3. সংখ্যাযুক্ত হিসাবে 1 টিরও বেশি সংখ্যক যে কোনও কলামকে চিকিত্সা করুন। আপনার প্রয়োজন অনুসারে বিভিন্ন ডেটা সেটগুলির বিরুদ্ধে পরীক্ষার ভিত্তিতে উপাদানগুলি এবং ওজনগুলি সামঞ্জস্য করুন। এমনকি এটি করতে আপনি আলাদা মেশিন লার্নিং অ্যালগরিদম তৈরি এবং প্রশিক্ষণও দিতে পারেন।

এই উত্তর আকর্ষণীয়। অন্য উত্তর দেওয়ার পরিবর্তে, আমি এটিতে একটি পরিবর্তন প্রস্তাব করতে চাই। এই সমস্যাটিকে নিয়মিত শ্রেণিবদ্ধকরণ সমস্যা হিসাবে চিকিত্সা করার বিষয়ে কী? এই উত্তরের বৈশিষ্ট্যগুলির উপর ভিত্তি করে আপনি প্রতিটি কলামের জন্য বৈশিষ্ট্যগুলির একটি সেট সংজ্ঞায়িত করতে পারেন (পূর্ণসংখ্যা, ভাসা, সাধারণত বিতরণ করা হয়েছে, অনন্য মূল্যগুলির আপেক্ষিক সংখ্যা ইত্যাদি) etc. এর পরে, এটি কেবল শ্রেণিবদ্ধকরণ অ্যালগরিদম ব্যবহারের বিষয়।
পাবলো সুউ

@ পাবলোসুউ, আমি এই ধারণাটি পছন্দ করি। শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলি এখানে দুর্দান্ত পদ্ধতি হতে পারে। কিছু বৈশিষ্ট্য দেখার জন্য jncraton ধন্যবাদ।
পোয়েসন ফিশ

4

আপনার যদি উদাহরণস্বরূপ, কোনও পরিবারের সন্তানের সংখ্যা থাকে (যা পরিসীমা হতে পারে, উদাহরণস্বরূপ, 0 থেকে 5 এর মধ্যে), এটি কি শ্রেণিবদ্ধ বা সংখ্যামূলক পরিবর্তনশীল? প্রকৃতপক্ষে এটি আপনার সমস্যা এবং আপনি কীভাবে এটি সমাধান করার পরিকল্পনা করছেন তার উপর নির্ভর করে। এই অর্থে, আপনি নিম্নলিখিতগুলি করতে পারেন:

  • এই কলামটির অনন্য মানের সংখ্যা গণনা করুন
  • মোট সারি সংখ্যা দ্বারা এই সংখ্যাটি ভাগ করুন
  • যদি এই অনুপাতটি কিছু প্রান্তিক (উদাহরণস্বরূপ, 20%) প্রশমিত হয়, আপনি এটিকে শ্রেণিবদ্ধ বিবেচনা করেন।

পৃথক মানগুলির ক্ষেত্রে, একটি অতিরিক্ত পরীক্ষা হতে পারে: কিছু পরামিতি অনুমান করার জন্য একটি রিগ্রেশন মডেল ব্যবহার করুন এবং অনুমান করা মানগুলি মানগুলির মূল সেটে অন্তর্ভুক্ত রয়েছে কিনা তা পরীক্ষা করুন। যদি এটি সত্য না হয়, আপনি সম্ভবত শ্রেণিবদ্ধ ডেটা (যেমন এটি জিপের ক্ষেত্রে) নিয়ে কাজ করছেন।

এটি অতীতে আমার জন্য তুলনামূলকভাবে ভাল কাজ করেছে ...


2

যেহেতু এই প্রশ্নটি ক্রস পোস্ট করা হয়েছে, ক্রস ভ্যালিটেটেড @ নিককক্সের প্রাথমিক মন্তব্যগুলি অত্যন্ত প্রাসঙ্গিক এবং সত্য। আমার মতামত কিছুটা আলাদা। উদাহরণস্বরূপ, আমি প্রশ্নটি পুনরায় লিখব এবং এটিকে দুটি ভাগে বিভক্ত করে দেখি: প্রথমত, এখানে কীভাবে কেউ তথ্য প্রকারের দ্বারা অজানা তথ্যের প্রবাহকে শ্রেণিবদ্ধকরণের বিষয়ে আলোচনা করবে এবং দ্বিতীয়ত, কী ধরণের ভুল শৃঙ্খলা হারের প্রত্যাশা করা যেতে পারে তা এখানে রয়েছে। উভয় প্রশ্নের অবিলম্বে উত্তর দেওয়া হয়, যদি কেউ এটি করার জন্য সময় নিতে চায় take

প্রথম ইস্যুটি সহজেই উপলভ্য সত্য-বিশ্বের ডেটাগুলির নমুনাগুলি ব্যবহার করে এই থ্রেডগুলিতে মন্তব্য এবং জবাবগুলিতে প্রাথমিকভাবে প্রস্তাবিত বিষয়গুলির লাইনের সাথে একটি নিয়ম-ভিত্তিক বিশেষজ্ঞ সিস্টেম বিকাশের সমান।

দ্বিতীয়ত, এই বাস্তব-বিশ্বের ডেটাগুলিতে শ্রেণিবিন্যাসের ত্রুটিটিকে মাপদণ্ডে চিহ্নিত তথ্য প্রকারগুলি রয়েছে given

তৃতীয় পদক্ষেপটি পুনরুদ্ধার করে নিয়মগুলি আপডেট করা জড়িত যা আরও বেশি সঠিকভাবে যে তথ্যগুলি দিয়ে যাচ্ছে তা প্রতিফলিত করতে পারে - এটি যে পরিমাণে সম্ভব।

আমার মনে, ক্লান্তিকর হওয়ার পরে, এই জাতীয় প্রকল্পটিতে কোনও নিষিদ্ধ পরিমাণ কাজ জড়িত হবে না।

---- অতিরিক্ত মন্তব্য ----

বৈশিষ্ট্য নিষ্কাশন সম্পর্কে একটি ভাল আলোচনা এটি এখানে সিভিতে পপ আপ হওয়া ডেটা তৈরির প্রক্রিয়া সম্পর্কিত:

/stats/191935/what-does-the-process-that-generates-the-data-mean-and-how-does-feature-selec

বৈশিষ্ট্য নিষ্কাশন, নির্বাচন এবং ডিজিপি একটি বিশেষজ্ঞ সিস্টেম বিকাশের জন্য এক দুর্দান্ত প্রস্থান।


আমি ক্রস যাচাইকরণের প্রশ্নটি মুছে ফেলেছি। রেফারেন্সের জন্য, @ নিককক্স জানিয়েছিলেন: "আপনি যা ভাবেন এটি তার থেকেও খারাপ, যদিও আপনি এটি ভাবেন তার চেয়েও খারাপ od দশমিক পয়েন্টগুলি কোডড শ্রেণিবদ্ধের মধ্যে যেমন শিল্প বা রোগের উদাহরণ হিসাবে শ্রেণিবদ্ধ পরিবর্তনশীলগুলির মধ্যে লুকিয়ে থাকতে পারে Small ছোট সংখ্যার পরিবর্তে গণনাগুলি বোঝাতে পারে বিভাগগুলির তুলনায়: 3, 3 গাড়ি বা বিড়াল, 3 এর সমান নয়, যার অর্থ "ব্যক্তি একটি গাড়ীর মালিক" বা "বিড়ালের মালিক ব্যক্তি" "পরিমাপগুলি কনভেনশন দ্বারা কেবল পূর্ণসংখ্যা হতে পারে, যেমন মানুষের উচ্চতা কেবলমাত্র হতে পারে পূর্ণসংখ্যার সেমি বা ইঞ্চি হিসাবে রিপোর্ট করা হয়, রক্তচাপ পূর্ণসংখ্যার মিমি এইচজি হিসাবে ""
পোয়েসন ফিশ

@ নিককক্সের দ্বিতীয় মন্তব্য: "স্বতন্ত্র সংখ্যা (" অনন্য "এর চেয়ে ভাল শব্দ, যা এখনও একবারে ঘটার প্রাথমিক অর্থ রয়েছে) মানগুলিও কোনও ভাল গাইড নয় mode মধ্যপন্থী নমুনায় মানুষের বিভিন্ন উচ্চতার সংখ্যাটি হ'ল বিভিন্ন ধর্মীয় অনুষঙ্গ বা জাতিগত উত্সের সংখ্যার তুলনায় সম্ভবত অনেক কম ""
পোয়েসন ফিশ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.