আমি এমন কাউকে জানি যে এমন একটি প্রকল্পে কাজ করছেন যা কলাম বা ডেটা ধরণের বিবেচনা না করে ডেটা ফাইল অন্তর্ভুক্ত করার সাথে জড়িত। কাজটি হ'ল সংখ্যার ডেটাতে যে কোনও সংখ্যক কলাম এবং বিভিন্ন ডেটা ধরণের এবং আউটপুট সংক্ষিপ্ত পরিসংখ্যান সহ একটি ফাইল নেওয়া।
তবে নির্দিষ্ট নম্বর-ভিত্তিক ডেটার জন্য কীভাবে ডায়নামিকভাবে ডেটা টাইপ প্রদান করবেন সে সম্পর্কে তিনি অনিশ্চিত। উদাহরণ স্বরূপ:
CITY
Albuquerque
Boston
Chicago
এটি স্পষ্টত সংখ্যাসূচক তথ্য নয় এবং এটি পাঠ্য হিসাবে সংরক্ষণ করা হবে। যাহোক,
ZIP
80221
60653
25525
স্পষ্টত শ্রেণীবদ্ধ হিসাবে চিহ্নিত করা হয় না। তার সফ্টওয়্যারটি এর জন্য সংখ্যা এবং আউটপুট সংক্ষিপ্ত পরিসংখ্যান হিসাবে জিপ কোড বরাদ্দ করবে, যা এই ধরণের ডেটা বোঝায় না।
আমাদের কাছে কয়েকটি দর্শন ছিল:
- কোনও কলাম যদি সমস্ত পূর্ণসংখ্যার হয় তবে এটিকে শ্রেণিবদ্ধ হিসাবে লেবেল করুন। এটি পরিষ্কারভাবে কাজ করবে না, তবে এটি একটি ধারণা ছিল।
- যদি কোনও কলামে n এর চেয়ে কম স্বতন্ত্র মান থাকে এবং এটি সংখ্যাসূচক হয় তবে এটিকে শ্রেণিবদ্ধভাবে লেবেল করুন। এটি আরও কাছাকাছি হতে পারে তবে সংখ্যাসূচক ডেটা পড়ে যাওয়ার সাথে এখনও সমস্যা হতে পারে।
- সাধারণ সংখ্যাগত তথ্যের একটি তালিকা বজায় রাখুন যা প্রকৃতপক্ষে শ্রেণিবদ্ধ হওয়া উচিত এবং ম্যাচের জন্য কলামের শিরোনামকে এই তালিকার সাথে তুলনা করুন। উদাহরণস্বরূপ, এতে "জিপ" সহ যে কোনও কিছু শ্রেণিবদ্ধ হবে।
আমার অন্ত্রটি আমাকে বলে যে সংখ্যাসূচক তথ্যটিকে শ্রেণিবদ্ধ বা সংখ্যাসূচক হিসাবে নির্ধারণের কোনও উপায় নেই, তবে পরামর্শের প্রত্যাশায় ছিল। আপনার যে কোনও অন্তর্দৃষ্টি প্রশংসিত হয়।