আমি অন্যান্য উত্তরগুলির প্রশংসা করি, তবে এটি আমার কাছে মনে হয় যে কিছু টপোলজিকাল পটভূমি প্রতিক্রিয়াগুলিতে একটি প্রয়োজনীয় কাঠামো দেবে।
সংজ্ঞা
আসুন ডোমেনগুলির সংজ্ঞা স্থাপন করে শুরু করি:
শ্রেণীবদ্ধ ভেরিয়েবল এমন একটি যার ডোমেনটিতে উপাদান রয়েছে তবে তাদের মধ্যে কোনও পরিচিত সম্পর্ক নেই (সুতরাং আমাদের কেবল বিভাগগুলি রয়েছে)। উদাহরণগুলি, প্রসঙ্গে নির্ভর করুন, তবে আমি সাধারণ ক্ষেত্রে বলতে পারি, সপ্তাহের দিনগুলির তুলনা করা কঠিন: রবিবারের আগে সোমবার, যদি তাই হয়, পরের সোমবারের কী হবে? হতে পারে একটি সহজ, তবে কম ব্যবহৃত উদাহরণটি হ'ল কাপড়ের টুকরো: কোনও প্রসঙ্গ সরবরাহ না করে যা কোনও অর্ডারকে বোঝায়, ট্রাউজারগুলি জাম্পারদের আগে আসে বা বিপরীতে।
অর্ডিনাল ভেরিয়েবল এমন একটি যা ডোমেনের উপরে মোট অর্ডার সংজ্ঞায়িত করা হয়, অর্থাৎ ডোমেনের প্রতিটি দুটি উপাদানগুলির জন্য, আমরা বলতে পারি যে হয় সেগুলি অভিন্ন, বা একটি অন্যটির চেয়ে বড়। একটি লিকার্ট-স্কেল একটি অর্ডিনাল ভেরিয়েবলের সংজ্ঞা দেওয়ার একটি ভাল উদাহরণ। "কিছুটা সম্মত" অবশ্যই "অসম্মতি" এর চেয়ে "দৃ strongly়ভাবে সম্মত" এর নিকটেই রয়েছে is
ইন্টারভাল ভেরিয়েবল এমন একটি, যার ডোমেন উপাদানগুলির মধ্যে দূরত্বগুলি (একটি মেট্রিক ) সংজ্ঞা দেয়, সুতরাং আমাদের অন্তরগুলি সংজ্ঞায়িত করতে দেয় allowing
ডোমেন উদাহরণ
আমরা ব্যবহার করি এমন সাধারণ সেট হিসাবে, প্রাকৃতিক এবং আসল সংখ্যার মানক মোট অর্ডার এবং মেট্রিক থাকে। এই কারণেই আমরা আমাদের বিভাগগুলিতে সংখ্যা নির্ধারণের সময় আমাদের সাবধান হওয়া দরকার। আমরা যদি অর্ডার এবং দূরত্বকে অবহেলা করতে সাবধান না হই, তবে আমরা আমাদের শ্রেণিবদ্ধ তথ্যগুলিকে অন্তর্বর্তী ডেটাতে ব্যবহারিকভাবে রূপান্তর করি। যখন কোনও মেশিন কীভাবে এটি কাজ করে তা না জেনে শেখার অ্যালগরিদম ব্যবহার করে, একজন অনিচ্ছাকৃতভাবে এমন অনুমান করা ঝুঁকিপূর্ণ করে তোলে, ফলে সম্ভাব্যভাবে নিজের ফলাফলকে অকার্যকর করে দেয়। উদাহরণস্বরূপ, সর্বাধিক জনপ্রিয় গভীর শেখার অ্যালগরিদমগুলি তাদের অন্তর এবং অবিচ্ছিন্ন বৈশিষ্ট্যের সুবিধা গ্রহণ করে আসল সংখ্যাগুলির সাথে কাজ করে। আরেকটি উদাহরণ, 5-পয়েন্টের লিকার্ট স্কেলগুলি সম্পর্কে চিন্তা করুন, এবং আমরা তাদের উপর বিশ্লেষণ কীভাবে প্রয়োগ করি তা ধরে নেওয়া হয় যে দৃ strongly়ভাবে একমত হয় এবং সম্মত হয়মতবিরোধ একই এবং না একমত বা অসমত । এই জাতীয় সম্পর্কের জন্য মামলা করা কঠিন।
আরেকটি সেট যা আমরা প্রায়ই সঙ্গে কাজ হয় স্ট্রিং । স্ট্রিংয়ের সাথে কাজ করার সময় বেশ কয়েকটি স্ট্রিং সাদৃশ্য মেট্রিক রয়েছে যা কাজে আসে। তবে এগুলি সবসময় কার্যকর হয় না। উদাহরণস্বরূপ, ঠিকানার জন্য, জন স্মিথ স্ট্রিট এবং জন স্মিথ রোড স্ট্রিংয়ের মিলের দিক থেকে বেশ ঘনিষ্ঠ, তবে অবশ্যই দুটি পৃথক সত্তা উপস্থাপন করেছেন যা মাইল দূরে থাকতে পারে।
সংক্ষিপ্ত পরিসংখ্যান
ঠিক আছে, এখন আসুন দেখি এর মধ্যে কিছু সংক্ষিপ্ত পরিসংখ্যান কীভাবে মাপসই হয়। যেহেতু পরিসংখ্যান সংখ্যাগুলির সাথে কাজ করে, তাই এর কার্যকারিতা অন্তরগুলিতে ভালভাবে সংজ্ঞায়িত হয়। তবে আসুন আমরা কীভাবে / কীভাবে শ্রেণিবদ্ধ বা অর্ডিনাল ডেটাতে তাদের সাধারণীকরণ করতে পারি তার উদাহরণগুলি দেখুন:
- মোড - উভয় শ্রেণিবদ্ধ এবং অর্ডিনাল ডেটার সাথে কাজ করার সময়, আমরা বলতে পারি কোন উপাদানটি প্রায়শই ব্যবহৃত হয়। সুতরাং আমরা এই আছে। তারপরে আমরা @ ম্যাডডেঙ্কার তাদের উত্তরে তালিকাভুক্ত সমস্ত অন্যান্য পদক্ষেপগুলিও অর্জন করতে পারি। @ গুংয়ের আত্মবিশ্বাসের ব্যবধানও কার্যকর হতে পারে।
- মিডিয়ান - @ পিটার-ফ্লুম যেমন বলেছেন, আপনার যতক্ষণ অর্ডার থাকবে ততক্ষণ আপনি আপনার মিডিয়ান অর্জন করতে পারবেন।
- গড় , তবে স্ট্যান্ডার্ড বিচ্যুতি, শতাংশগুলিও ইত্যাদি - দূরত্বের মেট্রিকের প্রয়োজনের কারণে আপনি এগুলি কেবলমাত্র বিরতি ডেটা দিয়ে পান।
ডেটা প্রসঙ্গের উদাহরণ
শেষে, আমি আবারও চাপ দিতে চাই যে আপনি আপনার ডেটাতে যে অর্ডার এবং মেট্রিকগুলি নির্ধারণ করেছেন তা অত্যন্ত প্রাসঙ্গিক। এটি এখনই সুস্পষ্ট হওয়া উচিত, তবে আমি আপনাকে একটি শেষ উদাহরণ দেই: ভৌগলিক অবস্থানগুলির সাথে কাজ করার সময়, তাদের কাছে যাওয়ার জন্য আমাদের কাছে প্রচুর ভিন্ন উপায় রয়েছে:
- যদি আমরা তাদের মধ্যে দূরত্ব সম্পর্কে আগ্রহী, আমরা তাদের ভূ-অবস্থান নিয়ে কাজ করতে পারি, যা মূলত আমাদেরকে দ্বি-মাত্রিক সংখ্যাসূচক স্থান দেয়, এইভাবে বিরতি।
- যদি আমরা তাদের সম্পর্কের অংশটিতে আগ্রহী হয় তবে আমরা মোট অর্ডারটি সংজ্ঞায়িত করতে পারি (উদাহরণস্বরূপ একটি রাস্তাই একটি শহরের অংশ, দুটি শহর সমান, একটি মহাদেশ একটি দেশকে অন্তর্ভুক্ত করে)
- যদি আমরা দুটি স্ট্রিং একই ঠিকানার প্রতিনিধিত্ব করে কিনা তা আগ্রহী, আমরা কিছু স্ট্রিং দূরত্ব নিয়ে কাজ করতে পারি যা বানান ভুল এবং শব্দের অবস্থানের অদলবদল সহ্য করতে পারে, তবে বিভিন্ন পদ এবং নাম আলাদা করতে নিশ্চিত করে নিই। এটি কোনও সহজ জিনিস নয়, তবে কেবল মামলাটি করা।
- প্রচুর অন্যান্য ব্যবহারের কেস রয়েছে, যা আমাদের প্রত্যেকেই প্রতিদিনের মুখোমুখি হয়, যেখানে এর কোনওটিই বোঝায় না। তাদের মধ্যে কয়েকটি ঠিকানাকে ঠিক আলাদা বিভাগ হিসাবে বিবেচনা করার মতো আর কিছুই করার নেই, অন্যথায় এটি খুব স্মার্ট ডেটা মডেলিং এবং প্রিপ্রোসেসিংয়ে নেমে আসে।