উদাহরণস্বরূপ, কেন লিঙ্গ সাধারণত 1/2 এর পরিবর্তে 0/1 কোড করে?


25

আমি ডেটা বিশ্লেষণের কোডিংয়ের যুক্তি বুঝতে পারি। নীচে আমার প্রশ্নটি একটি নির্দিষ্ট কোড ব্যবহারের বিষয়ে।

  • লিঙ্গ প্রায়শই মহিলা হিসাবে 0 এবং পুরুষের জন্য 1 হিসাবে কোডড হওয়ার কোনও কারণ আছে কি?
  • কেন এই কোডিংটিকে 'স্ট্যান্ডার্ড' হিসাবে বিবেচনা করা হয়?
  • মহিলা = 1 এবং পুরুষ = 2 এর সাথে এটি তুলনা করুন এই কোডিংটিতে কোনও সমস্যা আছে?

15
অন্যদের মধ্যে রিগ্রেশন মডেলগুলি প্রয়োগ করার সময় 0/1 কোডিং স্কিমটি ব্যবহার করা মূলত দরকারী, যদিও বেশ কয়েকটি কোডিং স্কিম সম্ভব, যেমন -1/1 (তবে এটি রিগ্রেশন সহগের ব্যাখ্যা বদলে দেবে)। যদিও এটি ডেটা এন্ট্রি নিয়ে বিভ্রান্ত হওয়া উচিত নয় (এটি হ'ল আপনি কীভাবে সত্যই আপনার ডাটাবেসে রেখেছেন)। এই ক্ষেত্রে, সম্পূর্ণ লেবেলগুলি সংরক্ষণ করা ভাল। আপনি যখন আপনার রিগ্রেশন মডেল তৈরি করেন তখন তাদেরকে সংখ্যাসূচক মানগুলিতে রূপান্তর করুন বা একটি ডেডিকেটেড ডিজাইনের ম্যাট্রিক্স তৈরি করুন। অন্যথায়, আমি আপনাকে শুভ কামনা জানাচ্ছি যে 5 বছরের মধ্যে 0 এবং 1 এর অবস্থান কী।
chl

আমি ডেটাবেসে কোড করা লিঙ্গটি পুরুষ, মহিলা এবং অজানা হিসাবে দেখেছি।
আকসকল

2
আমি মনে করি এই প্রশ্নটি দুটি প্রশ্নের বিভ্রান্ত হিসাবে সবচেয়ে ভাল হিসাবে বিবেচিত হয়। বৃহত্তর প্রশ্ন হ'ল কেন একটি সূচক বা ডামি ভেরিয়েবলের জন্য অন্য কোনওগুলির চেয়ে 0-1 কোডিং ব্যবহার করুন। ছোট প্রশ্নটি হল কেন পুরুষের জন্য 1 এবং মহিলাদের জন্য 0 ব্যবহার করুন, যার একটি সংক্ষিপ্ত উত্তর হ'ল আরও অনেক কোডিং ব্যবহার করা হচ্ছে, যেমন মহিলার ক্ষেত্রে 1 এর বিপরীত ইত্যাদি, এবং বিভিন্ন জটিল কোডিং অজানা লিঙ্গকে অনুমতি দেয় এবং এর জন্য অন্যান্য লিঙ্গ বিভাগ।
নিক কক্স

উত্তর:


38

বাইনারি ভেরিয়েবলের শূন্য-এক কোডিং পছন্দ করার কারণগুলি:

  • একটি শূন্য-ওয়ান ভেরিয়েবলের গড়টি মান একের (যেমন, পুরুষের শতাংশ) দ্বারা প্রতিনিধিত্ব করা বিভাগের অনুপাতকে উপস্থাপন করে।
  • একটি সাধারণ রিগ্রেশন যেখানে x হল শূন্য-এক পরিবর্তনশীল, ধ্রুবকের একটি সরল ব্যাখ্যা রয়েছে (যেমন,y=a+bxx হল yay নারী জন্য)।
  • বাইনারি ভেরিয়েবলের যে কোনও কোডিং যেখানে দুটি মানগুলির মধ্যে পার্থক্য এক (যেমন, শূন্য-এক, তবে এক-দু'টি) রিগ্রেশন সহগকে একটি সরল ব্যাখ্যা দেয় (উদাহরণস্বরূপ, মহিলা থেকে পুরুষের দিকে যাওয়ার প্রভাব) Y)।b

বাইনারি ভেরিয়েবল কোডিং সম্পর্কে বিভিন্ন ধরণের পয়েন্ট:

  • বাইনারি ভেরিয়েবলের যে কোনও কোডিং যা বিভাগগুলির ক্রম সংরক্ষণ করে (যেমন, মহিলা = 0, পুরুষ = 1; মহিলা = 1, পুরুষ = 2; মহিলা = 1007, পুরুষ = 2000; ইত্যাদি) এর পারস্পরিক সম্পর্ককে প্রভাবিত করবে না অন্যান্য ভেরিয়েবলের সাথে বাইনারি ভেরিয়েবল।
  • এইভাবে বাইনারি ভেরিয়েবলের প্রতিবেদনকারী যে কোনও সারণীগুলিকে ভেরিয়েবল কোড করে কীভাবে তা স্পষ্ট করা উচিত। যেমন,: এটা এছাড়াও বিভাগ যে এক মান প্রতিনিধিত্ব দ্বারা পরিবর্তনশীল লেবেল উপযোগী হতে পারে y = a + b * Maleবদলে y = a + b * Gender
  • কিছু বাইনারি ভেরিয়েবলের জন্য এক শ্রেণিতে আরও স্বাভাবিকভাবে কোড কোড করা উচিত। উদাহরণস্বরূপ, চিকিত্সা এবং নিয়ন্ত্রণের মধ্যে পার্থক্যটি দেখার সময়, নিয়ন্ত্রণ শূন্য হওয়া উচিত, এবং চিকিত্সা এক হওয়া উচিত, কারণ রিগ্রেশন সহগ চিকিত্সার প্রভাব হিসাবে সেরা হিসাবে বিবেচনা করা হয়।
  • বিভাগগুলি উল্টিয়ে দেওয়া (যেমন, মহিলা = 1 এবং পুরুষ = 0 এর চেয়ে মহিলা = 0 এবং পুরুষ = 1 বানানো) পারস্পরিক সম্পর্ক এবং রিগ্রেশন সহগের চিহ্নটি উল্টে দেবে।
  • জেন্ডারের ক্ষেত্রে সাধারণত মহিলা = 0, পুরুষ = 1, বনাম পুরুষ = 0, মহিলা = 1 কোড দেওয়ার কোনও প্রাকৃতিক কারণ নেই তবে কনভেনশন বলতে পারে যে কোনও কোডিং একজন পাঠকের কাছে বেশি পরিচিত; বা এমন একটি কোডিং নির্বাচন করা যা প্রতিক্রিয়া সহগকে ধনাত্মক করে তোলে তা ব্যাখ্যা সহজ করতে পারে। এছাড়াও, কিছু প্রসঙ্গে একটি লিঙ্গকে রেফারেন্স বিভাগ হিসাবে ভাবা যেতে পারে; উদাহরণস্বরূপ, আপনি যদি আয়ের ক্ষেত্রে পুরুষ প্রভাবিত পেশায় মহিলা হওয়ার প্রভাব নিয়ে পড়াশোনা করছিলেন, তবে মহিলা হওয়ার প্রভাব সম্পর্কে কথা বলার জন্য পুরুষ = 0 এবং মহিলা = 1 কোড করা বুদ্ধিমান হতে পারে।
  • চিন্তাশীল উপায়ে স্কেলিং রিগ্রেশন কোফিয়েনটিসগুলি রিগ্রেশন কোফিসিয়েন্টগুলির ব্যাখ্যার উপর একটি শক্তিশালী প্রভাব ফেলতে পারে। এন্ড্রু গেলম্যান এ নিয়ে খানিকটা আলোচনা করেছেন; উদাহরণস্বরূপ তার 2008 কাগজ দেখতে স্কেলিং রিগ্রেশন ইনপুট দুই স্ট্যান্ডার্ড ডেভিয়েশন (পিডিএফ) দ্বারা ভাগ মধ্যে মেডিসিন পরিসংখ্যান , 27, 2865-2873।
  • পুরুষ এবং স্ত্রীকে -1 এবং +1 হিসাবে কোডিং করা অন্য একটি বিকল্প যা অর্থপূর্ণ সহগগুলি সরবরাহ করতে পারে ( "কী কী প্রভাবের কোডিং হয়" দেখুন )।

18
আহ, আমি সর্বদা ভেবেছিলাম মহিলা = 0 এবং পুরুষ = 1 কোড করার প্রাকৃতিক কারণটি ছিল "শারীরবৃত্তীয়" ...
ম্যাট পার্কার

2
@ ম্যাট মজার। আমি কখনই এরকম ভাবিনি। আমি সর্বদা আমার আর্টস ডিগ্রির লেন্স দ্বারা প্রভাবিত হয়েছি, যেখানে আপনাকে কিছু নারীবাদীরা যে মতাদর্শের সমালোচনা করে যা পুরুষদের দ্বারা প্রাপ্ত কোনও কিছুর অভাব দ্বারা সংজ্ঞায়িত নারীকে কীভাবে সমালোচনা করা হয় তা সম্পর্কে শেখানো হয়। এই জাতীয় লেন্সের মাধ্যমে কিছুটা হাস্যকরভাবে, লিঙ্গের কোডিংটি একটি রাজনৈতিক ইস্যুতে পরিণত হয় :-)
জেরোমি অ্যাংলিম

13
অভ্যাস হিসাবে, আমি 0/1 কোডিং স্কিমটির অর্থ কী তা পরিষ্কার করে দেওয়ার জন্য আমি সর্বদা লিঙ্গ পরিবর্তনশীল নামটিকে "মহিলা" এর মতো কিছুতে পরিবর্তন করি।
ফমাইট

জেরোমি, আপনি কি আমাদের পৃথক ট্যাগ [ডামি-ভেরিয়েবল] প্রয়োজন এবং একটি মন্তব্যে আপনার প্রো / কন বলতে চান তা stats.meta.stackexchange.com/a/4881/3277 টি পর্যবেক্ষণ করতে চান ?
ttnphns

সেক্স ক্রোমোজোম এক্স এবং ওয়াইয়ের জুড়ি বিবেচনা করে, মহিলাদের মধ্যে এক্সএক্স এবং পুরুষদের এক্সওয়াই ক্রোমোজোম থাকে। এক্স = 0 এবং ওয়াই = 1 নিলে আমরা খুঁজে পেতে পারি যে মহিলা = XX = 00 = 0 এবং পুরুষ = XY = 01 = 1।
গুরোল ক্যানব্যাক

14

ফলাফলগুলি ব্যাখ্যা করা সহজ করে তোলে। ধরুন আপনার কাছে কিছু উচ্চতার ডেটা ছিল:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

এবং আপনি ফর্মটির রিগ্রেশন নিয়েছিলেন Height = a + b * Gender + Residual

0,1 ডামি ভেরিয়েবলের সাহায্যে আপনি a170 এর মহিলাদের গড় উচ্চতা এবং এর এক অনুমান পাবেনb 10 এর পুরুষ এবং মহিলাদের গড় উচ্চতার মধ্যে পার্থক্য সম্পর্কে ।

1,2 টি ডামি ভেরিয়েবলের সাহায্যে আপনি a160 এর অনুমান পাবেন যা ব্যাখ্যা করা শক্ত।


ধন্যবাদ। আমি 'আলোর গতিতে' পরিসংখ্যান শিখছি কারণ এটি আমার নতুন কাজের প্রয়োজন। এই কোডিংটি এখনও পারস্পরিক সম্পর্ক বিশ্লেষণে প্রযোজ্য?
অধ্যাশ জোশ

1
@ আখেশ যদি আপনি দুটি পরিমাণগত ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক বোঝাতে চান তবে কোডিংয়ের কোনও সমস্যা নেই: কেবলমাত্র কাঁচা ব্যবস্থা ব্যবহার করুন। যদি আপনার প্রশ্নটি দুটি গুণগত ভেরিয়েবলের মধ্যে সংযোগ সম্পর্কে হয়, তবে আপনি একটি নতুন প্রশ্ন জিজ্ঞাসা করার বিষয়টি বিবেচনা করতে পারেন তবে প্রকৃতপক্ষে এই ক্ষেত্রে খুব বেশি অসুবিধা নেই (যদি না আপনি ভেরিয়েবল বিভাগগুলির জন্য অসম স্পেস স্কোরগুলি ব্যবহার করতে না চান তবে এটির অন্য কোথাও এই উত্তর দেওয়া হয়েছে) সাইট)।
chl

4
@ অ্যাডেশ একটি বাইনারি 1/2 বা 0/1 কোডিং করা আপনাকে আপনার পারস্পরিক সম্পর্ক সহগকে প্রভাবিত করবে না। 0/1 এরও সুবিধা রয়েছে যে ভেরিয়েবলটির গড়টি শতাংশ পুরুষ বা মহিলা হবে কোনটি এর উপর নির্ভর করে। অন্যান্য কোডিং স্কিমগুলি বিভিন্ন ধরণের বিশ্লেষণের ব্যাখ্যার জন্য কার্যকর হতে পারে।
মাইকেল বিশপ 21

2

আমি ধরে নিয়েছিলাম যে এটি প্রায়শই লিঙ্গ সংরক্ষণের জন্য ব্যবহৃত ক্ষেত্রের ধরনটি একটি সামান্য ক্ষেত্র, এবং এসকিউএল-তে বিট ফিল্ডগুলির মান 0 বা 1 থাকতে পারে you যখন আপনি ডেটা ফেলে দেবেন, তখন এটি 0 বা 1 হিসাবে বেরিয়ে আসে এবং সুতরাং সেই কারণেই আপনি সেই বিশেষ মানগুলি পান।

আপনি যদি 1 এবং 2 ব্যবহার করতে চান তবে আপনাকে একটি বড় ফিল্ড প্রকার ব্যবহার করতে হবে, এতে আরও জায়গা লাগবে এবং এভাবে পুরো ডাটাবেসটি কিছুটা বড় হতে পারে।


এসকিউএল প্রোগ্রামার হিসাবে এটিও আমার প্রথম প্রতিক্রিয়া ছিল। আমি লিঙ্গের জন্য 0 এবং 1 ব্যবহারের কোনও শুদ্ধ গাণিতিক কারণ সম্পর্কে নিশ্চিত নই, তবে আমি একটি বাস্তবতার জন্য জানি যে প্রেরণার কিছুটি সম্ভব ক্ষুদ্রতম ডেটা ব্যবহারের প্রয়োজন থেকে এসেছে from শিল্প-প্রশস্ত মানগুলি কাস্টম থেকে বিকাশিত হয়েছিল এবং প্রত্যেকে লাইনে পড়েছিল। এটির জন্য এএনএসআই মান ইতিহাস পরীক্ষা করা উপযুক্ত হবে be আজকাল ডিবিএগুলিকে "কর্পোরেট সত্তা" বা "অনির্দিষ্টকালের" মতো অস্বাভাবিক ব্যতিক্রমগুলি চিহ্নিত করার জন্য, লিঙ্গের জন্য বাইট বা ছোট পূর্ণসংখ্যা কলামগুলি ব্যবহার করার জন্য চাপ দেওয়া হয়েছে তবে অনেকগুলি পুরানো ডাটাবেস এখনও পুরানো মানকে প্রতিফলিত করে।
এসকিউএল সার্ভারস্টেভ

2

আমার একজন অধ্যাপক পরামর্শ দিয়েছিলেন যে আমরা শারীরবৃত্তিকে প্রতিবিম্বিত করতে নারীদের 0 এবং পুরুষ 1 জনকে "জৈবিকভাবে" কোড করি। আমি মনে করি না এটি ক্লাসে বলা সবচেয়ে সংবেদনশীল, বা পিসি জিনিস ছিল, তবে 5 বছর পরে কোনও ডেটাসেটের দিকে তাকালে অবশ্যই মনে রাখা সহজ।


এটি পরিষ্কারভাবে প্রশ্নের "আসল" উত্তর নয় (সম্ভবত এটি উত্তরের চেয়ে কমেন্টের বেশি), তবে স্মৃতিচারণটি স্পষ্টতই একটি যা অনেক লোক দরকারী বলে মনে করে।
সিলভারফিশ

"শারীরবৃত্তীয়" এর চেয়েও বেশি "জৈবিক", আমাকে শিখানো হয়েছিল (যদিও আমি সন্দেহ করি যে "কারণটি" মূল হিসাবে নয়, পূর্ববর্তী ক্ষেত্রে উদ্ভাবিত হয়েছিল) যে 0 টি "ডিফল্ট" লিঙ্গ হিসাবে মহিলাদের জন্য ব্যবহৃত হয় - এই বিশ্বাসটি যে ভ্রূণতাত্ত্বিক বিকাশ, মহিলা পদক্ষেপ নেওয়া হয় যদি না হস্তক্ষেপ প্রক্রিয়াগুলি ভ্রূণকে পুরুষের পথকে আলাদা করার জন্য চাপ না দেয়। এটি একসময় বিস্তৃত বিশ্বাস ছিল, তবে এখন এটি পুরানো হিসাবে বিবেচিত হয় : মহিলা পথকেও সক্রিয়ভাবে ট্রিগার করা দরকার।
সিলভারফিশ

1
এই ক্ষেত্রে, পুরুষদের "00" হিসাবে কোড করা উচিত নয়।
হার্ভি মোটুলস্কি

1

এখনও পর্যন্ত অনেকগুলি ভাল কারণ পোস্ট করা হয়েছে তবে এটি প্রতিচ্ছবিযুক্তও হওয়া উচিত। কেন আপনি 1 এ গণনা শুরু করবেন? এটি প্রচুর সংখ্যক অ্যালগোরিদমকে আরও জটিল করে তোলে। লেবেলিং 0 থেকে শুরু হয়, 1 নয় you're আপনি যদি এখনও এ বিষয়ে নিশ্চিত হন না তবে এটি কেন গুরুত্বপূর্ণ তা সম্পর্কে আমার একটি চমৎকার উদাহরণ রয়েছে http://madhadron.com/?p=69

মহিলাগুলি কেন 0 এবং পুরুষ 1 কেন, এর ইতিহাসের বেশিরভাগ ক্ষেত্রে, একজন পরিসংখ্যানবিদ সম্ভবত একজন সরাসরি পুরুষ হতে পারেন। যখন কোনও লিঙ্গের নাম রাখতে বলা হয়, তখন সবার প্রথমে মনে আসে 'মহিলা'। তার পরে সবকিছু সম্ভবত historicalতিহাসিক দুর্ঘটনা এবং যৌক্তিকতা ছিল।


-1

আইএসও / আইইসি 5218 মান আপডেট নিম্নলিখিত মানচিত্র এই ধারণা:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

এটি বিশেষত জাভাস্ক্রিপ্টের মতো এমন একটি ভাষাগুলিতে যেখানে 0 টি মিথ্যা মানকে কোয়ার্স করে:

if ( !user.gender ) {
    promptForGender();
}

10
এটি লক্ষণীয় গুরুত্বপূর্ণ যে এই ধরণের স্ট্যান্ডার্ডটি সত্যই ডেটা সংক্রমণ এবং / বা সঞ্চয়স্থানের জন্য। এটি ডেটা বিশ্লেষণের মান হিসাবে পর্যাপ্ত নয় , যা বিশেষত প্রশ্নটি।
হোবার

-2

আমি ব্যক্তিগতভাবে এটি যেভাবে দেখছি 0 টি সাধারণত গর্ভের আকার হিসাবে স্ত্রীকে প্রতিনিধিত্ব করে, এবং প্রায় সব বিজ্ঞানে (যেমন জীববিজ্ঞান / জেনেটিক্স পেডিগ্রি চার্টে) চেনাশোনাগুলিতে বা শূন্যগুলি মহিলা প্রতিনিধিত্ব করে। যেখানে আরও সরল প্রান্তের আকারগুলি (ত্রিভুজ, স্কোয়ার বা 1 সে) পুরুষ লিঙ্গকে উপস্থাপন করে। এই সাধারণ বোঝাপড়াটি সর্বদা মনে রাখা সহজ করে তোলে যা আমার পক্ষে কোনটি।

যদিও দিনের শেষে যদি আপনি নিজেই ডেটা কোডিং এবং বিশ্লেষণ করে থাকেন তবে আপনি নিজের পছন্দ অনুযায়ী যে কোনও নম্বর রাখতে পারেন, সাধারণত আপনি যতটা ডামি ভেরিয়েবল ব্যবহার করেন যার জন্য কোনও কী থাকে না, এটি অপ্রাসঙ্গিক হয়ে যায়।


2
একটি নির্বোধ প্রশ্নের অদ্ভুত উত্তর।
মাইকেল আর চেরনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.