আমেরিকান কমিউনিটি জরিপ বৈচিত্র্যের ডেটাগুলিকে পুনরায় ওজন কীভাবে ত্রুটির প্রান্তিকতায় প্রভাবিত করবে?


10

পটভূমি: বর্তমানে আমার সংস্থাটি তার কর্মশক্তি বৈচিত্র্যের পরিসংখ্যান (উদাহরণস্বরূপ% প্রতিবন্ধী ব্যক্তি,% মহিলা,% অভিজ্ঞ) আমেরিকান কমিউনিটি জরিপ (মার্কিন আদমশুমারি ব্যুরোর একটি জরিপ প্রকল্প) এর ভিত্তিতে groups গোষ্ঠীগুলির জন্য মোট শ্রমশক্তি প্রাপ্যতার সাথে তুলনা করে। এটি একটি ত্রুটিযুক্ত বেঞ্চমার্ক, কারণ আমাদের কাছে একটি খুব নির্দিষ্ট চাকরির সেট রয়েছে যা সামগ্রিক শ্রমশক্তির চেয়ে আলাদা ডেমোগ্রাফিক রয়েছে। উদাহরণস্বরূপ বলুন, আমার সংস্থাটি বেশিরভাগ প্রকৌশলী। ইঞ্জিনিয়ারিং আমার রাজ্যের প্রায় 20% মহিলা। যদি আমরা মোট শ্রমশক্তি বেঞ্চমার্কের সাথে নিজেকে তুলনা করি, যা 50% মহিলার মতো হয়, তবে আতঙ্কিত হয় যে "আমাদের মধ্যে কেবল 20% মহিলা রয়েছে, এটি একটি বিপর্যয়!" সত্যই যখন, 20% আমাদের প্রত্যাশা করা উচিত কারণ শ্রমের আড়াআড়িটি দেখতে এটিই তাই।

আমার লক্ষ্য: আমি যা করতে চাই তা হ'ল আমেরিকান সম্প্রদায় জরিপ পেশার ডেটা নেওয়া (বৈচিত্র্য বিভাগের মাধ্যমে) এবং এটি আমার ব্যবসায়ের কাজের সংস্থার ভিত্তিতে পুনরায় ওজন করা। সামাজিক এবং সম্প্রদায় পরিষেবা কর্মীদের জন্য এখানে একটি নমুনা ডেটা সেট করা আছে । আমি একসাথে তালিকাভুক্ত এই জব কোডগুলি যুক্ত করতে চাই (কারণ আমাদের ক্রসওয়াকটি চাকরি গোষ্ঠীগুলিতে, নির্দিষ্ট কাজের কোডগুলিতে নয়), তবে আমি সেই শ্রেণিতে থাকা আমাদের সংখ্যার উপর ভিত্তি করে সেই মানদণ্ডকে ওজন করতে চাই (উদাঃ আমাদের 3,000 সামাজিক এবং সম্প্রদায় পরিষেবা কর্মী), তারপরে আমি অন্য সমস্ত চাকরিদলগুলিতেও একই কাজ করতে চাই, সেই সংখ্যাগুলি একসাথে যুক্ত করতে এবং আমাদের মোট কর্মীদের সংখ্যায় বিভক্ত করতে চাই। এটি আমাকে একটি নতুন পুনঃজনিত বৈচিত্র্য পরিমাপ দেবে (উদাঃ 6% প্রতিবন্ধী ব্যক্তি থেকে 2% প্রতিবন্ধী ব্যক্তিদের)।

আমার প্রশ্নসমূহ: আমি এই চূড়ান্ত ঘূর্ণিত বেঞ্চমার্কের ত্রুটির মার্জিনকে কীভাবে ফিট করব? আমার কাছে কাঁচা শুমারির ডেটা সেট নেই (স্পষ্টতই), তবে আপনি টেবিলের শীর্ষে "মার্জিন অফ ত্রুটি" টগল করে "এসিমেটি" ক্ষেত্রটি টগল করে আমি যে লিঙ্কটি দিয়েছি তাতে প্রতিটি সংখ্যার জন্য ত্রুটির মার্জিনগুলি দেখতে পারেন। আমার অন্যান্য সহকর্মীরা যারা এই ডেটা নিয়ে কাজ করছেন তারা পুরোপুরি ত্রুটির মার্জিন উপেক্ষা করার ইচ্ছা পোষণ করেছেন, তবে আমি উদ্বিগ্ন যে আমরা নিজেরাই একটি পরিসংখ্যানগতভাবে অর্থহীন মানদণ্ড তৈরি করছি। উপরে বর্ণিত কারসাজির পরেও কি এই তথ্যটি এখনও ব্যবহারযোগ্য?


3
এসিএসকে পুনরুদ্ধার করবেন না - এটি একটি সূক্ষ্ম, অত্যন্ত পরিশীলিত পণ্য, এবং সমস্ত যথাযথ সম্মানের সাথে আমি মনে করি না যে আপনি জনগণনা ব্যুরো সম্মিলিতভাবে যেমন পরিসংখ্যানবিদ ততটা ভাল। আপনি যদি দেশব্যাপী তুলনার জন্য এসি বা সিপিএসে আপনার কাজের সাথে সামঞ্জস্যপূর্ণ কাজের সংজ্ঞা পেতে পারেন , তবে আপেল থেকে আপেলগুলির তুলনাটি আপনার ব্যবসায়ের যুক্তিসঙ্গত বৈচিত্র্য হিসাবে কাজ করার জন্য এসিএস ভিত্তিক প্রত্যাশিত "বৈচিত্র্য" বিভাগগুলি গণনা করা হবে লক্ষ।
স্টাসকে

2
স্টাস, আমি আপনার সাথে একমত, কিন্তু আমি নীচে ইঙ্গিত হিসাবে, এটি আসলে এসিএস এর পুনরুত্পাদন হয় না।
স্টিভ স্যামুয়েলস

জরিপের পরিসংখ্যানগুলিতে, "পুনরায় ওজন " এর অর্থ মূল জরিপ ওজনের রূপান্তর trans এর উদাহরণ হ'ল পোস্ট-স্ট্রেটিফিকেশন, স্যাম্পল র‌্যাকিং বা ক্রমাঙ্কন যাতে বাহ্যিকভাবে পরিচিত পুনঃপ্রকাশিত নমুনা মিলের বিতরণগুলির জন্য নির্দিষ্ট প্রান্তিক বিতরণ শুমারি বা এসিএস থেকে বলে say ড্যানিকা যে পদ্ধতিটি উল্লেখ করেছেন তাতে এসি ওজনকে স্পর্শ করা যায় না।
স্টিভ স্যামুয়েলস

সাহায্য করতে পারে তা হ'ল আপনি জানতে চান সীমাবদ্ধ জনসংখ্যার পরিমাণ লিখুন। এছাড়াও এসিএস এর প্রতিলিপি ওজন আছে? এগুলি ভেরিয়েন্স অনুমানের সাথে সহায়তা করতে পারে।
সম্ভাব্যতাব্লোগিক

উত্তর:


8

আপডেট 2014-01-15

আমি বুঝতে পেরেছি যে আমি অপ্রত্যক্ষভাবে সামঞ্জস্য করা অনুপাতের জন্য ত্রুটির মার্জিনটি এসিএসে একই হারের ত্রুটির মার্জিনের চেয়ে বড় বা ছোট হবে কিনা সে সম্পর্কে ড্যানিকার মূল প্রশ্নের উত্তর আমি দিয়েছি না। উত্তরটি হ'ল: যদি সংস্থা বিভাগের অনুপাতগুলি রাষ্ট্রের এসি অনুপাতের চেয়ে তাত্পর্যপূর্ণ না হয় তবে নীচে প্রদত্ত ত্রুটির মার্জিনটি ত্রুটির এসিএস মার্জিনের চেয়ে কম হবে। কারণ: পরোক্ষ হার সংস্থার চাকরি বিভাগের ব্যক্তিকে নির্দিষ্ট সংখ্যা হিসাবে গণ্য করে (বা আপেক্ষিক অনুপাত) । অনুপাতের অক্ষমদের এসিএস অনুমানের কার্যত, সেই অনুপাতগুলির একটি অনুমান প্রয়োজন এবং ত্রুটির মার্জিনগুলি এটি প্রতিফলিত করতে বৃদ্ধি পাবে।

উদাহরণস্বরূপ, অক্ষম হারটি লিখুন:

P^adj=ninpi^

যেখানে বিভাগ আনুমানিক অক্ষম হার এসিএস হবে।আমিp^ii

অন্যদিকে, এসিএসের আনুমানিক হার কার্যকরভাবে:

P^acs=(NiN)^pi^

যেখানে এবং যথাক্রমে জনসংখ্যা বিভাগ এবং সামগ্রিক মোট এবং হয় বিভাগ জনসংখ্যা অনুপাতে হয় । এন এন আই আই / এন আইNiNNi/Ni

সুতরাং, এসিএস হার মান ত্রুটি অনুমান করার জন্য প্রয়োজনের কারণ বড় হতে হবে ছাড়াও ।পি iNi/Npi

যদি সংস্থার বিভাগের অনুপাত এবং জনসংখ্যার আনুপাতিক অনুপাতের পরিমাণে পার্থক্য থাকে, তবে । আমি যে দ্বি-বিভাগের উদাহরণটি তৈরি করেছি তাতে বিভাগগুলি অনুপাত এবং । অক্ষম অনুমানের জন্য স্ট্যান্ডার্ড ত্রুটিটি ছিল ।SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

যদি আমি 0.7345 এবং 0.2655 কে স্থির মানগুলি n_1 এবং (পরোক্ষ সমন্বয় পদ্ধতির) হিসাবে বিবেচনা করি, তবে , এর চেয়ে অনেক ছোট। পরিবর্তে, এবং , , প্রায় এর মতো চূড়ান্ত এবং , । সংগঠন এবং জনসংখ্যা বিভাগের অনুপাত এত মারাত্মকভাবে পৃথক হলে আমি অবাক হব। যদি তারা তা না করে তবে আমি মনে করি যে ত্রুটিটির এসিএস মার্জিনকে ত্রুটিটির সত্যিকারের মার্জিনের অনুমান হিসাবে খুব সম্ভবত রক্ষণশীল, সম্ভবত খুব রক্ষণশীল হিসাবে ব্যবহার করা নিরাপদ।n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001এস ( পি একটি ) = 0,079n2/n=0.999SE(P^adj)=0.079

আপডেট 2014-01-14

সংক্ষিপ্ত উত্তর

আমার মতে, সিআই বা ত্রুটির মার্জিন (অর্ধেক সিআই দৈর্ঘ্য) ছাড়াই এই জাতীয় পরিসংখ্যান উপস্থাপন করা দায়িত্বজ্ঞানহীন হবে। এগুলি গণনা করতে আপনার এসিএস পাবলিক ইউজ মাইক্রোডাটা নমুনা (পিএমএস) ডাউনলোড করতে হবে এবং এটি বিশ্লেষণ করতে হবে ( http://www.census.gov/acs/www/data_docamentation/public_use_microdata_sample/ )।

দীর্ঘ উত্তর

এটি সত্যই এসিএসের পুনরায় ভারীকরণ নয়। এটি পরোক্ষ মানকতার সংস্করণ, মহামারীবিদ্যার একটি মানক পদ্ধতি (গুগল বা কোনও এপিআই পাঠ্য দেখুন)। এই ক্ষেত্রে রাষ্ট্রীয় এসি জব (বিভাগ) অক্ষমতার হার সংস্থা জব ক্যাটাগরির কর্মচারী গণনা দ্বারা ওজন করা হয়। এটি সংস্থার প্রত্যাশিত সংখ্যার গণনা করবে E, যা পর্যবেক্ষিত সংখ্যার সাথে তুলনা করা যেতে পারে O। তুলনার জন্য সাধারণ মেট্রিক একটি মানযুক্ত অনুপাত R= (O/E)। (সাধারণ শব্দটি "এসএমআর", "স্ট্যান্ডার্ডযুক্ত মৃত্যুর হার অনুপাত" এর জন্য, তবে এখানে "ফলাফল" অক্ষমতা। Rএছাড়াও পর্যবেক্ষিত অক্ষমতা হার (O/n)এবং পরোক্ষভাবে মানকৃত হারের অনুপাত (E/n), যেখানে nসংস্থার কর্মীদের সংখ্যা of

এই ক্ষেত্রে, এটি প্রদর্শিত হয় যে কেবলমাত্র একটি সিআই প্রয়োজন Eবা E/nপ্রয়োজন হবে, তাই আমি এটি দিয়ে শুরু করব:

যদি

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

তারপর

 E = sum (n_i p_i)

এর বৈকল্পিকতা Eহ'ল:

 var(E) = nn' V nn

যেখানে nnসংস্থার বিভাগের কলাম ভেক্টর গণনা করা হয় এবং Vএটি এসি ক্যাটাগরির অক্ষমতার হারের অনুমানিত ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্স।

তুচ্ছ, se(E) = sqrt(var(E))এবং se(E/n) = se(E)/n

এবং ই এর জন্য 90% সিআই হয়

  E ± 1.645 SE(E)

nসিআই পাওয়ার জন্য ভাগ করুন E/n

অনুমান করার জন্য var(E)আপনাকে এসি পাবলিক ইউজ মাইক্রোডাটা স্যাম্পেল (পিএমএস) ডেটা ( http://www.census.gov/acs/www/data_docamentation/public_use_microdata_sample/ ) ডাউনলোড এবং বিশ্লেষণ করতে হবে ।

আমি কেবল var(E)স্টাটাতে কম্পিউটিংয়ের প্রক্রিয়াটির কথা বলতে পারি । যেহেতু আমি জানি না যে এটি আপনার কাছে উপলব্ধ কিনা তাই আমি বিশদটি স্থগিত করব। তবে আর বা (সম্ভবত) এসএএসের সমীক্ষার ক্ষমতা সম্পর্কে জ্ঞাত কেউ উপরের সমীকরণগুলি থেকে কোড সরবরাহ করতে পারেন।

অনুপাতের জন্য আত্মবিশ্বাসের ব্যবধান R

আত্মবিশ্বাসের অন্তরগুলি Rসাধারণত পোইসন অনুমানের উপর ভিত্তি করে হয় Oতবে এই অনুমানটি ভুল হতে পারে।

আমরা বিবেচনা করতে Oএবং Eস্বাধীন হতে পারে, তাই

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))গণনার পরে আরও একটি স্টাটা পদক্ষেপ হিসাবে গণনা করা যেতে পারে var(E)

পয়সন স্বাধীনতা অনুমানের অধীনে:

 var(log O) ~ 1/E(O).

স্টাটার মতো একটি প্রোগ্রাম নেতিবাচক দ্বিপদী মডেল বা সাধারণীকরণীয় রৈখিক মডেলকে ফিট করতে পারে, বলতে পারে এবং আপনাকে আরও সঠিক বৈকল্পিক শব্দ দেয়।

জন্য একটি আনুমানিক 90% সি আই log Rহল

 log R ± 1.645 sqrt(var(log R))

এবং সিআইটি পেতে শেষ পয়েন্টগুলি ক্ষতিকারক করা যেতে পারে R


এটি একটি ভাল আলোচনা। যদিও শেষে, জন্য আপনার সিআইকে ক্ষতিকারক প্রস্তাব দেওয়ার ফলে নিজেই সত্যিকার অর্থে দুর্বল সিআই হতে পারে। আরlog(R)R
whuber

এটি আমার কাছে এমন কোনও মামলা মনে হয়নি যেখানে ঘ্রাণ নেওয়ার পক্ষে উপযুক্ত ছিল তবে আমি ভুল হতে পারি। তুমি কি পরামর্শ দাও?
স্টিভ স্যামুয়েলস

সিভিতে উল্লিখিত কয়েকটি পদ্ধতির মধ্যে রয়েছে সিআই, ব-দ্বীপ পদ্ধতিটি উন্নত করা এবং সম্ভাব্যতা ফাংশনটি প্রোফাইল করা।
whuber

আপনার উত্তরের জন্য ধন্যবাদ. আর কি পিএমএস ডেটা আর দিয়ে টানা সম্ভব? আমার এসএএস নেই আদমশুমারির দ্বারা সরবরাহ করা ডেটাফেরেট সরঞ্জামটি ব্যবহার করার আগে আমি পিএমএস তথ্য টেনে নিয়েছি, তবে আমি নিশ্চিত নই যে এটি আমাকে এক্সেলটিতে কার্যকরভাবে ম্যানিপুলেট করতে পারে এমন কিছু দেয় যা আমার কাছে রয়েছে। স্পষ্টতই আমি আর ইনস্টল করতে পারি তবে এর সাথে আমার কোনও অভিজ্ঞতা নেই।
ড্যানিকা ই

1
আপনি স্বাগতম, ড্যানিকা। যদি এই উত্তরটি সহায়ক হয় তবে দয়া করে এটি আনুষ্ঠানিকভাবে গ্রহণের জন্য চেক চিহ্নটি চাপুন। লক্ষ্য করুন যে আমি উত্তর আপডেট করেছি। আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি যথাযথগুলির জন্য রক্ষণশীল বিকল্প হিসাবে ত্রুটির এসি মার্জিনগুলি উপস্থাপন করুন।
স্টিভ স্যামুয়েলস

4

FWIW এখানে এসিএস এবং পিএমএস অ্যাক্সেস করার জন্য ভাল সংস্থান রয়েছে ( http://www.asdfree.com/2012/12/analyze-american-commune-survey-acs.html )।

এছাড়াও সিআরএএন-এ এসিএস ডেটা পরিচালনা করার জন্য একটি প্যাকেজ রয়েছে - যাকে বলা হয় প্রাকৃতিকভাবে এসিএস - যা আমি এসিএস ডেটা সহ অ্যাটিক্যাল জিনিসগুলি করার জন্য সত্যই সহায়ক বলে মনে করেছি। এটি প্যাকেজটির জন্য একটি ভাল ধাপে ধাপে (দুর্ভাগ্যক্রমে ডকুমেন্টেশন অতি স্বজ্ঞাত নয়) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

যোগ http://asdfree.com @ pricele2 লিংকে মুক্ত সফটওয়্যার, আমি এই পদক্ষেপগুলি অনুসরণ করুন করতে উৎসাহিত করব সঙ্গে এই সমস্যা সমাধানের জন্য answer..in অর্ডার দেওয়া হল:

(1) ( দুই ঘন্টা কঠোর পরিশ্রম ) আর ভাষার সাথে পরিচিত হন। প্রথম 50 টি ভিডিও, প্রতিটি দুই মিনিট দেখুন

http://twotorials.com/

(২) ( সহজ নির্দেশনা অনুসরণের এক ঘন্টা ) আপনার কম্পিউটারে monetdb ইনস্টল করুন

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( রাতারাতি ডাউনলোডের ত্রিশ মিনিট নির্দেশনা অনুসরণ ) আপনার কম্পিউটারে এসিএস পামগুলি ডাউনলোড করুন। শুধুমাত্র আপনার প্রয়োজনীয় বছরগুলি পান।

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( চার ঘন্টা শিখতে এবং প্রোগ্রামিং করতে এবং আপনার কাজটি পরীক্ষা করার জন্য ) আপনার যে যা নির্দিষ্ট বৈশিষ্ট্য প্রয়োজন তা অনুসারে আপনার যে ভেরিয়েবলগুলি পুনরুদ্ধার করতে হবে তা পুনরুদ্ধার করুন

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( প্রকৃত বিশ্লেষণের দুই ঘন্টা ) আপনি যে সঠিক কমান্ডটি সন্ধান করছেন এটি চালান, মানক ত্রুটিটি ক্যাপচার করুন এবং একটি আত্মবিশ্বাসের ব্যবধান গণনা করুন।

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

()) ( চার ঘন্টা প্রোগ্রামিং ) আপনার যদি অনুপাতের অনুমানের প্রয়োজন হয় তবে অনুপাত অনুমানের উদাহরণটি অনুসরণ করুন (সঠিকভাবে-সমীক্ষা-সমন্বিত স্ট্যান্ডার্ড ত্রুটি সহ):

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


ধন্যবাদ, সেগুলি দুর্দান্ত উত্স। অন্য কেউ এখানে এই তথ্য খুঁজছেন আসে, আর টিউটোরিয়াল আমি ব্যবহার করছি হয় datacamp.com এবং coursera.org/course/rprog । ডেটা ক্যাম্প একটি দুর্দান্ত ইন্টারেক্টিভ টিউটোরিয়াল। তত্ত্ব / কাঠামো / জিনিসের নামগুলিতে কোর্সেরা কোর্সটি বেশি ভারী।
ড্যানিকাএ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.