কীভাবে আমি সংখ্যার ডেটাগুলিকে প্রাকৃতিকভাবে "বন্ধনী" গঠন করতে পারি? (যেমন আয়)

নিম্নলিখিতটি আমি কী সম্পাদন করার চেষ্টা করছি তা বর্ণনা করে তবে একটি বিকল্প সমস্যার বিবৃতি আমার লক্ষ্য বর্ণনা করতে পারে:

আমি চাই

নিম্নলিখিত সংখ্যাগুলিকে এমন গ্রুপগুলিতে বিভক্ত করুন যেখানে প্রতিটি গ্রুপের মধ্যে সংখ্যার বৈচিত্রগুলি খুব বেশি নয় এবং গ্রুপগুলির গড়ের মধ্যে পার্থক্য খুব কম নয়
শেষে প্রাপ্ত বিতরণটিকে "নিখুঁত "গুলির সাথে তুলনা করুন এবং দেখুন নিখুঁত হওয়া থেকে এটি কতটা" আলাদা "।

গোলের লেম্যানের ব্যাখ্যা

আমি আয়ের বন্টন গণনা করার চেষ্টা করছি এবং প্রতিটি জনসংখ্যার মধ্যে থাকা "ইনকাম ব্র্যাকেটগুলি" নির্ধারণ করতে চাইছি income

আমার লক্ষ্য হ'ল আয়ের বন্ধনীগুলির মধ্যে পার্থক্য পরিমাপ করা বা গণনা করা। আমি ধরে নিচ্ছি অনেকগুলি বন্ধনী থাকবে এবং প্রতিটি স্তরটি কতটা "দূরে" রয়েছে তা দেখতে চাই।

20 জনসংখ্যার একটি নমুনা সেটের জন্য প্রতি ঘন্টা আয়ের একটি নমুনা এবং মোট আয় 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900

প্রদত্ত জনগোষ্ঠীর উপর আয়ের বন্টনের মতো কাজ করে এমন ডেটা গোছানো, বাছাই এবং বিশ্লেষণ করতে আমি কীভাবে গণিতের ধারণাগুলি ব্যবহার করতে পারি?

গণনার শেষে, আমি টাইার্ড আয়ের বিতরণটি নির্ধারণ করতে চাই, যেখানে নিখুঁত বন্টন এ জাতীয় কিছু দেখায়

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

অথবা এটা:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269

প্রশ্ন

জনসংখ্যার গোষ্ঠীগুলি কীভাবে বিশ্লেষণ করব এবং এই ফাঁকটি এমনভাবে পরিমাপ করব যা আমাকে বলবে যে উপরের তালিকাভুক্ত শেষ দুটি মডেলের সেটগুলির মতো এটি আরও তৈরি করার জন্য কতটা প্রয়োজন?

clustering relative-distribution

— goodguys_activate
সূত্র

প্রোগ্রামার্স.এস.এসির পরিবর্তে এখানে পোস্ট করার পরামর্শের জন্য @ এসভিডজেনকে ধন্যবাদ জানাই

— গুডগুইস_অ্যাক্টিভেট

দ্রষ্টব্য: এই প্রশ্নটি জিজ্ঞাসা করার সময় আমি এই প্রতিক্রিয়াটি পেয়েছি:

It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.

— গুডগুইস_অ্যাক্টিভেট

আমি ডেটা binning নামক খুব রাগ করার কি কিছু অনুরূপ পাওয়া যায় না ... প্রদর্শিত: msdn.microsoft.com/en-us/magazine/dn342876.aspx

— goodguys_activate

হ্যাঁ, দয়া করে প্রশ্নটি স্থানান্তর করুন (এবং সম্ভব হলে মন্তব্যগুলি থেকে আপনার আরও ভাল ব্যাখ্যা অন্তর্ভুক্ত করুন)।

— গুডগুইস_অ্যাক্টিভেট

আয়ের বন্টনের ফাঁকগুলি সন্ধান করুন, আপনি যদি ভাগ্যবান হন তবে আপনি কিছুটা কৃত্রিম) শিখাগুলি খুঁজে পেতে পারেন যা পরে বন্ধনী হিসাবে ব্যবহার করতে পারেন। এটি সম্ভবত কম আয়ের জন্য তুলনামূলকভাবে ভাল কাজ করে।

— মার্ক ক্লেসেন

উত্তর:

একটি একক ভেরিয়েবল সহ ক্লাস্টার বিশ্লেষণ নির্ভুল ধারণা তৈরি করে যখনই কিছু মাত্রা থাকে যার সাথে মানগুলি সাজানো যায়। এটি কোনও পরিমাপের স্কেল , সময় বা স্থান হতে পারে ।

কিছু পরিমাপের স্কেলে অর্ডারযুক্ত ডেটা দেওয়া, একটি ফ্রিকোয়েন্সি বিতরণ (অ্যান্টিমোডস, একটি টার্মিনোলজিতে) এর মধ্যে আপেক্ষিক বিরতি সন্ধানের আগ্রহ থাকতে পারে।

সতর্কতার নোট: তবে, পরিসংখ্যান বিজ্ঞানের বিভিন্ন ক্ষেত্রে স্বেচ্ছাসেবকভাবে বিস্তৃত বিজন সংজ্ঞায়িত বিরতির বিরতি, এবং সমান বিরতি দিয়ে বিন্নিংয়ের জন্য বিস্তৃত এবং চিহ্নিত অগ্রাধিকার রয়েছে এবং খুব সম্ভবত প্রায়শই যখন বিন্যাস সম্পূর্ণরূপে এড়ানো যায় । এটি আংশিক স্বাদের বিষয়, আংশিকভাবে একটি কনভেনশন: অনুশীলনগুলি বদলে গেছে কারণ ডেটাসেটগুলি তাদের সামগ্রিকভাবে সংরক্ষণ করা সহজ হয়ে যায়।

একটি টাইম সিরিজটি স্পেলগুলির মধ্যে অপেক্ষাকৃত ছোট পার্থক্য এবং উপশমের মধ্যে তুলনামূলকভাবে বড় পার্থক্য সহ আদর্শ, উপস্থাপক, পিরিয়ডগুলিতে বিভক্ত হতে পারে। স্থানটির ক্ষেত্রে একই সমস্যা দেখা দেয় যখনই কোনও একক স্থানিক মাত্রা (অনুভূমিক বা উল্লম্ব) বিভাজন করতে হয়। ভূতাত্ত্বিক এবং অন্যান্য বিজ্ঞানে, এটি প্রায়শই জোনেশন শিরোনামের অধীনে অধ্যয়ন করা হয়।

নোট করুন যে কোনও ফর্মাল ক্লাস্টারিং সর্বদা ডেটাগুলির যথাযথ প্লটিংয়ের সাথে থাকতে হবে (উদাহরণস্বরূপ, বিন্দু বা কোয়ান্টাইল বা লাইন প্লট ব্যবহার করে) যা স্পষ্টভাবেই স্পষ্ট করে দিতে পারে যে বিরতিগুলি সুস্পষ্ট (যাতে ফর্মাল ক্লাস্টারিং কেবল সজ্জাসংক্রান্ত হয়) বা এটি বিশ্বাসযোগ্য বিরতির উপস্থিতি নেই (যাতে ফর্মাল ক্লাস্টারিং অর্থহীন হতে পারে)।

আকারের দ্বারা অর্ডার করা মানগুলির খেলনা উদাহরণ বিবেচনা করুন:

    14 15 16 23 24 25 56 57 58

যেখানে এটি স্পষ্ট যে একটি তিন গ্রুপের ক্লাস্টারিং

    14 15 16 | 23 24 25 | 56 57 58

$k$ $n$ $k - 1$ $k - 1 = 2$ $n - 1$ $n - 1 \choose k - 1$ $k$ $2^{n - 1}$ $n$

নির্দিষ্ট সংখ্যক গ্রুপের জন্য, চিহ্নিতকারীকে হ্রাস করার জন্য সমস্যাটি যথাযথভাবে তৈরি করা যেতে পারে (ফিশার 1958; হার্টিগান 1975)

sum over groups of variability around group centres .

$\text{sum over groups of variability around group centres}.$

গ্রুপ উপায় থেকে স্কোয়ার বিচ্যুতির একটি যোগ সবচেয়ে স্পষ্ট সম্ভাবনা হিসাবে মনে মনে বসন্ত হবে। গোষ্ঠী মিডিয়ানদের থেকে নিরঙ্কুশ বিচ্যুতিগুলির যোগফল এবং অন্যান্য ব্যবস্থাগুলি ভালভাবে উপভোগ করতে পারে।

হার্টিগান (1975) দেখিয়েছে যে কীভাবে একটি গতিশীল প্রোগ্রামিং পদ্ধতির মাধ্যমে এই জাতীয় গণনা সোজা ও উপস্থাপিত ফোর্টরান কোড উপস্থাপন করা হয়। group1dএসএসসি থেকে একটি স্টাটা বাস্তবায়ন (কক্স 2007) ইনস্টল করা হবে।

কক্স, এনজে 2007. GROUP1D: এক মাত্রায় গ্রুপিং বা ক্লাস্টারিংয়ের জন্য স্টাটা মডিউল। http://ideas.repec.org/c/boc/bocode/s456844.html

ফিশার, WD 1958. সর্বাধিক সম্মানের জন্য গ্রুপিংয়ে। জার্নাল, আমেরিকান পরিসংখ্যান সমিতি 53: 789-98।

হার্টিগান, জেএ 1975. ক্লাস্টারিং অ্যালগোরিদম। নিউ ইয়র্ক: জন উইলি। Ch.6।

পোস্টস্ক্রিপ্ট এই পদ্ধতির নির্দিষ্ট প্রশ্নের প্রথম অংশের সাথে মেলে বলে মনে হচ্ছে। আমি সাধারণত এটি তৈরি করেছি কারণ আমি মনে করি যে সূত্রটি কিছু সাধারণ আগ্রহের (এবং কারণ কক্স 2007 এর ডকুমেন্টেশনের অংশটি পুনর্ব্যবহার করা আমার পক্ষে সহজ ছিল)। তবে যদি নির্দিষ্ট লক্ষ্যটি একটি আয়ের বিতরণকে একটি রেফারেন্স ইউনিফর্ম বিতরণের সাথে তুলনা করা হয় তবে আমি দেখছি না যে বিনিংয়ের কোনও ভূমিকা নেই play অর্থনীতির ক্ষেত্রে এটি একটি স্ট্যান্ডার্ড সমস্যা যার জন্য লরেঞ্জ বক্ররেখা এবং অসমতার ব্যবস্থা প্রাথমিক পয়েন্ট। সংক্ষেপে, আপনি কোয়ান্টাইলকে কোয়ান্টাইল বা শতাংশ পয়েন্ট থেকে শতাংশ পয়েন্টের তুলনা করতে পারেন।

— নিক কক্স
সূত্র

জেনস ন্যাচারাল ব্রেকের জন্য একবার দেখুন:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

আমি মনে করি এটি আপনার যা প্রয়োজন, এবং অনেকগুলি ভাষায় প্রয়োগ রয়েছে।

— ftfarias
সূত্র

যদিও তা তাত্ক্ষণিকভাবে স্পষ্ট না হয়ে যেতে পারে, এটি নিক কক্সের স্পষ্টতই পরামর্শ যে "গোষ্ঠী থেকে স্কোয়ার বিচ্যুতির যোগফল সবচেয়ে স্পষ্ট সম্ভাবনা হিসাবে মনে মনে উদয় হবে।" তিনি অংশের তুলনায় তার চেয়ে বেশি সাধারণ ছিলেন (আমার সন্দেহ) কারণ আয়ের জন্য এটি একটি দুর্বল সমাধান হবে: লগ আয়ের দিক থেকে গণনা সম্পাদন করা ভাল।

— whuber