বিভিন্ন ধরণের দেশ চিহ্নিত করার জন্য ডেটা হ্রাস প্রযুক্তি


11

আমি একটি প্রারম্ভিক অর্থনৈতিক ভূগোল কোর্স পড়ান। আমার ছাত্রদের সমসাময়িক বিশ্ব অর্থনীতিতে প্রাপ্ত দেশগুলির ধরণের আরও ভাল বোঝার বিকাশ এবং ডেটা হ্রাস প্রযুক্তির প্রশংসা বিকাশের জন্য, আমি এমন একটি অ্যাসাইনমেন্ট তৈরি করতে চাই যা বিভিন্ন ধরণের দেশগুলির টাইপোলজি তৈরি করে (যেমন, উচ্চ-আয়ের উচ্চ- এমএফজি দীর্ঘ জীবন প্রত্যাশার মান; উচ্চ আয়ের প্রাকৃতিক সংস্থান রফতানিকারী মধ্য-উচ্চ আয়ু;; জার্মানি প্রথম ধরণের একটি উপাদান এবং ইয়েমেন দ্বিতীয় ধরণের উদাহরণ)। এটি সর্বজনীনভাবে উপলব্ধ ইউএনডিপি ডেটা ব্যবহার করবে (যা আমি যদি সঠিকভাবে প্রত্যাহার করি তবে 200 টিরও কম দেশগুলিতে আর্থ-সামাজিক ডেটা রয়েছে; দুঃখিত, কোনও আঞ্চলিক ডেটা উপলব্ধ নেই)।

এই অ্যাসাইনমেন্টের পূর্বে অন্য কোনও ব্যক্তি থাকত যা তাদের একই ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্ক পরীক্ষা করার জন্য (একই --- বৃহত্তর ব্যবধান বা অনুপাত স্তর --- ডেটা ব্যবহার করে) জিজ্ঞাসা করবে।

আমার আশা এই যে তারা প্রথমে বিভিন্ন পরিবর্তনশীল (যেমন, আয়ু এবং [ধরণের বিভিন্ন সূচকের] ধনাত্মক সম্পর্ক; সম্পদ এবং রফতান বৈচিত্রের মধ্যে ইতিবাচক সম্পর্ক) এর মধ্যে ধরণের সম্পর্কের জন্য একটি স্বীকৃতি বিকাশ করবে। তারপরে, ডেটা হ্রাস কৌশলটি ব্যবহার করার সময়, উপাদানগুলি বা উপাদানগুলি কিছু স্বজ্ঞাত ধারণা তৈরি করবে (উদাহরণস্বরূপ, গুণক / উপাদান 1 ধন-সম্পদের গুরুত্বকে ধারণ করে; গুণক / উপাদান 2 শিক্ষার গুরুত্বকে ধারণ করে)।

এগুলি দ্বিতীয় থেকে চতুর্থ বর্ষের শিক্ষার্থী হিসাবে দেওয়া হয়, প্রায়শই বিশ্লেষণাত্মক চিন্তাধারার সীমাবদ্ধ এক্সপোজারের সাথে প্রায়শই সাধারণভাবে, দ্বিতীয় অ্যাসাইনমেন্টের জন্য আপনি কোন একক ডেটা হ্রাস কৌশলটি সবচেয়ে উপযুক্ত হিসাবে প্রস্তাব করবেন? এগুলি জনসংখ্যার ডেটা, সুতরাং অনুমানমূলক পরিসংখ্যান (পি-ভ্লিউজ ইত্যাদি) সত্যই প্রয়োজনীয় নয়।

উত্তর:


10

অনুসন্ধানের পদ্ধতি হিসাবে, পিসিএ এই আইএমওর মতো একটি কার্যভারের জন্য প্রথম পছন্দ। এটির সংস্পর্শে আসার জন্য তাদের পক্ষেও ভালো লাগবে; দেখে মনে হচ্ছে তাদের অনেকেরই এর আগে মূল উপাদানগুলি দেখা যায়নি।

তথ্যের নিরিখে আমি আপনাকে বিশ্বব্যাংক সূচকগুলিতেও নির্দেশ করব, যা উল্লেখযোগ্যভাবে সম্পূর্ণ: http://data.worldbank.org/indicator


5

আমি জেএমএসের সাথে একমত, এবং প্রতিটি কাউন্টির জন্য ভেরিয়েবলের মধ্যে প্রাথমিক পারস্পরিক সম্পর্ক এবং স্কেটারপ্লটগুলি পরীক্ষা করার পরে পিসিএ ভাল ধারণা বলে মনে হয়। অ গাণিতিক পদগুলিতে পিসিএ প্রবর্তনের জন্য এই থ্রেডের কিছু দরকারী পরামর্শ রয়েছে।

আমি প্রতিটি ভেরিয়েবলের স্থানিক বিতরণ কল্পনা করতে ছোট একাধিক মানচিত্র ব্যবহার করার পরামর্শ দেব (এবং gis.se সাইটে এই প্রশ্নের কয়েকটি ভাল উদাহরণ রয়েছে )। আমি মনে করি এইগুলি বিশেষত ভাল করতে যদি আপনার সাথে তুলনা করার জন্য সীমিত সংখ্যক আঞ্চলিক ইউনিট থাকে এবং আপনি একটি ভাল রঙের স্কিম ব্যবহার করেন ( অ্যান্ড্রু গেলম্যানের ব্লগে এই উদাহরণটির মতো )।

দুর্ভাগ্যক্রমে যে কোনও "বিশ্বের দেশগুলির" ডেটাসেটের সন্দেহ আমার প্রকৃতির ফলে প্রায়শই অল্প পরিমাণে ডেটার ফলাফল হয় (যেমন নিখোঁজ দেশগুলির প্রচুর পরিমাণে), ভৌগলিক দৃশ্যায়নকে কঠিন করে তোলে। তবে এই ধরনের ভিজ্যুয়ালাইজেশন কৌশলগুলি আপনার কোর্সের জন্য অন্যান্য পরিস্থিতিতেও কার্যকর হওয়া উচিত।


+1, দুর্দান্ত রেফারেন্স। পিসিএ স্কোরগুলির মানগুলির সাথে ভেরিয়েবলের মানচিত্রের তুলনা করা আকর্ষণীয়ও হতে পারে।
জেএমএস

অ-গাণিতিক পদগুলিতে পিসিএ পরিচিতির লিঙ্কটি কার্যকর ছিল, কারণ এটি আমাকে পিসিএ এবং ফ্যাক্টর বিশ্লেষণের মধ্যে সূক্ষ্ম পার্থক্যের জন্য অনুভূতি পেতে সহায়তা করেছিল। জিআইএস / ম্যাপিংয়ের পরামর্শগুলিও বেশ কার্যকর, কারণ আমি ভেরিয়েবলের স্থানিক বিতরণটি কল্পনা করার কথা ভাবি নি। শিক্ষার্থীদের এই জনসংখ্যার জন্য, এটি তাদেরকে বিশ্ব অর্থনীতির অন্তর্নিহিত কাঠামোকে এমনভাবে উপলব্ধি করতে সহায়তা করবে যাতে আমার সমস্ত ব্লাহ ব্লাহ ব্লাহ না করে।
রেবিডোটার

1
চমৎকার প্লটগুলি প্রায়শই ব্লাহ ব্লাহ ব্লাহকে মারধর করে :)
জেএমএস

4

একটি দ্রুত যুক্ত নোট: উপরের যে কোনও কৌশল আপনি ব্যবহার করুন না কেন, আপনি প্রথমে আপনার ভেরিয়েবলগুলির বিতরণ পরীক্ষা করতে চান যেহেতু তাদের মধ্যে অনেকেরই প্রথমে লোগারিদম ব্যবহার করে তাদের রূপান্তর করতে হবে "প্রয়োজন" will এটি করার ফলে কিছু আসল মূল ভেরিয়েবল ব্যবহারের চেয়ে আরও ভাল সম্পর্ক প্রকাশিত হবে।


3
+1 সাধারণত এর মতো একটি উত্তর কেবল একটি মন্তব্য হিসাবে পোস্ট করা উচিত, তবে পরামর্শটি এখানে এত গুরুত্বপূর্ণ যে এটি প্রতিটি সম্ভাব্য জোর দিয়ে উপকৃত হয়। ভেরিয়েবল যথাযথভাবে পুনরায় প্রকাশ না করা পর্যন্ত পিসিএর ফলাফলগুলি সম্ভবত সম্ভাবনাহীন।
শুক্র

2

আপনি পিসিএর বিকল্প হিসাবে সিউর পচন ব্যবহার করতে পারেন। সিউর পচনের জন্য, আপনি [1] বা [2] উল্লেখ করতে পারেন। সিউর পচনতে সি নির্বাচিত কলামগুলি বোঝায়, আর আর নির্বাচিত সারিগুলির জন্য এবং ইউ লিঙ্কিং ম্যাট্রিক্স। আমাকে [1] এর মতো সিআর ডেকসপসোসিশনের পিছনে অন্তর্নিহিত প্যারাফ্রেজ করতে দিন;

তোমার দর্শন লগ করাআমিবনামআমি

[(1/2)age − (1/ √2)height + (1/2)income]

জনগণের বৈশিষ্ট্যগুলির একটি ডেটাসেট থেকে উল্লেখযোগ্য অনাবিলম্বিত "কারণগুলি" বা "বৈশিষ্ট্যগুলি" হওয়াই বিশেষত তথ্যবহুল বা অর্থবহ নয়।

সিওআর সম্পর্কে দুর্দান্ত জিনিসটি হ'ল ভিত্তি কলামগুলি হ'ল আসল কলাম (বা সারি) এবং পিসিএর বিপরীতে ব্যাখ্যা করা আরও ভাল (যা ট্রান্সকেটেড এসভিডি ব্যবহার করে)।

[1] এ দেওয়া অ্যালগরিদম কার্যকর করা সহজ এবং আপনি এটির সাথে ত্রুটির প্রান্তিক পরিবর্তন করে বিভিন্ন সংখ্যক ঘাঁটি পেতে পারেন s

[১] এমডব্লু মাহুনি এবং পি। ড্রিনিয়াস, "উন্নত ডেটা বিশ্লেষণের জন্য সিইউর ম্যাট্রিক্স পচা,", আমেরিকা যুক্তরাষ্ট্রের ন্যাশনাল একাডেমি অফ সায়েন্সেসের কার্যক্রম, খণ্ড। 106, জানুয়ারী 2009, পৃষ্ঠা 697-702।

[২] জে সান, ওয়াই জে, এইচ জ্যাং, এবং সি ফালআউটসো, "কম বেশি: বড় স্পারস গ্রাফের জন্য কমপ্যাক্ট ম্যাট্রিক্স পঁচন," ডেটা মাইনিংয়ের সপ্তম সিয়াম আন্তর্জাতিক সম্মেলনের কার্যক্রম, সিটিসিয়ার, ২০০,, পৃষ্ঠা । 366।


2

আপনার উদ্দেশ্যগুলির উপর নির্ভর করে, গ্রুপগুলিতে নিবন্ধগুলির শ্রেণিবিন্যাস কিছু ক্লাস্টারিং পদ্ধতি দ্বারা সেরা অর্জন করা যেতে পারে। অপেক্ষাকৃত স্বল্প সংখ্যক ক্ষেত্রে হায়ারারিকিকাল ক্লাস্টারিং সাধারণত সর্বাধিক উপযোগী, কমপক্ষে অনুসন্ধানের পর্যায়ে, তবে আরও পালিশযুক্ত সমাধানের জন্য আপনি কে-এর মতো কিছু পুনরাবৃত্তির প্রক্রিয়া দেখতে পারেন। আপনি যে সফ্টওয়্যারটি ব্যবহার করছেন সে অনুযায়ী এটি এমন একটি প্রক্রিয়াও ব্যবহার করা সম্ভব যা এসপিএসএস এ রয়েছে তবে আমি জানি না অন্য কোথাও বলা হয়, দুটি ধাপের ক্লাস্টারিং, যা দ্রুত, যদিও অস্বচ্ছ, এবং ভাল ফলাফল দেয় বলে মনে হয়।

ক্লাস্টার বিশ্লেষণ একটি শ্রেণিবিন্যাস সমাধান দেয় যা গ্রুপগুলির মধ্যে বৈচিত্র্যকে সর্বাধিক করে তোলে এবং বলা গোষ্ঠীর অভ্যন্তরে বৈকল্পিকতা হ্রাস করে। এটি সম্ভবত ফলাফল প্রদান করবে যা ব্যাখ্যা করা সহজ।



1

আর একটি বিকল্প হ'ল স্ব-সংগঠিত মানচিত্র (SOM এর) ব্যবহার করা। শিক্ষার্থীরা কোন সফ্টওয়্যার ব্যবহার করবে তার কোন ধারণা? আমি জানি যে, আর এর উদাহরণস্বরূপ, বেশ কয়েকটি এসওএম প্রয়োগ রয়েছে। তবে SOM এর আপনার "উপাদান উপাদানগুলি স্বজ্ঞাত জ্ঞান তৈরি" পরীক্ষায় ব্যর্থ হতে পারে। (অবশ্যই পিসিএর সাথে সত্য নয়, ...)


দেরিতে জবাব দেবার জন্য দুঃখিত। শিক্ষার্থীরা মিনিটাব 16 ব্যবহার করবে, যার উপরে উল্লিখিত আরও কিছু dataতিহ্যবাহী ডেটা হ্রাস কৌশল রয়েছে। আমি স্ব-সংগঠিত মানচিত্রগুলি খতিয়ে দেখব, তবে আমি সন্দেহ করি যে আমি দ্বিতীয় বর্ষ স্নাতক কোর্সে যে ধরণের শিক্ষার্থী পেয়েছি তা উপযুক্ত কিনা be
রেবিডোটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.