মেশিন লার্নিং মডেল বা সুপারিশকারী সিস্টেমে কীভাবে ভূগোল বা জিপ কোড উপস্থাপন করবেন?


24

আমি একটি মডেল তৈরি করছি এবং আমি মনে করি যে আমার টার্গেট ভেরিয়েবলের পূর্বাভাস দেওয়ার ক্ষেত্রে ভৌগলিক অবস্থানটি খুব ভাল হবে। আমার প্রতিটি ব্যবহারকারীর জিপ কোড আমার কাছে রয়েছে। যদিও আমি আমার মডেলটিতে পূর্বাভাসকারী বৈশিষ্ট্য হিসাবে জিপ কোড অন্তর্ভুক্ত করার সর্বোত্তম উপায় সম্পর্কে পুরোপুরি নিশ্চিত নই। যদিও জিপ কোডটি একটি সংখ্যা, তবে সংখ্যাটি উপরে বা নিচে চলে গেলে এর অর্থ কিছু হয় না। আমি সমস্ত 30,000 জিপ কোডগুলিকে বাইনারি করতে পারি এবং তারপরে সেগুলি বৈশিষ্ট্য বা নতুন কলাম হিসাবে অন্তর্ভুক্ত করতে পারি (যেমন,, ব্যবহারকারী_1: {61822: 1, 62118: 0, 62444: 0, ইত্যাদি However However তবে, এটি মনে হয় এটি একটি টন যোগ করবে আমার মডেল বৈশিষ্ট্য।

এই পরিস্থিতিটি পরিচালনা করার সর্বোত্তম উপায় সম্পর্কে কোনও চিন্তা?


1
কেবল একটি চিন্তা .. তবে, যদি জিপকোডগুলি ভৌগলিকভাবে বিতরণ করা হয় তবে আপনি কোনও মানচিত্রে জিপকোডগুলি উপস্থাপন করতে এবং তাদের অবস্থানের সাথে তাদের উপস্থাপন করতে পারেন। এটির সাহায্যে আপনি দেখতে পেতেন যে কোন জিপকোডগুলি নিকটে রয়েছে ..
ম্যানুয়েল

উত্তর:


14

আমার জিপ কোড ডেটা ব্যবহারের অন্যতম প্রিয় ব্যবহার হ'ল জিপকোডের ভিত্তিতে ডেমোগ্রাফিক ভেরিয়েবলগুলি সন্ধান করা যা পৃথক স্তরে উপলভ্য নাও হতে পারে ...

উদাহরণস্বরূপ, http://www.city-data.com/ এর মাধ্যমে আপনি আয়ের বন্টন, বয়সসীমা ইত্যাদি সন্ধান করতে পারেন যা আপনাকে আপনার ডেটা সম্পর্কে কিছু বলতে পারে। এই অবিচ্ছিন্ন ভেরিয়েবলগুলি প্রায়শই বাইনারিযুক্ত জিপ কোডগুলির উপর ভিত্তি করে চলে যাওয়ার চেয়ে কম বেশি অপেক্ষাকৃত সীমিত পরিমাণের ডেটার জন্য দরকারী।

এছাড়াও, জিপ কোডগুলি হায়ারারিকালিক্যাল ... যদি আপনি প্রথম দুটি বা তিনটি অঙ্ক নেন এবং সেগুলির উপর ভিত্তি করে বাইনারি করেন তবে আপনার কাছে কিছু পরিমাণ আঞ্চলিক তথ্য রয়েছে, যা আপনাকে পৃথক জিপগুলির চেয়ে আরও বেশি ডেটা পায়।

জাচ যেমন বলেছিলেন, ব্যবহৃত অক্ষাংশ এবং দ্রাঘিমাংশ বিশেষত গাছ ভিত্তিক মডেলটিতেও কার্যকর হতে পারে। নিয়মিত রৈখিক মডেলটির জন্য, আপনি কোয়াডট্রি ব্যবহার করতে পারেন, চারটি ভৌগলিক দলকে আমেরিকা যুক্তরাষ্ট্রকে বিভক্ত করে, সেগুলিকে দ্বিখণ্ডিত করে, তারপর সেই ক্ষেত্রগুলির প্রত্যেককে চারটি গ্রুপে এবং অতিরিক্ত বাইনারি ভেরিয়েবলগুলি সহ ... সুতরাং এন মোট পাতাগুলির জন্য [(4 এন - 1) / 3 - 1] মোট ভেরিয়েবল (ছোট অঞ্চলের জন্য এন, পরবর্তী স্তরটির জন্য এন / 4 ইত্যাদি) দিয়ে শেষ করুন। অবশ্যই এটি মাল্টিকোল্লাইনার, এজন্য এটি করার জন্য নিয়মিতকরণের প্রয়োজন।


2
আপনি বেন ফ্রাই এর জিপডিকোডে স্তরক্রমের একটি দুর্দান্ত দৃশ্য পেতে পারেন ।
দিমিত্রি ভি। মাস্টারভ

জো আপনি এই সাইট থেকে অবাধে জিপ স্তরের ডেটা (আয় ইত্যাদি) পেতে সক্ষম হন? আমি এটি করতে কিভাবে সক্ষম ছিল না।
বি_মিনার

ইউআরএলগুলির মতো: শহর- ডাটা. com/zips/ 02108.html এটি কোনও সিএসভির মতো ভাল ফর্ম্যাটেড নয়, সুতরাং আপনাকে রিজেক্সস / স্ক্র্যাপিং ইত্যাদি ব্যবহার করতে হবে। মার্কিন আদমশুমারিতে কিছু চমত্কারভাবে ফমেটেড ডেটা সেন্সাস.gov/epcd/www/ zipstats রয়েছে .html এবং ফ্যাক্টফাইন্ডার 2.census.gov/faces/nav/jsf/pages/index.xhtml কিন্তু তাদের প্রস্থ নেই।
জো

18

এখানে দুটি ভাল বিকল্প রয়েছে যা আমি দেখেছি:

  1. প্রতিটি জিপকোডকে ডামি ভেরিয়েবলে রূপান্তর করুন। আপনার যদি প্রচুর ডেটা থাকে তবে এটি দ্রুত এবং সহজ সমাধান হতে পারে তবে আপনি নতুন জিপ কোডগুলির জন্য পূর্বাভাস দিতে সক্ষম হবেন না। আপনি যদি বৈশিষ্ট্যের সংখ্যা সম্পর্কে উদ্বিগ্ন হন তবে মডেলটি থেকে কিছু জিপকোড বাদ দেওয়ার জন্য আপনি আপনার মডেলটিতে কিছুটা নিয়মিতকরণ যুক্ত করতে পারেন।
  2. জিপকোডের কেন্দ্র বিন্দুর অক্ষাংশ এবং দ্রাঘিমাংশকে ভেরিয়েবল হিসাবে ব্যবহার করুন। এটি ট্রি-ভিত্তিক মডেলগুলিতে সত্যই ভাল কাজ করে, কারণ তারা আপনার লক্ষ্য পরিবর্তনশীলের সাথে প্রাসঙ্গিক অঞ্চলে অক্ষাংশ / দ্রাঘিমাংশ গ্রিডটি কেটে দিতে পারে। এটি আপনাকে নতুন জিপকোডগুলির জন্য ভবিষ্যদ্বাণী করতেও অনুমতি দেবে এবং সঠিক পেতে যতটা ডেটা প্রয়োজন হবে না। তবে এটি লিনিয়ার মডেলগুলির পক্ষে ভাল কাজ করবে না।

ব্যক্তিগতভাবে, আমি সত্যিই গাছ-ভিত্তিক মডেলগুলি পছন্দ করি (যেমন এলোমেলো বন বা জিবিএম), তাই আমি প্রায় সর্বদা বিকল্প 2 বেছে নিই you বরং জিপকোড সেন্ট্রয়েড। তবে এহোল্ড পাওয়া কঠিন হতে পারে।


অবশ্যই 2প্রস্তাব জন্য যেতে হবে ।
andilabs

# 2 এছাড়াও একটি জিএএম
এফাইন

4

শ্রেণিবদ্ধকে প্রশিক্ষণ দেওয়ার সময় আমি অনুরূপ কিছু নিয়ে কাজ করেছি যা স্থানীয় ভাষার বৈশিষ্ট্য হিসাবে ব্যবহৃত হয়েছিল (আপনি ইংরেজি এবং স্প্যানিশের মধ্যে মিল কীভাবে পরিমাপ করবেন?) অ-শ্রেণিবদ্ধ তথ্যগুলির মধ্যে সাদৃশ্য নির্ধারণ করার জন্য প্রচুর পদ্ধতি রয়েছে

এটি আপনার ডেটার উপর নির্ভর করে, তবে যদি আপনি দেখতে পান যে কোনও জিপ কোড থেকে ভৌগলিক দূরত্ব কোনও গুরুত্বপূর্ণ ইনপুটটিতে নির্দিষ্ট জিপ কোড রয়েছে কিনা তা হিসাবে গুরুত্বপূর্ণ নয়, তবে অ-শ্রেণিবদ্ধ পদ্ধতিগুলি সহায়তা করতে পারে।


4

যদি আপনি রেকর্ডগুলির মধ্যে দূরত্ব গণনা করছেন, যেমন ক্লাস্টারিং বা কে-এনএন হিসাবে, তাদের কাঁচা ফর্মের মধ্যে জিপকোডগুলির মধ্যে দূরত্ব তথ্যমূলক হতে পারে। ভৌগোলিকভাবে 02138 এর চেয়ে কাছাকাছি অবস্থিত, এটি 45809 এর চেয়ে বেশি।


এছাড়াও এলোমেলো বনের মতো গাছের মডেলগুলির জন্য - যা কিছু দিক থেকে কে-এনএন-এর মতো
অধিনায়ক_হাব

3

আপনি আপনার জিপ কোডটিকে নামমাত্র ভেরিয়েবল (স্ট্রিং / ফ্যাক্টর) এ রূপান্তর করতে পারেন। তবে যতদূর আমার মনে আছে, জিপ কোডে অন্যান্য তথ্য যেমন কাউন্টি, অঞ্চল ইত্যাদি থাকতে পারে আমি কী করব তা বুঝতে পারা কোড কীভাবে তথ্যকে এনকোড করে এবং একাধিক বৈশিষ্ট্যে ডিকোড করে।

যাইহোক, জিপ কোডকে একটি সংখ্যাগত পরিবর্তনশীল হিসাবে দেওয়া ভাল ধারণা নয় কারণ কিছু মডেল সংখ্যার ক্রম বা দূরত্বকে কিছু শেখার জন্য বিবেচনা করতে পারে।


উত্তর করার জন্য ধন্যবাদ! যাইহোক, জিপ কোডটি একটি স্ট্রিং বা ফ্যাক্টর হলেও, আমি কি মূলত ডামি কোডিং জিপ কোডটি না (যেমন, 30,000 বাইনারিযুক্ত বৈশিষ্ট্য তৈরি করি)? আমি জানি আর এটি হুডের নীচে করে তবে এটি স্পষ্টভাবে স্কাইকিট শিখতে হবে।
অধিনায়ক_হাহাব

3

আমি জিপ কোড স্তরে আপনার মডেলের অবশিষ্টাংশগুলির একটি নক্ষত্রের মানচিত্র তৈরি করব।

ফলাফলটিকে একটি স্থানিক অবকাশ মানচিত্র বলা হয় এবং এটি আপনাকে আপনার মডেলটিতে অন্তর্ভুক্ত করার জন্য একটি নতুন ব্যাখ্যামূলক পরিবর্তনশীল চয়ন করতে সহায়তা করতে পারে। এই পদ্ধতির অভিযোজিত স্থানিক তথ্য বিশ্লেষণ (ইএসডিএ) বলা হয়।

একটি সম্ভাব্য কর্মপ্রবাহ:

  1. প্রতিটি জিপ কোডের জন্য গড় অবশিষ্টাংশ পাওয়া যায়
  2. অবশিষ্টাংশের ভৌগলিক বিতরণ দেখতে একটি নক্ষত্রের মানচিত্র তৈরি করুন
  3. এমন কোনও নিদর্শন সন্ধান করুন যা কোনও নতুন ব্যাখ্যামূলক চলক দ্বারা ব্যাখ্যা করা যেতে পারে। উদাহরণস্বরূপ, আপনি যদি উচ্চ শহরতলে সমস্ত উপশহর বা দক্ষিণ বা সৈকত জিপকোডগুলি দেখতে পান তবে আপনি প্রাসঙ্গিক জিপকোড গ্রুপিং দ্বারা সংজ্ঞায়িত একটি আঞ্চলিক ডামি ভেরিয়েবল যুক্ত করতে পারেন বা উচ্চ আয়ের জিপকোডের জন্য যদি উচ্চ অবশিষ্টাংশগুলি দেখেন তবে আপনি একটি আয়ের পরিবর্তনশীল যুক্ত করতে পারেন।

-2

আপনি উপরের কৌশলগুলি ব্যবহার করে জিপকোডগুলি বৈশিষ্ট্যযুক্ত করতে পারেন তবে আমাকে একটি বিকল্প প্রস্তাব দিন। মনে করুন আমাদের কাছে বাইনারি ক্লাসের লেবেল রয়েছে। এবং ডেটাতে আমাদের কাছে "এন" জিপ কোড রয়েছে। এখন আমরা ডেটাতে প্রতিটি পিনকোডের উপস্থিতি হওয়ার সম্ভাবনা নিয়ে থাকি, কিছু শ্রেণির লেবেল সরবরাহ করে (1 বা শূন্য হয়)। সুতরাং, একটি জিপকোডের জন্য বলি "j" ------ >>>> আমরা একটি সম্ভাব্যতা পাই_ P হিসাবে: না। "জে" এর উপস্থিতি / ক্লাসের লেবেল 1 বা 0 হয় যখন "জ" এর উপস্থিতিগুলির মোট সংখ্যা This


5
এই উত্তর খুব পরিষ্কার নয়।
মাইকেল আর চেরনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.