ডেটা পয়েন্টের উপসেট নির্বাচন করার জন্য স্বয়ংক্রিয় পদ্ধতি / সবচেয়ে শক্তিশালী পারস্পরিক সম্পর্ক?


15

সবচেয়ে শক্তিশালী পারস্পরিক সম্পর্কের (মাত্র দুটি মাত্রার পাশাপাশি) বৃহত্তর পুল থেকে ডেটা পয়েন্টের উপসেটটি নির্বাচনের জন্য কিছু মানক পদ্ধতি রয়েছে (যেমন কোনও এটি একটি রেফারেন্স হিসাবে উল্লেখ করতে পারে)?

উদাহরণস্বরূপ, বলুন আপনার কাছে 100 ডেটা পয়েন্ট রয়েছে। আপনি এক্স এবং ওয়াইয়ের মাত্রাগুলি সহ শক্তিশালী পারস্পরিক সম্পর্ক সহ 40 পয়েন্টের একটি উপসেট চান।

আমি বুঝতে পারি যে এটি করার কোডটি তুলনামূলকভাবে সহজবোধ্য হবে, তবে আমি ভাবছি যে এটির কোনও উদ্ধৃতি দেওয়ার আছে?


3
"আমি বুঝতে পারি যে এটি করার কোডটি কোড তুলনামূলকভাবে সহজবোধ্য হবে"। আহ? এবং আপনি এটা কিভাবে করবেন?
ব্যবহারকারী 603

3
আমি মনে করি তিনি "বেস্ট সাবসেট রিলেশন" এর মতো কিছু বোঝালেন; এর সাব-সেট নির্বাচন নির্বাচন ( = 40 তার উদাহরণে) থেকে বের করে ডাটা পয়েন্টের আপনার এন ( এন = 100 তার উদাহরণে) এবং পারস্পরিক সম্পর্কের হিসাব নিরূপণ ρ ( এক্স , ওয়াই ) (বলা যাচ্ছে যে সে পয়েন্ট একটি উপসেট জানেন বোঝানো সেরা লিনিয়ার পারস্পরিক সম্পর্ক সহ)। যাইহোক, এই প্রক্রিয়া বৃহৎ জন্য গণনা ব্যয়বহুল বলে মনে হয় এন কারণ আপনার ক্যালকুলেট করতে হবে, বার সহগ। kk=40NN=100ρ(X,Y)N(Nk)
নস্টোর

1
যদি আপনি ভেরিয়েবলের রৈখিক সংমিশ্রণগুলি দেখতে আগ্রহী হন তবে ন্যাশনাল পারস্পরিক সম্পর্ক যা আপনি সন্ধান করছেন। অন্যথায়, পারস্পরিক সম্পর্ক বৈশিষ্ট্য নির্বাচনটি আগ্রহী হতে পারে। X
MånsT

আমি মনে করি কেউ কেউ আমাকে ভুল বুঝছে। @ নস্টরের কাছে এটি ঠিক আছে বলে মনে হচ্ছে। 100 টি আইটেম রয়েছে যার প্রতিটি এক্স মান এবং ওয়াই মান রয়েছে। আমি 40 এর সাবসেটটি খুঁজে পেতে চাই যে এক্স এবং ওয়াইয়ের মানগুলির মধ্যে সবচেয়ে শক্তিশালী পারস্পরিক সম্পর্ক (ডাব্লু / লিনিয়ার রিগ্রেশন) রয়েছে। আমি পুরো অনুসন্ধানের স্থানটি ঘুরে দেখার জন্য কোড লিখতে পারি, তবে এই জাতীয় পদ্ধতির সমর্থন করার জন্য আমি কোনটি উদ্ধৃত করব? সমস্ত সম্ভাব্য উপসর্গগুলির মধ্যে সর্বোত্তম পারস্পরিক সম্পর্কের সন্ধান করার জন্য এটি কী বলা হয়?
জুলি

1
আপনি কি সর্বাধিক সম্পর্ক স্থাপন বা সর্বোত্তম ফিট রিগ্রেশন লাইন যেমন উদাহরণস্বরূপ, ন্যূনতম অবশিষ্টাংশের বৈকল্পিকতা দ্বারা পরিমাপ করতে আগ্রহী? আপনি যখন আপনার ডেটা পয়েন্ট চয়ন করতে পারেন তখন দুটি একই হয় না।
jboman

উত্তর:


17

আমি বলব যে আপনার পদ্ধতিটি এতে বর্ণিত সাধারণ বিভাগের সাথে ফিট করে উইকিপিডিয়া নিবন্ধে খায় যা আপনার কেবল উইকিপিডিয়া ছাড়া আরও কিছু প্রয়োজন হলে অন্যান্য রেফারেন্সও রয়েছে। এই নিবন্ধটির মধ্যে থাকা কয়েকটি লিঙ্কও প্রযোজ্য হবে।

অন্যান্য শর্তাদি যা প্রয়োগ করতে পারে (যদি আপনি আরও কিছু অনুসন্ধান করতে চান) এর মধ্যে রয়েছে "ডেটা ড্রেজিং" এবং "এটি স্বীকার না করা অবধি ডেটা ট্র্যাচারিং" include

মনে রাখবেন যে আপনি কেবলমাত্র 2 টি পয়েন্ট চয়ন করেন যা অভিন্ন x বা y মান না রাখে আপনি সর্বদা 1 টির একটি সংযোগ পেতে পারেন। চান্স ম্যাগাজিনে কয়েক বছর আগে একটি নিবন্ধ ছিল যা দেখিয়েছিল যে যখন আপনার সাথে কোনও x এবং y পরিবর্তনশীল থাকবে তখন কোনও প্রাসঙ্গিকতার সাথে আপনি এক্স এর বিনের উপায় খুঁজে পাবেন এবং বর্ধমান বা হ্রাসমান প্রবণতা দেখানোর জন্য ডাবের মধ্যে y এর গড় গড় পাবেন ( চান্স 2006, ভিজ্যুয়াল রিভিলিজ: ফলাফলগুলি দুর্ভাগ্যজনকভাবে বিন্নের মাধ্যমে কী নেই তা সন্ধান করা: মেন্ডেল এফেক্ট, পৃষ্ঠা 49-52)। একটি পরিপূর্ণ ধনাত্মক পারস্পরিক সম্পর্কযুক্ত একটি পূর্ণ ডেটাসেটের সাথেও একটি উপসেট বেছে নেওয়া সম্ভব যা নেতিবাচক সম্পর্ককে দেখায়। এগুলি দেওয়া, আপনি যা প্রস্তাব করেছেন তার করার বৈধ কারণ থাকলেও, আপনি যে কোনও সিদ্ধান্ত নিয়ে এসেছেন তার বিরুদ্ধে যে কোনও সন্দেহবাদী প্রচুর যুক্তি দিচ্ছেন।


আমেরিকান পরিসংখ্যানবিদ এর নিবন্ধটির নাম কী?
21

1
আমি নিবন্ধটি যেখানে দেখলাম সেখানে ভুল ছাপ ফেলেছিলাম, এটি আসলে আমেরিকান স্ট্যাটিস্টিস্টিয়ান না হয়ে চান্স ম্যাগাজিনে ছিল। আমি উপরে এটি সংশোধন করেছি এবং বছর, শিরোনাম এবং পৃষ্ঠা নম্বরগুলি অন্তর্ভুক্ত করেছি যাতে আগ্রহী পক্ষগুলি সহজেই অনুলিপিগুলি খুঁজে পেতে সক্ষম হয়।
গ্রেগ স্নো

4

আরএনএসএসি অ্যালগরিদম আপনার পছন্দ মত শোনাচ্ছে। মূলত, এটি ধরে নিয়েছে যে আপনার ডেটা ইনলাইয়ার এবং আউটলিয়ারদের মিশ্রণ নিয়ে গঠিত এবং বারবার উপাত্তের উপগ্রহ স্যাম্পল করে, এর সাথে একটি মডেল ফিট করে, এবং তারপরে মডেলটির সাথে প্রতিটি অন্যান্য তথ্য বিন্দুতে ফিট করার চেষ্টা করে ইনিলারদের সনাক্ত করার চেষ্টা করে। এটি সম্পর্কে উইকিপিডিয়া নিবন্ধ এখানে

আপনার ক্ষেত্রে, আপনি কমপক্ষে 40 পয়েন্ট ফিট করে বর্তমান সেরা মডেলটি সংরক্ষণ করার সময় আপনি কেবল অ্যালগরিদম পুনরাবৃত্তি করতে পারেন, সুতরাং এটি আপনাকে পরম সর্বোত্তম সম্পর্কের গ্যারান্টি দেয় না, তবে এটি কাছাকাছি হওয়া উচিত।


1

আমার একটি প্রসঙ্গটি কল্পনা করতে খুব কষ্ট হয়েছে যার মধ্যে এটি ভাল অনুশীলন হবে, তবে এক মুহুর্তের জন্য ধরে নিতে পারি যে এটি করার জন্য আপনার কাছে সত্য কারণ আছে।

একটি ব্রুট ফোর্স অ্যালগরিদম এরকম কিছু হতে পারে:

  1. আপনার এন এর সামগ্রিক নমুনার মধ্যে n এর সমস্ত সম্ভাব্য উপ-নমুনাগুলি গণনা করুন Most বেশিরভাগ পরিসংখ্যান প্যাকেজগুলির প্রতিস্থাপন ছাড়াই সংমিশ্রণের জন্য কার্যকারিতা রয়েছে যা এটি আপনার জন্য করবে।

  2. আপনি উপ-নমুনাগুলির প্রত্যেকটির জন্য x এবং y এর মধ্যে সম্পর্কের অনুমান করে এবং সেটটি থেকে সর্বাধিক নির্বাচন করুন select

আমি কেবল এই পদ্ধতির জন্য একটি রেফারেন্স সম্পর্কিত মূল পোস্টারের মন্তব্য দেখেছি। আমি নিশ্চিত নই যে আপনি কেবল নিজের ডেটাসেটে সমস্ত সম্ভাব্য পারস্পরিক সম্পর্কের অভিজ্ঞতামূলক বিতরণ এবং সর্বাধিকটি নির্বাচন করার পরেও এই পদ্ধতির জন্য কারও নির্দিষ্ট নাম রয়েছে। বুটস্ট্র্যাপিং করার সময় অনুরূপ পন্থা ব্যবহৃত হয়, তবে সেই ক্ষেত্রে আপনি অভিজ্ঞতাগত পরিবর্তনশীলতায় আগ্রহী, আপনি এগুলি সর্বাধিকের সাথে সম্পর্কিত একটি নির্দিষ্ট সাব-নমুনা বেছে নিতে ব্যবহার করবেন না।


2
1032N=100n=40

এটি সম্পর্কে স্পর্শকাতর হওয়ার দরকার নেই :- পি। ন্যায্য বিন্দু.
ডেভিড

দুঃখিত ... যদিও আমি সেই চিত্রগুলি পছন্দ করি কারণ তারা আমাদের একটি উন্নত অ্যালগরিদম :-) জন্য প্রচুর জায়গা দেয়।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.