নীচের চক্রান্তে এবং মধ্যে সম্পর্ক কী ? আমার দৃষ্টিতে নেতিবাচক লিনিয়ার সম্পর্ক রয়েছে, তবে আমাদের প্রচুর বিদেশী হওয়ার কারণে সম্পর্কটি খুব দুর্বল। আমি কি সঠিক? আমি শিখতে চাই কীভাবে আমরা স্ক্যাটারপ্লটগুলি ব্যাখ্যা করতে পারি। এক্স
নীচের চক্রান্তে এবং মধ্যে সম্পর্ক কী ? আমার দৃষ্টিতে নেতিবাচক লিনিয়ার সম্পর্ক রয়েছে, তবে আমাদের প্রচুর বিদেশী হওয়ার কারণে সম্পর্কটি খুব দুর্বল। আমি কি সঠিক? আমি শিখতে চাই কীভাবে আমরা স্ক্যাটারপ্লটগুলি ব্যাখ্যা করতে পারি। এক্স
উত্তর:
প্রশ্নটি বেশ কয়েকটি ধারণার সাথে সম্পর্কিত: কেবলমাত্র একটি স্ক্যাটারপ্লট আকারে প্রদত্ত ডেটা কীভাবে মূল্যায়ন করা যায়, কীভাবে একটি স্ক্র্যাটারপ্লোটের সংক্ষিপ্তসার করা যায় এবং (এবং কোন ডিগ্রিতে) একটি সম্পর্ক লিনিয়ার দেখায়। তাদের যথাযথভাবে নেওয়া যাক।
অনুসন্ধানের ডেটা বিশ্লেষণের নীতিগুলি ব্যবহার করুন (ইডিএ)। এগুলি (অন্ততপক্ষে মূলত, যখন তারা পেন্সিল এবং কাগজ ব্যবহারের জন্য তৈরি হয়েছিল) সাধারণ, সহজেই গণনা, ডেটার শক্তিশালী সংক্ষিপ্তসারগুলিকে জোর দেয়। খুব সাধারণ ধরণের সংক্ষিপ্তসারগুলির মধ্যে একটি সংখ্যার সংস্থার মধ্যে অবস্থানের উপর নির্ভর করে যেমন মধ্যম মান, যা একটি "সাধারণ" মান বর্ণনা করে। মিডলগুলি গ্রাফিক্স থেকে নির্ভরযোগ্যভাবে অনুমান করা সহজ।
স্ক্যাটারপ্লটগুলি সংখ্যার জোড়া প্রদর্শন করে। প্রতিটি জোড়ার প্রথমটি (অনুভূমিক অক্ষের উপরে প্লট করা হিসাবে) একক সংখ্যার একটি সেট দেয়, যা আমরা আলাদাভাবে সংক্ষেপে বলতে পারি।
এই বিশেষ স্ক্যাটারপ্লোতে, y- মানগুলি দুটি সম্পূর্ণ পৃথক পৃথক দলের মধ্যে উপস্থিত থাকে : শীর্ষে উপরে মান এবং নীচে সমান বা তার চেয়ে কম মান । (এই ছাপটি ওয়াই-মানগুলির একটি হিস্টগ্রাম আঁকার মাধ্যমে নিশ্চিত করা হয়েছে, যা তীব্রভাবে বিমোডাল, তবে এটি এই পর্যায়ে অনেক বেশি কাজ হবে)) আমি সংশয়ীদেরকে স্ক্যাটারপ্লোতে স্কুইন্টে নিমন্ত্রণ করি। যখন আমি করি - স্ক্যাটারপ্লোটের বিন্দুগুলির বৃহত ব্যাসার্ধ ব্যবহার করে গামা-সংশোধিত গাউসিয়ান ব্লার (এটি একটি স্ট্যান্ডার্ড দ্রুত ইমেজ প্রসেসিং ফলাফল) আমি দেখতে পাচ্ছি:60
উপরের এবং নিম্ন - দুটি গ্রুপটি বেশ প্রকট। (উপরের দলটি নীচের চেয়ে অনেক হালকা কারণ এটিতে অনেক কম ডট রয়েছে))
তদনুসারে, আসুন y-মানগুলির গ্রুপগুলি আলাদাভাবে সংক্ষিপ্ত করে দেখি। আমি দুটি গ্রুপের মধ্যমরে আনুভূমিক রেখাগুলি আঁকতে এটি করব। ডেটাটির ছাপের উপর জোর দেওয়ার জন্য এবং আমরা কোনও ধরণের গণনা করছি না তা দেখানোর জন্য, আমি (ক) অক্ষ এবং গ্রিডলাইনগুলির মতো সমস্ত সজ্জা মুছে ফেলেছি এবং (খ) পয়েন্টগুলি অস্পষ্ট করেছি। উপাত্তের নিদর্শন সম্পর্কে অল্প তথ্য গ্রাফিকটিতে "স্কুইন্টিং" দ্বারা হারিয়ে যায়:
একইভাবে, আমি উল্লম্ব রেখাংশগুলি সহ x- মানগুলির মধ্যস্থদের চিহ্নিত করার চেষ্টা করেছি। উপরের গ্রুপে (লাল রেখাগুলি) আপনি পরীক্ষা করতে পারেন - ব্লবগুলি গণনা করে - যে এই রেখাগুলি দলটিকে দুটি অনুভূমিক এবং উল্লম্বভাবে দুটি সমান অংশে পৃথক করে। নীচের গ্রুপে (নীল লাইন) আমি কেবল দৃশ্যমানভাবে কোনও গণনা না করেই অবস্থানগুলির অনুমান করেছি।
ছেদ বিন্দু দুটি গ্রুপের কেন্দ্র। এক্স এবং ওয়াইয়ের মানগুলির মধ্যে সম্পর্কের একটি দুর্দান্ত সারসংক্ষেপ হ'ল এই কেন্দ্রীয় অবস্থানগুলি প্রতিবেদন করা। তারপরে কেউ তার কেন্দ্রের চারপাশে - বাম এবং ডানদিকে, উপরে এবং নীচে - প্রতিটি গ্রুপে কতটা ডেটা ছড়িয়েছে তার একটি বিবরণ দিয়ে এই সংক্ষিপ্তসারটিকে পরিপূরক করতে চাইবে। বংশবৃদ্ধির জন্য, আমি এখানে এটি করব না তবে নোট করুন (মোটামুটিভাবে) আমি আঁকা লাইন বিভাগগুলির দৈর্ঘ্য প্রতিটি গ্রুপের সামগ্রিক স্প্রেডকে প্রতিবিম্বিত করে।
অবশেষে, আমি দুটি কেন্দ্রকে সংযুক্ত করে একটি (ড্যাশড) লাইন আঁকলাম। এটি একটি যুক্তিসঙ্গত রিগ্রেশন লাইন। এটি কি ডেটাটির একটি ভাল বর্ণনা? অবশ্যই না: দেখুন কীভাবে এই লাইনের চারপাশে ডেটা ছড়িয়ে আছে। এটি কি লিনিয়ারির প্রমাণ? এটি খুব কমই প্রাসঙ্গিক কারণ লিনিয়ার বিবরণ এতটা দুর্বল। তবুও, কারণ এটি আমাদের সামনে প্রশ্ন, আসুন এটি সম্বোধন করুন।
একটি সম্পর্ক একটি পরিসংখ্যানগত অর্থে লিনিয়ার হয় যখন y এর মানগুলি একটি লাইনের চারপাশে ভারসাম্য র্যান্ডম ফ্যাশনে পরিবর্তিত হয় বা x মানগুলি একটি লাইনের (বা উভয়) চারপাশে ভারসাম্য র্যান্ডম ফ্যাশনে পরিবর্তিত হয়।
প্রাক্তনটি এখানে উপস্থিত হিসাবে উপস্থিত হবে না: কারণ y মান দুটি গ্রুপে পড়ে বলে মনে হয় , লাইনটির উপরে বা নীচে প্রায় প্রতিসাম্যিকভাবে বিতরণ করা অর্থে তাদের প্রকরণটি কখনই ভারসাম্যপূর্ণ হবে না। (এটি তাত্ক্ষণিকভাবে একটি লিনিয়ার রিগ্রেশন প্যাকেজে ডেটা ফেলে দেওয়ার এবং x এর বিপরীতে কমপক্ষে y স্কোয়ার ফিট করার সম্ভাবনাটি বাতিল করে দেয়: উত্তরগুলি প্রাসঙ্গিক হবে না))
এক্স এর প্রকরণ সম্পর্কে কি? এটি আরও প্রশংসনীয়: প্লটের প্রতিটি উচ্চতায় বিন্দুযুক্ত রেখার চারপাশে পয়েন্টগুলির অনুভূমিক বিস্তৃতি বেশ ভারসাম্যপূর্ণ। বিস্তার এই ছিটান কম উচ্চতায় একটি সামান্য বিট আরো বড় (কম Y মান) মনে করা হয়, কিন্তু হয়তো এটা এ কারণে যে আরো অনেক পয়েন্ট আছে আছে। (আপনার কাছে যত বেশি এলোমেলো তথ্য রয়েছে, তাদের চূড়ান্ত মানগুলি আরও বিস্তৃত হবে))
তদুপরি, আমরা উপর থেকে নীচে স্ক্যান করার সময়, এমন কোনও স্থান নেই যেখানে রিগ্রেশন লাইনের চারপাশে অনুভূমিক বিচ্ছুরক দৃ strongly়ভাবে ভারসাম্যহীন নয়: এটি লৈখিক-অখণ্ডতার প্রমাণ হবে। (ঠিক আছে, y = 50 এর কাছাকাছি বা তাই অনেক বেশি বড় x মান থাকতে পারে y y = 60 মানের কাছাকাছি দুটি গ্রুপে ডেটা ভাঙ্গার জন্য এই সূক্ষ্ম প্রভাবটি আরও প্রমাণ হিসাবে গ্রহণ করা যেতে পারে))
আমরা এটা দেখেছি
এক্সকে y এর লিনিয়ার ফাংশন হিসাবে কিছু "চমৎকার" এলোমেলো পরিবর্তনের হিসাবে দেখতে অনুভূত হয়।
এক্সকে প্লাস এলোমেলো পরিবর্তনের লিনিয়ার ফাংশন হিসাবে y দেখার পক্ষে কোন মানে হয় না ।
একটি রিগ্রেশন রেখাটি উচ্চ y এর মানগুলির একটি গ্রুপ এবং নিম্ন y মানগুলির একটি গ্রুপের মধ্যে ডেটা পৃথক করে মধ্যমা ব্যবহার করে উভয় দলের কেন্দ্রগুলি সন্ধান করে এবং সেই কেন্দ্রগুলি সংযুক্ত করে অনুমান করা যায়।
ফলস্বরূপ রেখার একটি নিম্নগামী opeাল রয়েছে, এটি একটি নেতিবাচক লিনিয়ার সম্পর্ক নির্দেশ করে ।
রৈখিকতা থেকে কোন শক্তিশালী প্রস্থান আছে।
তবুও, লাইনটির চারপাশে এক্স-মানগুলির প্রসারগুলি এখনও বড় (শুরু হওয়া এক্স-মানগুলির সামগ্রিক প্রসারের তুলনায়), আমাদের এই নেতিবাচক লিনিয়ার সম্পর্কটিকে "খুব দুর্বল" হিসাবে চিহ্নিত করতে হবে।
দুটি ডিম্বাকৃতি আকারের মেঘ গঠনের হিসাবে ডেটা বর্ণনা করা আরও কার্যকর হতে পারে (একটি হ'ল 60 এর উপরে এবং অন্যটি y এর নিম্ন মানের জন্য)। প্রতিটি মেঘের মধ্যে x এবং y এর মধ্যে সামান্য সনাক্তকরণযোগ্য সম্পর্ক রয়েছে। মেঘগুলির কেন্দ্রগুলি (0.29, 90) এবং (0.38, 30) এর কাছাকাছি। মেঘের তুলনাযোগ্য স্প্রেড রয়েছে, তবে উপরের মেঘের নীচের অংশের চেয়ে অনেক কম তথ্য রয়েছে (সম্ভবত 20% বেশি)।
এর মধ্যে দুটি সিদ্ধান্তই প্রশ্নটিতে তৈরি হওয়াগুলিকেই নিশ্চিত করে যে একটি দুর্বল নেতিবাচক সম্পর্ক রয়েছে। অন্যরা এই সিদ্ধান্তে পরিপূরক ও সমর্থন করে।
এমন প্রশ্নে টানা একটি সিদ্ধান্ত যা মনে হচ্ছে না যে হ'ল "বিদেশী" li আরও সতর্কতার সাথে পরীক্ষা (নীচের স্কেচ হিসাবে) কোনও পৃথক পয়েন্ট বা পয়েন্টের এমনকি ছোট গ্রুপগুলি চালু করতে ব্যর্থ হবে, যা বৈধভাবে বহিরাগত হিসাবে বিবেচিত হতে পারে। পর্যাপ্ত দীর্ঘ বিশ্লেষণের পরে, কারও দৃষ্টি আকর্ষণ করা যেতে পারে মাঝের ডানটির নিকটে দুটি পয়েন্ট বা নীচের বাম কোণে অবস্থিত একটি বিন্দুর দিকে আকৃষ্ট হতে পারে, তবে এগুলি বিবেচনা করা হয় বা না হয়, তথ্যের মূল্যায়নের খুব একটা পরিবর্তন করতে পারে না পার্শ্ববর্তী।
আরও অনেক কিছু বলা যেতে পারে। পরবর্তী পদক্ষেপগুলি সেই মেঘগুলির বিস্তারকে মূল্যায়ন করা হবে। দুটি মেঘের প্রত্যেকটির মধ্যে x এবং y এর সম্পর্কের আলাদা আলাদাভাবে মূল্যায়ন করা যেতে পারে, এখানে দেখানো একই কৌশলগুলি ব্যবহার করে। নিম্ন মেঘের সামান্য অসমত্ব (আরও ডেটা ক্ষুদ্রতম y মানগুলিতে প্রদর্শিত হবে বলে মনে হয়) y মানগুলি পুনরায় প্রকাশের মাধ্যমে মূল্যায়ন এবং এমনকি সামঞ্জস্য করা যেতে পারে (একটি বর্গমূল ভাল কাজ করতে পারে)। এই পর্যায়ে এটি বাহ্যিক ডেটা সন্ধান করা বোধগম্য হবে, কারণ এই মুহুর্তে বর্ণনায় সাধারণ ডেটা মানগুলির পাশাপাশি তাদের স্প্রেড সম্পর্কিত তথ্য অন্তর্ভুক্ত থাকবে; বহিরাগতরা (সংজ্ঞায়িতভাবে) প্রচারের পরিলক্ষিত পরিমাণের দিক থেকে ব্যাখ্যা করা মাঝখানে থেকে খুব দূরে থাকবে।
এই কাজের কোনওটিই - যা যথেষ্ট পরিমাণগত - তথ্যের গোষ্ঠীগুলির মাঝের গুলির সন্ধান এবং তাদের সাথে কিছু সাধারণ গণনা করার চেয়ে অনেক বেশি প্রয়োজন এবং তাই কেবলমাত্র গ্রাফিকাল আকারে ডেটা উপলব্ধ থাকলেও দ্রুত এবং নির্ভুলভাবে সম্পন্ন করা যায়। পরিমাণগত মান সহ - এখানে প্রতিবেদন করা প্রতিটি ফলাফল খুব সহজেই একটি ডিসপ্লে সিস্টেম (যেমন হার্ডকপি এবং একটি পেন্সিল :-)) ব্যবহার করে কয়েক সেকেন্ডের মধ্যে খুঁজে পাওয়া যেত যা গ্রাফিকের শীর্ষে হালকা চিহ্ন তৈরি করার অনুমতি দেয়।
চল মজা করি!
প্রথম সব, আমি স্ক্র্যাপযুক্ত ডেটা আপনার গ্রাফ বন্ধ।
তারপরে ধূসর 95 95% সিআই ব্যান্ড সহ ড্যাশযুক্ত রেগ্রেশন রেখাটি তৈরি করতে আমি একটি চলমান রেখাটি মসৃণ ব্যবহার করেছি। নীচের গ্রাফটি অর্ধেক ডেটা মসৃণ করে একটি স্প্যান দেখায়, যদিও আরও কঠোর স্প্যানগুলি কমবেশি একই সম্পর্ক প্রকাশ করেছিল। আশেপাশে opeালের সামান্য পরিবর্তনটি এমন একটি সম্পর্কের পরামর্শ দেয় যা লিনিয়ার মডেলটি ব্যবহার করে এবং আ নাইনলাইনারের সর্বনিম্ন স্কোয়ার্স রিগ্রেশন (লাল রেখা) এ এর opeালের লিনিয়ার কব্জ ফাংশন যুক্ত করতে পারে :এক্স
গুণাগুলি অনুমানগুলি ছিল:
আমি লক্ষ্য করেছি যে যে দুর্ধর্ষ whuber দাবি কোন শক্তিশালী রৈখিক সম্পর্ক, লাইন থেকে বিচ্যুতি আছে উহ্য দ্বারা কবজা মেয়াদের ঢাল হিসাবে একই আদেশ হয় , (অর্থাত 37.7) তাই আমি শ্রদ্ধার সাথে একমত হবে যে আমরা কোনও দৃ non় অরৈখিক সম্পর্ক দেখতে পাই না (যেমন হ্যাঁ কোনও দৃ strong় সম্পর্ক নেই, তবে অ-রৈখিক শব্দটি লিনিয়ারের মতোই শক্তিশালী)।
ব্যাখ্যা
(আমি অভিমানী আছে অগ্রসর হয়েছেন তা বলতে আপনি শুধুমাত্র আগ্রহী নির্ভরশীল পরিবর্তনশীল হিসাবে।) এর মান খুব স্বাস্থ্যহীন দ্বারা পূর্বাভাস হয় (একটি Adjusted- সঙ্গে = 0.03)। সমিতিটি প্রায় লিনিয়ার, প্রায় .4ালুতে প্রায় 0.46 এ সামান্য হ্রাস সহ। অবশিষ্টাংশগুলি কিছুটা ডান দিকে সজ্জিত, সম্ভবত কারণ এটি মানগুলির উপর একটি তীক্ষ্ণ নিম্ন আবদ্ধ । নমুনার আকার , আমি স্বাভাবিকতার লঙ্ঘন সহ্য করতে আগ্রহী । মানগুলির জন্য আরও পর্যবেক্ষণগুলি opeালের পরিবর্তনটি আসল কিনা বা হ্রাস পরিবর্তনের একটি শৈল্পিক কিনা যে পরিসীমা মধ্যে।
গ্রাফের সাথে আপডেট হচ্ছে :
(লাল রেখাটি কেবল এক্স এ ল্যান (ওয়াই) এর লিনিয়ার রিগ্রেশন)
মন্তব্য Russ Lenth লিখেছিলেন: "আমি শুধু ভাবছি যদি এই পর্যন্ত ঝুলিতে যদি আপনি মসৃণ বনাম এর বন্টন। স্কিউ অধিকার।" এটি বেশ ভাল পরামর্শ, কারণ রূপান্তর বনাম তুলনায় খানিকটা ভাল ফিটও দেয় যা আরও বেশি প্রতিসাম্যভাবে বিতরণকৃত রেসিডুয়ালগুলির সাথে এবং মধ্যে একটি লাইন থাকে । তবে, তার প্রস্তাবিত এবং আমার লিনিয়ার কবজ উভয়ই (অপরিবর্তিত) এবং মধ্যে সম্পর্কের জন্য একটি অগ্রাধিকার ভাগ করে যা কোনও সরলরেখার দ্বারা বর্ণিত নয়।
এখানে আমার 2 ¢ 1.5। আমার কাছে সর্বাধিক বিশিষ্ট বৈশিষ্ট্যটি হ'ল ডেটা হঠাৎ করে বন্ধ হয়ে যায় এবং ওয়াইয়ের পরিসরের নীচে 'গুচ্ছ' হয়ে যায় I (সম্ভাব্য) তল প্রভাব এবং উপরের, নিম্ন-ঘনত্বের ক্লাস্টারটি কেবল এক্স এর ব্যাপ্তির অংশ জুড়েই প্রসারিত fact
যেহেতু 'ক্লাস্টারগুলি' অস্পষ্টভাবে দ্বিবিভক্ত হয় স্বাভাবিক, একটি প্যারামেট্রিক সাধারণ মিশ্রণ মডেল চেষ্টা করা আকর্ষণীয় হতে পারে। @ অ্যালেক্সিসের ডেটা ব্যবহার করে, আমি দেখতে পাচ্ছি যে তিনটি ক্লাস্টার বিআইসিকে অনুকূল করেছে। উচ্চ ঘনত্বের 'তল প্রভাব' তৃতীয় ক্লাস্টার হিসাবে বেছে নেওয়া হয়েছে। কোডটি অনুসরণ করে:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
এখন, এ থেকে আমরা কী অনুমান করব? আমি মনে করি না যে Mclust
এটি কেবল মানুষের প্যাটার্ন স্বীকৃতিটি খারাপ হয়ে গেছে। (যেখানে scatterplot আমার পঠিত ভাল হতে পারে।) অন্যদিকে, কোন প্রশ্ন যে এই হল পোস্টে-হক । আমি যা দেখেছিলাম তা একটি আকর্ষণীয় নিদর্শন হতে দেখেছি এবং তাই এটি পরীক্ষা করার সিদ্ধান্ত নিয়েছে। অ্যালগরিদম কিছু খুঁজে পায়, তবে তারপরে আমি কেবল যা অনুভব করেছি সেখানে থাকতে পারে তা পরীক্ষা করেছিলাম তাই আমার থাম্বটি অবশ্যই স্কেলে রয়েছে। কখনও কখনও এটির বিরুদ্ধে প্রশমিত করার কৌশল তৈরি করা সম্ভব হয় (@ হুইবারের চমৎকার উত্তরটি এখানে দেখুন ) তবে এ জাতীয় ক্ষেত্রে কীভাবে এই প্রক্রিয়াটি চালানো যায় সে সম্পর্কে আমার কোনও ধারণা নেই। ফলস্বরূপ, আমি প্রচুর লবণের সাথে এই ফলাফলগুলি গ্রহণ করি (আমি যথেষ্ট পরিমাণে এই ধরণের জিনিসটি প্রায়শই করেছি যে কেউ পুরো শেকার অনুপস্থিত is)। এটি পরবর্তী যখন আমরা সাক্ষাত করি তখন আমার ক্লায়েন্টের সাথে ভাবনা এবং আলোচনা করার জন্য এটি আমাকে কিছু উপাদান দেয়। এই তথ্য কি? এটি কোনও তাত্পর্যপূর্ণ প্রভাব থাকতে পারে যে কোনও ধারণা আছে? এটা কি বোঝা যাবে যে সেখানে বিভিন্ন গ্রুপ থাকতে পারে? এগুলি বাস্তব হলে কতটা অর্থবহ / অবাক করা / আকর্ষণীয় / গুরুত্বপূর্ণ হবে? স্বতন্ত্র ডেটা কি বিদ্যমান / আমরা কীভাবে তাদের এই সম্ভাবনার একটি সৎ পরীক্ষা চালানোর জন্য সুবিধাজনকভাবে পেতে পারি? প্রভৃতি
আমি যা দেখলাম তা দেখার সাথে সাথেই আমাকে বর্ণনা করুন:
যদি আমরা এর শর্তসাপেক্ষ বিতরণে আগ্রহী (যা প্রায়শই যদি আমরা আগ্রহ দেখি যেখানে আমরা হিসাবে IV এবং কে ডিভি হিসাবে দেখি ), তবে এর জন্য শর্তাধীন বিতরণ একটি উপরের গ্রুপের সাথে বিমোডাল প্রদর্শিত হবে ( প্রায় 70 এবং 125 এর মধ্যে, যার অর্থ 100 এর নিচে কিছুটা কম) এবং একটি নিম্ন গ্রুপ (0 এবং প্রায় 70 এর মধ্যে, যার গড় 30 বা তার বেশি)। প্রতিটি মডেল গ্রুপের মধ্যে, সাথে সম্পর্ক প্রায় সমতল। (নীচে লাল এবং নীল রেখাগুলি প্রায় আঁকুন দেখুন যেখানে আমি অনুমান করি যে অবস্থানের কিছুটা সংক্ষিপ্ত ধারণা)
তারপরে তে এই দুটি গোষ্ঠী কম-বেশি ঘন কোথায় তা দেখে আমরা আরও বলতে পারি:
জন্য উপরের গ্রুপ সম্পূর্ণরূপে যার ফলে সামগ্রিক গড় disappears, পড়ে এবং 0.2 সম্পর্কে নিচে, নিম্ন গ্রুপ অনেক কম উপরে চেয়ে ঘন হয়, সামগ্রিক গড় উচ্চতর করে।
এই দুটি প্রভাবের মধ্যে, এটি উভয়ের মধ্যে একটি আপাত নেতিবাচক (তবে ননলাইনার) সম্পর্ককে প্ররোচিত করে, যেহেতু বিপরীতে হ্রাস তবে কেন্দ্রের বিস্তৃত, বেশিরভাগ সমতল অঞ্চল নিয়ে। (বেগুনি রঙের ড্যাশযুক্ত রেখা দেখুন)
সন্দেহ নেই যে এবং ছিল তা জেনে রাখা গুরুত্বপূর্ণ , কারণ তখন এটি আরও স্পষ্ট হয়ে উঠতে পারে যে জন্য শর্তসাপেক্ষ বিতরণ তার পরিসরের বেশিরভাগ অংশে দ্বিপদী হতে পারে (সত্যই, এটি এমনকি স্পষ্ট হয়ে উঠতে পারে যে সত্যই দুটি গ্রুপ রয়েছে, যার মধ্যে বিতরণ মধ্যে আপাত হ্রাস সম্পর্ক প্ররোচিত ।
এটি যা আমি খাঁটি "বাই চোখ" তদন্তের ভিত্তিতে দেখেছি। একটি মৌলিক চিত্র ম্যানিপুলেশন প্রোগ্রামের মতো কিছুটা ঘুরে বেড়াতে (যেমনটি আমি রেখাগুলি আঁকলাম তার মতো) আমরা আরও কিছু সঠিক সংখ্যা বের করতে শুরু করতে পারি। আমরা যদি ডেটা ডিজিটাইজ করি (যা শালীন সরঞ্জামগুলির সাথে বেশ সহজ, যদি কখনও কখনও সঠিকভাবে পেতে কিছুটা ক্লান্তিকর হয়) তবে আমরা সেই ধরণের আরও ছাপ সম্পর্কে আরও পরিশীলিত বিশ্লেষণ করতে পারি।
এই জাতীয় অনুসন্ধান বিশ্লেষণ কিছু গুরুত্বপূর্ণ প্রশ্নে ডেকে আনতে পারে (কখনও কখনও এমন ব্যক্তি যা অবাক করে দেয় যে যার কাছে ডেটা রয়েছে তবে তারা কেবল একটি চক্রান্ত দেখিয়েছে), তবে আমাদের মডেলগুলি এই ধরণের পরিদর্শন দ্বারা যে পরিমাণে বাছাই করা হয়েছে সে সম্পর্কে আমাদের কিছুটা যত্ন নিতে হবে - যদি আমরা প্লটের উপস্থিতির ভিত্তিতে নির্বাচিত মডেলগুলি প্রয়োগ করি এবং তারপরে একই তথ্যগুলিতে সেই মডেলগুলি অনুমান করি, আমরা যখন একই উপাত্তে আরও আনুষ্ঠানিক মডেল-নির্বাচন এবং অনুমান ব্যবহার করি তখন আমরা যে একই সমস্যার মুখোমুখি হই। [এটি অনুসন্ধানের বিশ্লেষণের গুরুত্বকে মোটেও অস্বীকার করার মতো নয় - এটি কীভাবে হয় তা বিবেচনা না করেই এটি করার পরিণতি সম্পর্কে আমাদের অবশ্যই সতর্ক হওয়া উচিত । ]
রাশ এর মন্তব্যের প্রতিক্রিয়া:
[পরে সম্পাদনা করুন: স্পষ্ট করার জন্য - আমি সাধারণ সতর্কতা হিসাবে নেওয়া রাশিয়ার সমালোচনাগুলির সাথে আমি বিস্তৃতভাবে একমত হই এবং অবশ্যই সেখানে থাকার চেয়ে আরও কিছু সম্ভাবনা আমি দেখেছি। আমি ফিরে আসার এবং এগুলি সম্পাদন করার পরিকল্পনা করছি, যা আমরা সাধারণত চোখের দ্বারা চিহ্নিত করি এবং উপায়গুলি যেগুলির থেকে খারাপটি এড়াতে শুরু করতে পারি সেগুলি সম্পর্কে আরও বিস্তৃত ভাষ্য হিসাবে। আমি বিশ্বাস করি যে আমি কেন এই নির্দিষ্ট ক্ষেত্রে এটি সম্ভবত উত্সাহী নয় বলে উদাহরণস্বরূপ কিছু যুক্তি যুক্ত করতে সক্ষম হব (উদাহরণস্বরূপ, একটি রেজিস্ট্রগ্রাম বা 0-অর্ডার কার্নেলের মাধ্যমে মসৃণ, যদিও অবশ্যই এর বিরুদ্ধে পরীক্ষা করার জন্য আরও ডেটা অনুপস্থিত রয়েছে) এতদূর যেতে পারে; উদাহরণস্বরূপ, যদি আমাদের নমুনাটি উপস্থাপনযোগ্য না হয়, এমনকি পুনর্নির্মাণটি কেবল আমাদের এ পর্যন্ত পেয়ে যায়]]
আমি সম্পূর্ণরূপে সম্মত হই যে আমাদের মধ্যে উত্সাহী নিদর্শনগুলি দেখার প্রবণতা রয়েছে; এটি আমি এখানে এবং অন্য কোথাও ঘন ঘন একটি বিন্দু।
একটি জিনিস আমি প্রস্তাব দিচ্ছি, উদাহরণস্বরূপ, যখন অবশিষ্ট প্লট বা কিউকিউ প্লটগুলি দেখার সময় পরিস্থিতি জানা যায় এমন অনেক প্লট তৈরি করা হয় (উভয় জিনিস যেমন হওয়া উচিত এবং যেখানে অনুমানগুলি রাখা হয় না) কতটা প্যাটার্ন হওয়া উচিত তা পরিষ্কার ধারণা পেতে উপেক্ষা করেছেন।
প্লটটি কতটা অস্বাভাবিক তা দেখার জন্য আমাদের এখানে 24 জনকে (যা অনুমানগুলি পূরণ করে) এর মধ্যে একটি কিউকিউ প্লট স্থাপন করা হয়েছে তার একটি উদাহরণ রয়েছে। এই জাতীয় অনুশীলনটি গুরুত্বপূর্ণ কারণ এটি আমাদের প্রতিটি ছোট্ট উইগলকে ব্যাখ্যা করে নিজেকে বোকা বানাতে সহায়তা করে, যার বেশিরভাগই সরল শব্দ হবে।
আমি প্রায়শই উল্লেখ করি যে আপনি কয়েকটি পয়েন্ট coveringেকে রেখে যদি কোনও ছাপ পরিবর্তন করতে পারেন তবে আমরা শব্দাবলম্বন ছাড়া আর কিছু দ্বারা প্রকাশিত ছাপের উপর নির্ভর করতে পারি।
[তবে, যখন এটি কয়েকটির চেয়ে অনেকগুলি বিষয় থেকে স্পষ্ট হয়, এটি সেখানে নেই তা বজায় রাখা শক্ত hard]
Whuber এর উত্তরে প্রদর্শন আমার ছাপ সমর্থন করে, গসিয়ান দাগ কাহিনিসূত্রেও bimodality একই প্রবণতা কুড়ান বলে মনে হয় ।
যখন আমাদের কাছে যাচাই করার জন্য আরও ডেটা নেই, আমরা কমপক্ষে তা দেখতে পারি যে ইমপ্রেশনটি পুনরায় মডেলিংয়ের মাধ্যমে বাঁচতে পারে (বাইভারিয়েট বন্টন বুটস্ট্র্যাপ করুন এবং এটি প্রায় সর্বদা উপস্থিত রয়েছে কিনা তা দেখুন), বা অন্যান্য ম্যানিপুলেশন যেখানে ছাপটি স্পষ্ট হওয়া উচিত নয় should যদি এটি সহজ শব্দ হয়।
1) এখানে দেখার জন্য একটি উপায় যা আপাত দ্বিখণ্ডিততা কেবল স্কিউনেস প্লাস শোরগোলের চেয়ে বেশি কিনা - এটি কি কার্নেলের ঘনত্বের প্রাক্কলনটিতে প্রদর্শিত হয়? যদি আমরা বিভিন্ন রূপান্তরের অধীনে কার্নেল ঘনত্বের অনুমানের প্লট করি তবে এটি এখনও দৃশ্যমান? এখানে আমি এটি ডিফল্ট ব্যান্ডউইথের 85% এ বৃহত্তর প্রতিসাম্যের দিকে রূপান্তর করি (যেহেতু আমরা তুলনামূলকভাবে ছোট মোডটি সনাক্ত করার চেষ্টা করছি, এবং ডিফল্ট ব্যান্ডউইথটি সেই কাজের জন্য অনুকূল নয়):
প্লটগুলি , এবং । উল্লম্ব লাইনগুলি , এবং । দ্বিগুণতা হ্রাস পেয়েছে, তবে এখনও বেশ দৃশ্যমান। যেহেতু এটি মূল কে-ডি-তে খুব স্পষ্ট বলে মনে হচ্ছে এটি সেখানে রয়েছে - এবং দ্বিতীয় এবং তৃতীয় প্লটগুলি এর রূপান্তরকে কমপক্ষে কিছুটা শক্তিশালী করার পরামর্শ দেয়।
2) এটি দেখার জন্য আরও একটি মৌলিক উপায় এখানে কেবল "গোলমাল" এর চেয়ে বেশি নয় কি:
পদক্ষেপ 1: Y তে ক্লাস্টারিং করুন
দ্বিতীয় ধাপ: তে দুটি গ্রুপে বিভক্ত করুন এবং দুটি গ্রুপকে আলাদাভাবে ক্লাস্টার করুন এবং দেখুন এটি বেশ একই রকম কিনা। দুটি অংশে যদি কিছু না ঘটে থাকে তবে এতটা ভাগ করে নেওয়া আশা করা উচিত নয়।
পূর্বের প্লটটিতে বিন্দুগুলির সাথে পয়েন্টগুলি "সমস্ত এক সেট" ক্লাস্টার থেকে আলাদাভাবে ক্লাস্টার করা হয়েছিল। আমি আরও কিছু পরে করব, তবে মনে হচ্ছে সম্ভবত সম্ভবত এই অবস্থানের কাছে একটি অনুভূমিক "বিভাজন" থাকতে পারে।
আমি একটি রেজিস্ট্রোগ্রাম বা নাদারায়া-ওয়াটসন অনুমানকারী চেষ্টা করতে যাচ্ছি (উভয়ই রিগ্রেশন ফাংশনের স্থানীয় অনুমান, )। আমি এখনও তৈরি করি নি তবে তারা কীভাবে চলে যায় আমরা তা দেখতে পাব। আমি সম্ভবত খুব অল্প জায়গায় বাদ দিতে চাই যেখানে খুব কম ডেটা আছে।
3) সম্পাদনা করুন: 0.1 প্রস্থের বিনয়ের জন্য এখানে রেজিস্ট্রোগ্রামটি দেওয়া হয়েছে (আমি আগেই বলেছি এমন প্রান্তটি বাদে):
এটি সম্পূর্ণরূপে আমার মূল চক্রান্তটির সাথে সামঞ্জস্যপূর্ণ; এটি প্রমাণ করে না যে আমার যুক্তি সঠিক ছিল, তবে আমার সিদ্ধান্তগুলি একই ফলাফলে পৌঁছেছিল যা রেজিস্ট্রোগ্রামে করে।
আমি প্লটে যা দেখেছি - এবং ফলাফলটি যুক্তিগুলি উত্সাহিত হয়েছিল, সম্ভবত আমার বোঝার পক্ষে সফল হওয়া উচিত ছিল না ।
(পরবর্তী চেষ্টা করার চেষ্টাটি একটি নাদায়রা-ওয়াটসন অনুমানক হবে Then তাহলে আমি দেখতে পাচ্ছি কীভাবে সময় পেলে এটি পুনর্নির্মাণের অধীনে চলে যায়))
4) পরে সম্পাদনা করুন:
নাদেরিয়া-ওয়াটসন, গাউসিয়ান কার্নেল, ব্যান্ডউইথ 0.15:
আবার এটি আমার প্রাথমিক ছাপের সাথে আশ্চর্যজনকভাবে সামঞ্জস্যপূর্ণ। দশটি বুটস্ট্র্যাপের প্রতিকারের ভিত্তিতে এনডাব্লু এর অনুমানকারী এখানে রয়েছে:
বিস্তৃত প্যাটার্নটি রয়েছে, যদিও বেশ কয়েকটি রেজোলিউস পুরো ডেটার উপর ভিত্তি করে বর্ণনাকে পরিষ্কারভাবে অনুসরণ করে না। আমরা দেখতে পাই যে বামের স্তরের ক্ষেত্রে ডানদিকের চেয়ে কম সুনিশ্চিত - শব্দের মাত্রা (কিছুটা পর্যবেক্ষণ থেকে, আংশিকভাবে প্রশস্ত ছড়িয়ে পড়া) এমন যে এমনটি দাবি করা কম সহজ যেটি সত্যিকার অর্থে উচ্চতর কেন্দ্রের চেয়ে বাম
আমার সামগ্রিক ধারণাটি হ'ল আমি সম্ভবত নিজেকে বোকা বানাচ্ছিলাম না, কারণ বিভিন্ন দিক বিভিন্ন ধরণের চ্যালেঞ্জ (স্মুথিং, রূপান্তরকরণ, উপগোষ্ঠীতে বিভক্ত হওয়া, পুনরায় মডেলিং) -এর জন্য পরিমিতভাবে দাঁড়ায় যা যদি তারা কেবল শব্দ করে তবে তাদের অস্পষ্ট করে তোলে। অন্যদিকে, ইঙ্গিতগুলি হ'ল প্রভাবগুলি আমার প্রাথমিক ছাপের সাথে সুস্পষ্টভাবে সামঞ্জস্যপূর্ণ হলেও তুলনামূলকভাবে দুর্বল এবং বাম দিক থেকে কেন্দ্রের দিকে প্রত্যাশায় যে কোনও বাস্তব পরিবর্তন দাবি করা খুব বেশি হতে পারে।
ঠিক আছে ভাবেন, আমি অ্যালেক্সিসের নেতৃত্ব অনুসরণ করে ডেটা ক্যাপচার করেছি। এখানে বনাম এর একটি প্লট রয়েছে ।
এবং পারস্পরিক সম্পর্ক:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
পারস্পরিক সম্পর্ক পরীক্ষা সম্ভবত নেতিবাচক নির্ভরতা নির্দেশ করে। আমি যে কোনও দ্বিধাহীনতা সম্পর্কে অবিস্মৃত রয়েছি (তবে এটি অনুপস্থিত যে স্বীকৃতও নয়)।
[আমি পূর্ববর্তী সংস্করণে থাকা একটি অবশিষ্ট প্লটটি সরিয়ে দিয়েছি কারণ @ ভুবার পূর্বাভাস দেওয়ার চেষ্টা করছিল এমন বিষয়টিকে আমি উপেক্ষা করেছি ।]
রাশ লেন্থ ভেবেছিলেন যে ওয়াই অক্ষগুলি লোগারিটিমিক হলে গ্রাফটি কেমন দেখায়। অ্যালেক্সিস ডেটা স্ক্র্যাপ করেছে, সুতরাং লগ অক্ষের সাহায্যে প্লট করা সহজ:
লগ স্কেলে, বিমোডালিটি বা ট্রেন্ডের কোনও ইঙ্গিত নেই। লগ স্কেলটি বোঝায় কি না তা অবশ্যই নির্ভর করে, ডেটা কী উপস্থাপন করে তার বিবরণে। তেমনি, এই ধারণাটি বুদ্ধিমান হয় কি না যে ডেটা দুটি জনসংখ্যা থেকে নমুনা উপস্থাপন করে যেমন হুবুহু প্রস্তাব দেয় তার উপর নির্ভর করে বিশদ।
সংযোজন: নীচের মন্তব্যের ভিত্তিতে, এখানে একটি সংশোধিত সংস্করণ দেওয়া হয়েছে:
ঠিক আছে, আপনি ঠিক বলেছেন, সম্পর্ক দুর্বল, তবে শূন্য নয়। আমি ইতিবাচক অনুমান করব। তবে, অনুমান করবেন না, কেবল একটি সাধারণ লিনিয়ার রিগ্রেশন (ওএলএস রিগ্রেশন) চালান এবং এটি সন্ধান করুন! সেখানে আপনি এক্সএক্সএক্সের একটি opeাল পাবেন যা আপনাকে কী সম্পর্ক বলে tells এবং হ্যাঁ, আপনার কাছে এমন বিদেশী রয়েছে যা ফলাফলকে পক্ষপাতদুষ্ট করতে পারে। যে মোকাবেলা করা যেতে পারে। সম্পর্কের উপর বহিরাগতদের প্রভাব সম্পর্কে অনুমান করতে আপনি কুকের দূরত্ব ব্যবহার করতে পারেন বা কোনও লাভের প্লট তৈরি করতে পারেন।
শুভকামনা
আপনি ইতিমধ্যে আপনার এক্স / ওয়াই ডেটা পয়েন্টগুলির ওরিয়েন্টেশন এবং তাদের বিস্তারের দিকে লক্ষ্য রেখে আপনার প্রশ্নের কিছুটা অন্তর্দৃষ্টি দিয়েছিলেন। সংক্ষেপে আপনি সঠিক।
আনুষ্ঠানিক পদ অভিযোজন হিসাবে উল্লেখ করা যেতে পারে পারস্পরিক সম্পর্ক চিহ্ন এবং বিচ্ছুরণ ভ্যারিয়েন্স । এই দুটি লিঙ্ক দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের ব্যাখ্যা কীভাবে আপনাকে আরও তথ্য দেবে ।
এটি একটি বাড়ির কাজ। সুতরাং, আপনার প্রশ্নের উত্তর সহজ। X এ Y এর লিনিয়ার রিগ্রেশন চালান, আপনি এই জাতীয় কিছু পাবেন:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
সুতরাং, টি-পরিসংখ্যানগুলি 99% আত্মবিশ্বাসে এক্স ভেরিয়েবলের উপর তাৎপর্যপূর্ণ। অতএব, আপনি কোনও ধরণের সম্পর্ক থাকার কারণে ভেরিয়েবলগুলি ঘোষণা করতে পারেন।
এটা কি লিনিয়ার? একটি ভেরিয়েবল এক্স 2 = (এক্স-গড় (এক্স)) ^ 2 যোগ করুন এবং আবার প্রতিক্রিয়া করুন।
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
এক্স এর সহগ এখনও তাত্পর্যপূর্ণ, তবে এক্স 2 এটি নয়। এক্স 2 আনলাইনারিটির প্রতিনিধিত্ব করে। সুতরাং, আপনি ঘোষণা করেন যে তেহ সম্পর্কটি রৈখিক বলে মনে হয়।
উপরেরটি একটি বাড়ির কাজের জন্য ছিল।
বাস্তব জীবনে জিনিসগুলি আরও জটিল হয়। ভাবুন, এটি ছিল এক শ্রেণির শিক্ষার্থীদের ডেটা। পাউন্ডে ওয়াই - বেঞ্চ প্রেস, এক্স - বেঞ্চ প্রেসের আগে নিজের শ্বাস ধরে রাখার কয়েক মিনিটের সময়। আমি ছাত্রদের লিঙ্গ জিজ্ঞাসা করব। কেবল এটির মজাদার জন্য, এর জন্য আরও একটি পরিবর্তনশীল যুক্ত করুন, জেড, এবং যাক যে <= 1 (বালিকা) সমস্ত Y <60 এর জন্য এবং জেড = 0 (ছেলে) যখন ওয়াই> = 60 হয়। তিনটি ভেরিয়েবল দিয়ে রিগ্রেশন চালান:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
কি হলো?! এক্স এবং ওয়াইয়ের মধ্যে "সম্পর্ক" অদৃশ্য হয়ে গেছে! ওহ, মনে হচ্ছে বিভ্রান্তিকর পরিবর্তনশীল , লিঙ্গের কারণে সম্পর্কটি উত্সাহিত হয়েছিল ।
গল্পের নৈতিকতা কী? "সম্পর্ক" "ব্যাখ্যা" করার জন্য, এমনকি এটি প্রথম স্থানে প্রতিষ্ঠিত করার জন্য আপনার কী ডেটা আছে তা জানতে হবে। এই ক্ষেত্রে, আমি যে মুহুর্তে বলছি যে শিক্ষার্থীদের শারীরিক ক্রিয়াকলাপের ডেটা, আমি তাত্ক্ষণিকভাবে তাদের লিঙ্গ জিজ্ঞাসা করব এবং লিঙ্গ পরিবর্তনশীল না পেয়ে ডেটা বিশ্লেষণ করতেও বিরক্ত করব না।
অন্যদিকে, যদি আপনাকে স্ক্যাটার প্লটটি "বর্ণনা" করতে বলা হয়, তবে কিছু যায়। সম্পর্কিত, লিনিয়ার ফিট ইত্যাদি আপনার বাড়ির কাজের জন্য উপরের দুটি ধাপ পর্যাপ্ত হওয়া উচিত: এক্স (সম্পর্ক) এর গুণফল দেখুন, তারপরে এক্স ^ 2 (লিনিয়ারিটি)। আপনি এক্স ভেরিয়েবলটিকে ডি-মেনড করে তা নিশ্চিত করুন (গড়টি বিয়োগ)।