এই চক্রান্তে এবং মধ্যে সম্পর্ক কী ?


38

নীচের চক্রান্তে এবং মধ্যে সম্পর্ক কী ? আমার দৃষ্টিতে নেতিবাচক লিনিয়ার সম্পর্ক রয়েছে, তবে আমাদের প্রচুর বিদেশী হওয়ার কারণে সম্পর্কটি খুব দুর্বল। আমি কি সঠিক? আমি শিখতে চাই কীভাবে আমরা স্ক্যাটারপ্লটগুলি ব্যাখ্যা করতে পারি। এক্সYX

এখানে চিত্র বর্ণনা লিখুন


3
কি ? কি ? আপনি কোন প্রক্রিয়াটি বিদেশী উত্পাদন করেছেন? আপনি কী ভাবছেন যে সেগুলি প্রকৃত পরিমাপ নয়? তত্ত্বটি কী? ওয়াইXY
Abaumann

4
আপনার মন্তব্যের জন্য ধন্যবাদ. আমি এই প্লটটি কেবল একটি বইয়ে দেখছি। Y নির্ভরশীল পরিবর্তনশীল এবং এক্স স্বতন্ত্র পরিবর্তনশীল। কোন তত্ত্ব নেই। এটি ওয়াই প্রদত্ত x এর সম্পর্কটি দেখানোর জন্য একটি স্ক্র্যাপপ্লট ষড়যন্ত্র করেছিল। এবং বইটিতে একটি প্রশ্ন রয়েছে যা জিজ্ঞাসা করে যে কোনও সম্পর্ক আছে কিনা, লিনিয়ার না ননলাইনার? শক্ত নাকি দুর্বল?
পিএসএস

7
এটি তাসোগ্রাফির একটি অনুশীলন । এটি দিনের ব্যবসায়ীদের মধ্যে খুব জনপ্রিয়, এবং তারা একে প্রযুক্তিগত বিশ্লেষণ বলে । মূলত, ডেটাগুলির প্রকৃতি সম্পর্কে কিছু না জেনে এটি একটি ফলহীন অনুশীলন
আকসাকাল

1
@ সিএলএইচএল আপনি হুবুহু দিয়ে কোনও অনুদানের জন্য দান করার জন্য রক করেন
ক্যাম.ড্যাভিডসন।পিলন

3
@ আকসাল পরিসংখ্যানগত ভাষা সাধারণত "সম্পর্ক" বরং আক্ষরিকভাবে বোঝে: সংখ্যার দ্বিগুণগুলির সেট হিসাবে বর্ণনা করে। উদাহরণস্বরূপ, একটি সম্পর্কের সহগ একটি সম্পর্কের বর্ণনা দেয়। অন্তর্নিহিত ভেরিয়েবলগুলির মধ্যে জেনেসিস, প্রকৃতি বা কার্যকারণ সংক্রান্ত কোনও সম্পর্ক সম্পর্কে কোনও জড়িত ধারণা নেই। আমি আপনার সাথে একমত যে "ব্যাখ্যা" সাধারণত এত গভীর অর্থে বোঝা যায়, তবে সম্পর্কের ক্ষেত্রে প্রশ্নটিতে এতটা জোর দেওয়া হয় বলে আমি মনে করি এটি "ব্যাখ্যা" এর আক্ষরিক অর্থকে খুব দূরে ঠেলে না দেওয়া কেবলমাত্র ন্যায়সঙ্গত বলে মনে করি। আইএমএইচও, স্ক্র্যাটারপ্লোটগুলি বর্ণনা করা কেবল চা-পাতাগুলি পড়ার কথা বলে।
হোবার

উত্তর:


50

প্রশ্নটি বেশ কয়েকটি ধারণার সাথে সম্পর্কিত: কেবলমাত্র একটি স্ক্যাটারপ্লট আকারে প্রদত্ত ডেটা কীভাবে মূল্যায়ন করা যায়, কীভাবে একটি স্ক্র্যাটারপ্লোটের সংক্ষিপ্তসার করা যায় এবং (এবং কোন ডিগ্রিতে) একটি সম্পর্ক লিনিয়ার দেখায়। তাদের যথাযথভাবে নেওয়া যাক।

গ্রাফিকাল ডেটা মূল্যায়ন

অনুসন্ধানের ডেটা বিশ্লেষণের নীতিগুলি ব্যবহার করুন (ইডিএ)। এগুলি (অন্ততপক্ষে মূলত, যখন তারা পেন্সিল এবং কাগজ ব্যবহারের জন্য তৈরি হয়েছিল) সাধারণ, সহজেই গণনা, ডেটার শক্তিশালী সংক্ষিপ্তসারগুলিকে জোর দেয়। খুব সাধারণ ধরণের সংক্ষিপ্তসারগুলির মধ্যে একটি সংখ্যার সংস্থার মধ্যে অবস্থানের উপর নির্ভর করে যেমন মধ্যম মান, যা একটি "সাধারণ" মান বর্ণনা করে। মিডলগুলি গ্রাফিক্স থেকে নির্ভরযোগ্যভাবে অনুমান করা সহজ।

স্ক্যাটারপ্লটগুলি সংখ্যার জোড়া প্রদর্শন করে। প্রতিটি জোড়ার প্রথমটি (অনুভূমিক অক্ষের উপরে প্লট করা হিসাবে) একক সংখ্যার একটি সেট দেয়, যা আমরা আলাদাভাবে সংক্ষেপে বলতে পারি।

এই বিশেষ স্ক্যাটারপ্লোতে, y- মানগুলি দুটি সম্পূর্ণ পৃথক পৃথক দলের মধ্যে উপস্থিত থাকে : শীর্ষে উপরে মান এবং নীচে সমান বা তার চেয়ে কম মান । (এই ছাপটি ওয়াই-মানগুলির একটি হিস্টগ্রাম আঁকার মাধ্যমে নিশ্চিত করা হয়েছে, যা তীব্রভাবে বিমোডাল, তবে এটি এই পর্যায়ে অনেক বেশি কাজ হবে)) আমি সংশয়ীদেরকে স্ক্যাটারপ্লোতে স্কুইন্টে নিমন্ত্রণ করি। যখন আমি করি - স্ক্যাটারপ্লোটের বিন্দুগুলির বৃহত ব্যাসার্ধ ব্যবহার করে গামা-সংশোধিত গাউসিয়ান ব্লার (এটি একটি স্ট্যান্ডার্ড দ্রুত ইমেজ প্রসেসিং ফলাফল) আমি দেখতে পাচ্ছি:606060

চিত্র 0

উপরের এবং নিম্ন - দুটি গ্রুপটি বেশ প্রকট। (উপরের দলটি নীচের চেয়ে অনেক হালকা কারণ এটিতে অনেক কম ডট রয়েছে))

তদনুসারে, আসুন y-মানগুলির গ্রুপগুলি আলাদাভাবে সংক্ষিপ্ত করে দেখি। আমি দুটি গ্রুপের মধ্যমরে আনুভূমিক রেখাগুলি আঁকতে এটি করব। ডেটাটির ছাপের উপর জোর দেওয়ার জন্য এবং আমরা কোনও ধরণের গণনা করছি না তা দেখানোর জন্য, আমি (ক) অক্ষ এবং গ্রিডলাইনগুলির মতো সমস্ত সজ্জা মুছে ফেলেছি এবং (খ) পয়েন্টগুলি অস্পষ্ট করেছি। উপাত্তের নিদর্শন সম্পর্কে অল্প তথ্য গ্রাফিকটিতে "স্কুইন্টিং" দ্বারা হারিয়ে যায়:

ব্যক্তিত্ব

একইভাবে, আমি উল্লম্ব রেখাংশগুলি সহ x- মানগুলির মধ্যস্থদের চিহ্নিত করার চেষ্টা করেছি। উপরের গ্রুপে (লাল রেখাগুলি) আপনি পরীক্ষা করতে পারেন - ব্লবগুলি গণনা করে - যে এই রেখাগুলি দলটিকে দুটি অনুভূমিক এবং উল্লম্বভাবে দুটি সমান অংশে পৃথক করে। নীচের গ্রুপে (নীল লাইন) আমি কেবল দৃশ্যমানভাবে কোনও গণনা না করেই অবস্থানগুলির অনুমান করেছি।

সম্পর্কের মূল্যায়ন: রিগ্রেশন

ছেদ বিন্দু দুটি গ্রুপের কেন্দ্র। এক্স এবং ওয়াইয়ের মানগুলির মধ্যে সম্পর্কের একটি দুর্দান্ত সারসংক্ষেপ হ'ল এই কেন্দ্রীয় অবস্থানগুলি প্রতিবেদন করা। তারপরে কেউ তার কেন্দ্রের চারপাশে - বাম এবং ডানদিকে, উপরে এবং নীচে - প্রতিটি গ্রুপে কতটা ডেটা ছড়িয়েছে তার একটি বিবরণ দিয়ে এই সংক্ষিপ্তসারটিকে পরিপূরক করতে চাইবে। বংশবৃদ্ধির জন্য, আমি এখানে এটি করব না তবে নোট করুন (মোটামুটিভাবে) আমি আঁকা লাইন বিভাগগুলির দৈর্ঘ্য প্রতিটি গ্রুপের সামগ্রিক স্প্রেডকে প্রতিবিম্বিত করে।

অবশেষে, আমি দুটি কেন্দ্রকে সংযুক্ত করে একটি (ড্যাশড) লাইন আঁকলাম। এটি একটি যুক্তিসঙ্গত রিগ্রেশন লাইন। এটি কি ডেটাটির একটি ভাল বর্ণনা? অবশ্যই না: দেখুন কীভাবে এই লাইনের চারপাশে ডেটা ছড়িয়ে আছে। এটি কি লিনিয়ারির প্রমাণ? এটি খুব কমই প্রাসঙ্গিক কারণ লিনিয়ার বিবরণ এতটা দুর্বল। তবুও, কারণ এটি আমাদের সামনে প্রশ্ন, আসুন এটি সম্বোধন করুন।

রৈখিকতা মূল্যায়ন

একটি সম্পর্ক একটি পরিসংখ্যানগত অর্থে লিনিয়ার হয় যখন y এর মানগুলি একটি লাইনের চারপাশে ভারসাম্য র্যান্ডম ফ্যাশনে পরিবর্তিত হয় বা x মানগুলি একটি লাইনের (বা উভয়) চারপাশে ভারসাম্য র্যান্ডম ফ্যাশনে পরিবর্তিত হয়।

প্রাক্তনটি এখানে উপস্থিত হিসাবে উপস্থিত হবে না: কারণ y মান দুটি গ্রুপে পড়ে বলে মনে হয় , লাইনটির উপরে বা নীচে প্রায় প্রতিসাম্যিকভাবে বিতরণ করা অর্থে তাদের প্রকরণটি কখনই ভারসাম্যপূর্ণ হবে না। (এটি তাত্ক্ষণিকভাবে একটি লিনিয়ার রিগ্রেশন প্যাকেজে ডেটা ফেলে দেওয়ার এবং x এর বিপরীতে কমপক্ষে y স্কোয়ার ফিট করার সম্ভাবনাটি বাতিল করে দেয়: উত্তরগুলি প্রাসঙ্গিক হবে না))

এক্স এর প্রকরণ সম্পর্কে কি? এটি আরও প্রশংসনীয়: প্লটের প্রতিটি উচ্চতায় বিন্দুযুক্ত রেখার চারপাশে পয়েন্টগুলির অনুভূমিক বিস্তৃতি বেশ ভারসাম্যপূর্ণ। বিস্তার এই ছিটান কম উচ্চতায় একটি সামান্য বিট আরো বড় (কম Y মান) মনে করা হয়, কিন্তু হয়তো এটা এ কারণে যে আরো অনেক পয়েন্ট আছে আছে। (আপনার কাছে যত বেশি এলোমেলো তথ্য রয়েছে, তাদের চূড়ান্ত মানগুলি আরও বিস্তৃত হবে))

তদুপরি, আমরা উপর থেকে নীচে স্ক্যান করার সময়, এমন কোনও স্থান নেই যেখানে রিগ্রেশন লাইনের চারপাশে অনুভূমিক বিচ্ছুরক দৃ strongly়ভাবে ভারসাম্যহীন নয়: এটি লৈখিক-অখণ্ডতার প্রমাণ হবে। (ঠিক আছে, y = 50 এর কাছাকাছি বা তাই অনেক বেশি বড় x মান থাকতে পারে y y = 60 মানের কাছাকাছি দুটি গ্রুপে ডেটা ভাঙ্গার জন্য এই সূক্ষ্ম প্রভাবটি আরও প্রমাণ হিসাবে গ্রহণ করা যেতে পারে))

উপসংহার

আমরা এটা দেখেছি

  • এক্সকে y এর লিনিয়ার ফাংশন হিসাবে কিছু "চমৎকার" এলোমেলো পরিবর্তনের হিসাবে দেখতে অনুভূত হয়।

  • এক্সকে প্লাস এলোমেলো পরিবর্তনের লিনিয়ার ফাংশন হিসাবে y দেখার পক্ষে কোন মানে হয় না

  • একটি রিগ্রেশন রেখাটি উচ্চ y এর মানগুলির একটি গ্রুপ এবং নিম্ন y মানগুলির একটি গ্রুপের মধ্যে ডেটা পৃথক করে মধ্যমা ব্যবহার করে উভয় দলের কেন্দ্রগুলি সন্ধান করে এবং সেই কেন্দ্রগুলি সংযুক্ত করে অনুমান করা যায়।

  • ফলস্বরূপ রেখার একটি নিম্নগামী opeাল রয়েছে, এটি একটি নেতিবাচক লিনিয়ার সম্পর্ক নির্দেশ করে ।

  • রৈখিকতা থেকে কোন শক্তিশালী প্রস্থান আছে।

  • তবুও, লাইনটির চারপাশে এক্স-মানগুলির প্রসারগুলি এখনও বড় (শুরু হওয়া এক্স-মানগুলির সামগ্রিক প্রসারের তুলনায়), আমাদের এই নেতিবাচক লিনিয়ার সম্পর্কটিকে "খুব দুর্বল" হিসাবে চিহ্নিত করতে হবে।

  • দুটি ডিম্বাকৃতি আকারের মেঘ গঠনের হিসাবে ডেটা বর্ণনা করা আরও কার্যকর হতে পারে (একটি হ'ল 60 এর উপরে এবং অন্যটি y এর নিম্ন মানের জন্য)। প্রতিটি মেঘের মধ্যে x এবং y এর মধ্যে সামান্য সনাক্তকরণযোগ্য সম্পর্ক রয়েছে। মেঘগুলির কেন্দ্রগুলি (0.29, 90) এবং (0.38, 30) এর কাছাকাছি। মেঘের তুলনাযোগ্য স্প্রেড রয়েছে, তবে উপরের মেঘের নীচের অংশের চেয়ে অনেক কম তথ্য রয়েছে (সম্ভবত 20% বেশি)।

এর মধ্যে দুটি সিদ্ধান্তই প্রশ্নটিতে তৈরি হওয়াগুলিকেই নিশ্চিত করে যে একটি দুর্বল নেতিবাচক সম্পর্ক রয়েছে। অন্যরা এই সিদ্ধান্তে পরিপূরক ও সমর্থন করে।

এমন প্রশ্নে টানা একটি সিদ্ধান্ত যা মনে হচ্ছে না যে হ'ল "বিদেশী" li আরও সতর্কতার সাথে পরীক্ষা (নীচের স্কেচ হিসাবে) কোনও পৃথক পয়েন্ট বা পয়েন্টের এমনকি ছোট গ্রুপগুলি চালু করতে ব্যর্থ হবে, যা বৈধভাবে বহিরাগত হিসাবে বিবেচিত হতে পারে। পর্যাপ্ত দীর্ঘ বিশ্লেষণের পরে, কারও দৃষ্টি আকর্ষণ করা যেতে পারে মাঝের ডানটির নিকটে দুটি পয়েন্ট বা নীচের বাম কোণে অবস্থিত একটি বিন্দুর দিকে আকৃষ্ট হতে পারে, তবে এগুলি বিবেচনা করা হয় বা না হয়, তথ্যের মূল্যায়নের খুব একটা পরিবর্তন করতে পারে না পার্শ্ববর্তী।


আরও দিকনির্দেশ

আরও অনেক কিছু বলা যেতে পারে। পরবর্তী পদক্ষেপগুলি সেই মেঘগুলির বিস্তারকে মূল্যায়ন করা হবে। দুটি মেঘের প্রত্যেকটির মধ্যে x এবং y এর সম্পর্কের আলাদা আলাদাভাবে মূল্যায়ন করা যেতে পারে, এখানে দেখানো একই কৌশলগুলি ব্যবহার করে। নিম্ন মেঘের সামান্য অসমত্ব (আরও ডেটা ক্ষুদ্রতম y মানগুলিতে প্রদর্শিত হবে বলে মনে হয়) y মানগুলি পুনরায় প্রকাশের মাধ্যমে মূল্যায়ন এবং এমনকি সামঞ্জস্য করা যেতে পারে (একটি বর্গমূল ভাল কাজ করতে পারে)। এই পর্যায়ে এটি বাহ্যিক ডেটা সন্ধান করা বোধগম্য হবে, কারণ এই মুহুর্তে বর্ণনায় সাধারণ ডেটা মানগুলির পাশাপাশি তাদের স্প্রেড সম্পর্কিত তথ্য অন্তর্ভুক্ত থাকবে; বহিরাগতরা (সংজ্ঞায়িতভাবে) প্রচারের পরিলক্ষিত পরিমাণের দিক থেকে ব্যাখ্যা করা মাঝখানে থেকে খুব দূরে থাকবে।

এই কাজের কোনওটিই - যা যথেষ্ট পরিমাণগত - তথ্যের গোষ্ঠীগুলির মাঝের গুলির সন্ধান এবং তাদের সাথে কিছু সাধারণ গণনা করার চেয়ে অনেক বেশি প্রয়োজন এবং তাই কেবলমাত্র গ্রাফিকাল আকারে ডেটা উপলব্ধ থাকলেও দ্রুত এবং নির্ভুলভাবে সম্পন্ন করা যায়। পরিমাণগত মান সহ - এখানে প্রতিবেদন করা প্রতিটি ফলাফল খুব সহজেই একটি ডিসপ্লে সিস্টেম (যেমন হার্ডকপি এবং একটি পেন্সিল :-)) ব্যবহার করে কয়েক সেকেন্ডের মধ্যে খুঁজে পাওয়া যেত যা গ্রাফিকের শীর্ষে হালকা চিহ্ন তৈরি করার অনুমতি দেয়।


4
কি দারুন. আমি কখনই এই দুটি গ্রুপ এবং ফলাফল লাইনটি দেখতে পেতাম না। এবং আমি এটি প্রশ্ন।
rvl

4
@ রস আমি শুনে শুনে খুব খুশি যে কেউ এই অনুসন্ধানকে প্রশ্নবিদ্ধ করেছে, কারণ কোনও ইডিএ অনন্য বা বিতর্কিত নয়। আমি যা দেখি তা দেখার জন্য আমি অন্য চিত্র অন্তর্ভুক্ত করেছি। আমি আপনাকে এমন একটি উত্তর পোস্ট করতে আমন্ত্রণ জানাতে চাই যা সমান বা আরও পার্সোনমিয়াস এবং কার্যকরভাবে বর্ণনামূলক।
whuber

12
মানুষ হিসাবে আমরা প্যাটার্নগুলি খুঁজে পেতে অসাধারণ ঝোঁক, এমনকি এমনগুলিও নেই। আমি মনে করি আমাদের এখানে কেবল দুটি স্বতন্ত্র আরভি রয়েছে, যার মধ্যে একটিতে স্কেওয়ের মতো একটি বিক্ষিপ্ত প্লট অর্জন করা যথেষ্ট প্রশংসনীয়। আমার কাছে এর কোনও প্রমাণ নেই, এবং আমার কাছে প্রস্তাব দেওয়ার বিকল্প বিকল্প নেই - অন্যটি বলছেন যে সম্পর্ক খুব কম বা কোনও নেই। হ্যাঁ, দ্বিতোপযোগীতা উপস্থিত থাকতে পারে। প্রক্রিয়াটি যদি আরও পর্যবেক্ষণ করা যায়, তবে আমরা কীভাবে ঘটে তা দেখতে পারতাম। আমি কেবলমাত্র ভাবি যে আমাদের বোধগম্যভাবে উদীয়মান নিদর্শনগুলির প্রতিক্রিয়া জানাতে আমাদের প্রবণতা সম্পর্কে সচেতন এবং সচেতন হওয়া দরকার।
rvl

4
পছন্দ করুন নিদর্শনগুলিতে খুব বেশি পড়া থেকে দূরে থাকার জন্য অভিজ্ঞতা প্রয়োজন। আমার অভিজ্ঞতা বলে যে 150-200 পয়েন্টের সাথে y- স্থানাঙ্কগুলিতে আমি যে শক্তিশালী দ্বিগুণতা পরিমাপ করেছি তা অর্জন এলোমেলোভাবে কঠিন। এই ধরনের অভিজ্ঞতা সহজেই এবং দ্রুত আজকাল সিমুলেশন দ্বারা পরিপূরক হতে পারে: আপনি যখন মনে করেন যে আপনি কোনও নিদর্শন দেখেন, তখন (1) এটি পরিমাণগতভাবে চিহ্নিত করুন এবং (2) এটিকে এলোমেলো নমুনাগুলিতে সন্ধান করুন যা একটি সহজ বিকল্প অনুমান অনুসারে উত্পন্ন হয়। যদি প্যাটার্নটি খুব বেশি দেখা যায়, তবে আপনি আপনার ভিজ্যুয়াল কর্টেক্সকে দোষ দিতে পারেন, তবে অন্যথায় আপনি কিছু খুঁজে পেয়েছেন।
whuber

1
@ রাশ আপনাকে ধন্যবাদ আমি বর্ণিত সেই অবশিষ্ট প্লটটি ছিল না - এক্স এবং ওয়াইয়ের ভূমিকাগুলি বিপরীত। তবে এটি তথাপি তথাপি। হেটেরোসিসটাস্টিটিটি সবচেয়ে আকর্ষণীয় বিষয়: এটি আসলে দ্বি-গুচ্ছ হাইপোথিসিসকে সমর্থন দেয় বলে মনে হয় (যা হেটেরোসিসটাস্টিকটি অদৃশ্য করে দেয়)। মনে মনে, আমি সেই হাইপোথিসিস সম্পর্কে অজ্ঞেয়। আমি এখানে যা কিছু লিখেছি তা হ'ল ডেটাটির যত্নবান, দৃ description় বর্ণনার মূল চেতনায়। এই তথ্যগুলির বিবরণ হিসাবে যে কোনও একক বক্ররেখা অশোধিত এবং সম্ভবত অসন্তুষ্ট হতে চলেছে।
whuber

31

চল মজা করি!

প্রথম সব, আমি স্ক্র্যাপযুক্ত ডেটা আপনার গ্রাফ বন্ধ।

তারপরে ধূসর 95 95% সিআই ব্যান্ড সহ ড্যাশযুক্ত রেগ্রেশন রেখাটি তৈরি করতে আমি একটি চলমান রেখাটি মসৃণ ব্যবহার করেছি। নীচের গ্রাফটি অর্ধেক ডেটা মসৃণ করে একটি স্প্যান দেখায়, যদিও আরও কঠোর স্প্যানগুলি কমবেশি একই সম্পর্ক প্রকাশ করেছিল। আশেপাশে opeালের সামান্য পরিবর্তনটি এমন একটি সম্পর্কের পরামর্শ দেয় যা লিনিয়ার মডেলটি ব্যবহার করে এবং আ নাইনলাইনারের সর্বনিম্ন স্কোয়ার্স রিগ্রেশন (লাল রেখা) এ এর opeালের লিনিয়ার কব্জ ফাংশন যুক্ত করতে পারে :এক্সX=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

গুণাগুলি অনুমানগুলি ছিল:

Y=50.937.7X26.74436max(X0.46,0)

আমি লক্ষ্য করেছি যে যে দুর্ধর্ষ whuber দাবি কোন শক্তিশালী রৈখিক সম্পর্ক, লাইন থেকে বিচ্যুতি আছে উহ্য দ্বারা কবজা মেয়াদের ঢাল হিসাবে একই আদেশ হয় , (অর্থাত 37.7) তাই আমি শ্রদ্ধার সাথে একমত হবে যে আমরা কোনও দৃ non় অরৈখিক সম্পর্ক দেখতে পাই না (যেমন হ্যাঁ কোনও দৃ strong় সম্পর্ক নেই, তবে অ-রৈখিক শব্দটি লিনিয়ারের মতোই শক্তিশালী)।Y=50.937.7XX

ডেটা সহ সময় খেলুন

ব্যাখ্যা
(আমি অভিমানী আছে অগ্রসর হয়েছেন তা বলতে আপনি শুধুমাত্র আগ্রহী নির্ভরশীল পরিবর্তনশীল হিসাবে।) এর মান খুব স্বাস্থ্যহীন দ্বারা পূর্বাভাস হয় (একটি Adjusted- সঙ্গে = 0.03)। সমিতিটি প্রায় লিনিয়ার, প্রায় .4ালুতে প্রায় 0.46 এ সামান্য হ্রাস সহ। অবশিষ্টাংশগুলি কিছুটা ডান দিকে সজ্জিত, সম্ভবত কারণ এটি মানগুলির উপর একটি তীক্ষ্ণ নিম্ন আবদ্ধ । নমুনার আকার , আমি স্বাভাবিকতার লঙ্ঘন সহ্য করতে আগ্রহী । মানগুলির জন্য আরও পর্যবেক্ষণগুলি opeালের পরিবর্তনটি আসল কিনা বা হ্রাস পরিবর্তনের একটি শৈল্পিক কিনাYYXR2YN=170X>0.5Y যে পরিসীমা মধ্যে।

গ্রাফের সাথে আপডেট হচ্ছে :ln(Y)

(লাল রেখাটি কেবল এক্স এ ল্যান (ওয়াই) এর লিনিয়ার রিগ্রেশন)

রাশ লেন্থের পরামর্শ অনুসারে গ্রাফ সহ আপডেট হয়েছে।

মন্তব্য Russ Lenth লিখেছিলেন: "আমি শুধু ভাবছি যদি এই পর্যন্ত ঝুলিতে যদি আপনি মসৃণ বনাম এর বন্টন। স্কিউ অধিকার।" এটি বেশ ভাল পরামর্শ, কারণ রূপান্তর বনাম তুলনায় খানিকটা ভাল ফিটও দেয় যা আরও বেশি প্রতিসাম্যভাবে বিতরণকৃত রেসিডুয়ালগুলির সাথে এবং মধ্যে একটি লাইন থাকে । তবে, তার প্রস্তাবিত এবং আমার লিনিয়ার কবজ উভয়ই (অপরিবর্তিত) এবং মধ্যে সম্পর্কের জন্য একটি অগ্রাধিকার ভাগ করে যা কোনও সরলরেখার দ্বারা বর্ণিত নয়।logYXYlogYXYXlog(Y)XYX


1
আমি কেবল অবাক হয়েছি যে আপনি যদি বনাম মসৃণ করেন তবে এটি ধরে রাখে । বিতরণটি সঠিকভাবে আঁকিয়েছে এবং আমি মনে করি যে এমন রূপান্তর যা বিতরণকে আরও প্রতিসাম্যযুক্ত করে তাও অনেকটা আইকনিক নাল স্ক্রেটারপ্লটের মতো দেখায় না। logYXY
rvl

1
@ রুশ এটি শাস্ত্রীয় যে বিমোডাল বিতরণগুলি স্কিউ প্রদর্শিত হতে পারে এবং লগ রূপান্তরের পরামর্শ দিতে পারে। তবে এখানে y বিতরণটি আসলে বাইমোডাল এবং একটি লগ সম্ভবত এটি পুনরায় প্রকাশ করার কোনও কার্যকর উপায় নয়। যখন দুটি উপাদান পৃথক করা হয়, নীচের অংশটি এখনও ইতিবাচকভাবে স্কিউড হয় এবং একটি বর্গমূল একটি প্রতিসাম্য বন্টন পেতে এটি রূপান্তর করতে সঠিক পরিমাণের প্রায় হয়। বর্গমূলটি উচ্চ গ্রুপের প্রতিসাম্য প্রশংসাজনকভাবে প্রভাবিত করে না, এটি নির্দেশ করে যে মূলটি ভাল পছন্দ হতে পারে। যাইহোক, এটি দ্বিদৈর্ঘ্য স্থির করে না - এবং এর মধ্যে এই ধরণের কোনও মসৃণ সমস্যা রয়েছে।
whuber

1
অ্যালেক্সিস, আমাদের উত্তরে আমরা দুজনই অনির্ধারিত উপায়ে "শক্ত" ব্যবহার করার জন্য দোষী are আমি যে অর্থে "দুর্বল" বোঝাতে চাইছিলাম তা আমার কয়েকটি ফ্রেসিংয়ে ইঙ্গিত করা হয়েছিল, যা বোঝাতে ইচ্ছুক হয়েছিল যে y মানগুলির মধ্যে বিচ্ছুরণের তুলনায় slালটি ছোট। আমি মনে করি না যে আপনার বিশ্লেষণ সে ক্ষেত্রে কোনও ভিন্ন উপসংহারের সাথে আসে। আমি সাবধানতার প্রয়োজনীয়তা অনুভব করেছি কারণ, অনুমানকভাবে গ্রহণ করে যে y এর জন্য মিশ্রণের মডেলটির যোগ্যতা থাকতে পারে, এটি প্রদর্শিত হয় যে উপরের গ্রুপে আসলে x এবং y এর মধ্যে দুর্বল ইতিবাচক সম্পর্ক থাকতে পারে এবং নীচের গ্রুপে কোনও সম্পর্ক নেই।
whuber

3
আলেকিসিস, টুকির ইডিএ বইটি তাদের পূর্ণ। আরও কৌশলগুলির জন্য (গাণিতিক ন্যায়সঙ্গততার সাথে বৃহত্তর পরিশীলনের) হোয়াগলিন, মোস্টেলার এবং টুকি, জোরালো এবং অন্বেষণকারী ডেটা বিশ্লেষণ বোঝা দেখুন
whuber

2
@rivu ম্যানুয়াল। 10 বা 15 মিনিটের শীর্ষে নিয়েছে। প্রতিটি পয়েন্ট প্রাথমিকভাবে পয়েন্টারের সাহায্যে স্থাপন করা হয়েছে, তারপরে তীর কীগুলি ব্যবহার করে যথাযথভাবে এটি চিহ্নিত করা হয়েছে।
অ্যালেক্সিস

21

এখানে আমার 2 ¢ 1.5। আমার কাছে সর্বাধিক বিশিষ্ট বৈশিষ্ট্যটি হ'ল ডেটা হঠাৎ করে বন্ধ হয়ে যায় এবং ওয়াইয়ের পরিসরের নীচে 'গুচ্ছ' হয়ে যায় I (সম্ভাব্য) তল প্রভাব এবং উপরের, নিম্ন-ঘনত্বের ক্লাস্টারটি কেবল এক্স এর ব্যাপ্তির অংশ জুড়েই প্রসারিত fact

যেহেতু 'ক্লাস্টারগুলি' অস্পষ্টভাবে দ্বিবিভক্ত হয় স্বাভাবিক, একটি প্যারামেট্রিক সাধারণ মিশ্রণ মডেল চেষ্টা করা আকর্ষণীয় হতে পারে। @ অ্যালেক্সিসের ডেটা ব্যবহার করে, আমি দেখতে পাচ্ছি যে তিনটি ক্লাস্টার বিআইসিকে অনুকূল করেছে। উচ্চ ঘনত্বের 'তল প্রভাব' তৃতীয় ক্লাস্টার হিসাবে বেছে নেওয়া হয়েছে। কোডটি অনুসরণ করে:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

এখানে চিত্র বর্ণনা লিখুন

এখন, এ থেকে আমরা কী অনুমান করব? আমি মনে করি না যে Mclustএটি কেবল মানুষের প্যাটার্ন স্বীকৃতিটি খারাপ হয়ে গেছে। (যেখানে scatterplot আমার পঠিত ভাল হতে পারে।) অন্যদিকে, কোন প্রশ্ন যে এই হল পোস্টে-হক । আমি যা দেখেছিলাম তা একটি আকর্ষণীয় নিদর্শন হতে দেখেছি এবং তাই এটি পরীক্ষা করার সিদ্ধান্ত নিয়েছে। অ্যালগরিদম কিছু খুঁজে পায়, তবে তারপরে আমি কেবল যা অনুভব করেছি সেখানে থাকতে পারে তা পরীক্ষা করেছিলাম তাই আমার থাম্বটি অবশ্যই স্কেলে রয়েছে। কখনও কখনও এটির বিরুদ্ধে প্রশমিত করার কৌশল তৈরি করা সম্ভব হয় (@ হুইবারের চমৎকার উত্তরটি এখানে দেখুন ) তবে এ জাতীয় ক্ষেত্রে কীভাবে এই প্রক্রিয়াটি চালানো যায় সে সম্পর্কে আমার কোনও ধারণা নেই। ফলস্বরূপ, আমি প্রচুর লবণের সাথে এই ফলাফলগুলি গ্রহণ করি (আমি যথেষ্ট পরিমাণে এই ধরণের জিনিসটি প্রায়শই করেছি যে কেউ পুরো শেকার অনুপস্থিত is)। এটি পরবর্তী যখন আমরা সাক্ষাত করি তখন আমার ক্লায়েন্টের সাথে ভাবনা এবং আলোচনা করার জন্য এটি আমাকে কিছু উপাদান দেয়। এই তথ্য কি? এটি কোনও তাত্পর্যপূর্ণ প্রভাব থাকতে পারে যে কোনও ধারণা আছে? এটা কি বোঝা যাবে যে সেখানে বিভিন্ন গ্রুপ থাকতে পারে? এগুলি বাস্তব হলে কতটা অর্থবহ / অবাক করা / আকর্ষণীয় / গুরুত্বপূর্ণ হবে? স্বতন্ত্র ডেটা কি বিদ্যমান / আমরা কীভাবে তাদের এই সম্ভাবনার একটি সৎ পরীক্ষা চালানোর জন্য সুবিধাজনকভাবে পেতে পারি? প্রভৃতি


1
+1 অনুসন্ধানের বিশ্লেষণ কীভাবে প্রাকৃতিকভাবে আকর্ষণীয় প্রশ্নের দিকে নিয়ে যায় তা নির্দেশ করার জন্য । আমি চাই আমি আমার উত্তরে সেই বিষয়টিকে আরও জোর দিয়েছি। যদিও আমি মনে করি এটি বিশ্বাস করার জন্য বিষয়গুলিকে চাপ দিবে (এই মুহুর্তে) সত্যিই তিনটি স্বতন্ত্র গ্রুপ রয়েছে তবে ক্লাস্টারের ফলাফলগুলি এখনও এক্স এবং ওয়াইয়ের মধ্যে নেতিবাচক সম্পর্ক রয়েছে এবং সেই সম্পর্কের সংক্ষিপ্তসারটি দেখার একটি কার্যকর উপায় উপস্থাপন করে । আমাকে অবাক করে দিয়েছিলাম যে স্বয়ংক্রিয় ক্লাস্টারিং কীভাবে একটি সাধারণ কার্যকর অনুসন্ধানের সরঞ্জাম হতে পারে - তবে আমরা ফলাফলের খুব বেশি পড়তে প্ররোচিত না হই।
whuber

14

আমি যা দেখলাম তা দেখার সাথে সাথেই আমাকে বর্ণনা করুন:

যদি আমরা এর শর্তসাপেক্ষ বিতরণে আগ্রহী (যা প্রায়শই যদি আমরা আগ্রহ দেখি যেখানে আমরা হিসাবে IV এবং কে ডিভি হিসাবে দেখি ), তবে এর জন্য শর্তাধীন বিতরণ একটি উপরের গ্রুপের সাথে বিমোডাল প্রদর্শিত হবে ( প্রায় 70 এবং 125 এর মধ্যে, যার অর্থ 100 এর নিচে কিছুটা কম) এবং একটি নিম্ন গ্রুপ (0 এবং প্রায় 70 এর মধ্যে, যার গড় 30 বা তার বেশি)। প্রতিটি মডেল গ্রুপের মধ্যে, সাথে সম্পর্ক প্রায় সমতল। (নীচে লাল এবং নীল রেখাগুলি প্রায় আঁকুন দেখুন যেখানে আমি অনুমান করি যে অবস্থানের কিছুটা সংক্ষিপ্ত ধারণা)yxyx0.5Y|xx

তারপরে তে এই দুটি গোষ্ঠী কম-বেশি ঘন কোথায় তা দেখে আমরা আরও বলতে পারি:X

জন্য উপরের গ্রুপ সম্পূর্ণরূপে যার ফলে সামগ্রিক গড় disappears, পড়ে এবং 0.2 সম্পর্কে নিচে, নিম্ন গ্রুপ অনেক কম উপরে চেয়ে ঘন হয়, সামগ্রিক গড় উচ্চতর করে।x>0.5x

এই দুটি প্রভাবের মধ্যে, এটি উভয়ের মধ্যে একটি আপাত নেতিবাচক (তবে ননলাইনার) সম্পর্ককে প্ররোচিত করে, যেহেতু বিপরীতে হ্রাস তবে কেন্দ্রের বিস্তৃত, বেশিরভাগ সমতল অঞ্চল নিয়ে। (বেগুনি রঙের ড্যাশযুক্ত রেখা দেখুন)E(Y|X=x)x

এখানে চিত্র বর্ণনা লিখুন

সন্দেহ নেই যে এবং ছিল তা জেনে রাখা গুরুত্বপূর্ণ , কারণ তখন এটি আরও স্পষ্ট হয়ে উঠতে পারে যে জন্য শর্তসাপেক্ষ বিতরণ তার পরিসরের বেশিরভাগ অংশে দ্বিপদী হতে পারে (সত্যই, এটি এমনকি স্পষ্ট হয়ে উঠতে পারে যে সত্যই দুটি গ্রুপ রয়েছে, যার মধ্যে বিতরণ মধ্যে আপাত হ্রাস সম্পর্ক প্ররোচিত ।YXYXY|x

এটি যা আমি খাঁটি "বাই চোখ" তদন্তের ভিত্তিতে দেখেছি। একটি মৌলিক চিত্র ম্যানিপুলেশন প্রোগ্রামের মতো কিছুটা ঘুরে বেড়াতে (যেমনটি আমি রেখাগুলি আঁকলাম তার মতো) আমরা আরও কিছু সঠিক সংখ্যা বের করতে শুরু করতে পারি। আমরা যদি ডেটা ডিজিটাইজ করি (যা শালীন সরঞ্জামগুলির সাথে বেশ সহজ, যদি কখনও কখনও সঠিকভাবে পেতে কিছুটা ক্লান্তিকর হয়) তবে আমরা সেই ধরণের আরও ছাপ সম্পর্কে আরও পরিশীলিত বিশ্লেষণ করতে পারি।

এই জাতীয় অনুসন্ধান বিশ্লেষণ কিছু গুরুত্বপূর্ণ প্রশ্নে ডেকে আনতে পারে (কখনও কখনও এমন ব্যক্তি যা অবাক করে দেয় যে যার কাছে ডেটা রয়েছে তবে তারা কেবল একটি চক্রান্ত দেখিয়েছে), তবে আমাদের মডেলগুলি এই ধরণের পরিদর্শন দ্বারা যে পরিমাণে বাছাই করা হয়েছে সে সম্পর্কে আমাদের কিছুটা যত্ন নিতে হবে - যদি আমরা প্লটের উপস্থিতির ভিত্তিতে নির্বাচিত মডেলগুলি প্রয়োগ করি এবং তারপরে একই তথ্যগুলিতে সেই মডেলগুলি অনুমান করি, আমরা যখন একই উপাত্তে আরও আনুষ্ঠানিক মডেল-নির্বাচন এবং অনুমান ব্যবহার করি তখন আমরা যে একই সমস্যার মুখোমুখি হই। [এটি অনুসন্ধানের বিশ্লেষণের গুরুত্বকে মোটেও অস্বীকার করার মতো নয় - এটি কীভাবে হয় তা বিবেচনা না করেই এটি করার পরিণতি সম্পর্কে আমাদের অবশ্যই সতর্ক হওয়া উচিত । ]


রাশ এর মন্তব্যের প্রতিক্রিয়া:

[পরে সম্পাদনা করুন: স্পষ্ট করার জন্য - আমি সাধারণ সতর্কতা হিসাবে নেওয়া রাশিয়ার সমালোচনাগুলির সাথে আমি বিস্তৃতভাবে একমত হই এবং অবশ্যই সেখানে থাকার চেয়ে আরও কিছু সম্ভাবনা আমি দেখেছি। আমি ফিরে আসার এবং এগুলি সম্পাদন করার পরিকল্পনা করছি, যা আমরা সাধারণত চোখের দ্বারা চিহ্নিত করি এবং উপায়গুলি যেগুলির থেকে খারাপটি এড়াতে শুরু করতে পারি সেগুলি সম্পর্কে আরও বিস্তৃত ভাষ্য হিসাবে। আমি বিশ্বাস করি যে আমি কেন এই নির্দিষ্ট ক্ষেত্রে এটি সম্ভবত উত্সাহী নয় বলে উদাহরণস্বরূপ কিছু যুক্তি যুক্ত করতে সক্ষম হব (উদাহরণস্বরূপ, একটি রেজিস্ট্রগ্রাম বা 0-অর্ডার কার্নেলের মাধ্যমে মসৃণ, যদিও অবশ্যই এর বিরুদ্ধে পরীক্ষা করার জন্য আরও ডেটা অনুপস্থিত রয়েছে) এতদূর যেতে পারে; উদাহরণস্বরূপ, যদি আমাদের নমুনাটি উপস্থাপনযোগ্য না হয়, এমনকি পুনর্নির্মাণটি কেবল আমাদের এ পর্যন্ত পেয়ে যায়]]

আমি সম্পূর্ণরূপে সম্মত হই যে আমাদের মধ্যে উত্সাহী নিদর্শনগুলি দেখার প্রবণতা রয়েছে; এটি আমি এখানে এবং অন্য কোথাও ঘন ঘন একটি বিন্দু।

একটি জিনিস আমি প্রস্তাব দিচ্ছি, উদাহরণস্বরূপ, যখন অবশিষ্ট প্লট বা কিউকিউ প্লটগুলি দেখার সময় পরিস্থিতি জানা যায় এমন অনেক প্লট তৈরি করা হয় (উভয় জিনিস যেমন হওয়া উচিত এবং যেখানে অনুমানগুলি রাখা হয় না) কতটা প্যাটার্ন হওয়া উচিত তা পরিষ্কার ধারণা পেতে উপেক্ষা করেছেন।

প্লটটি কতটা অস্বাভাবিক তা দেখার জন্য আমাদের এখানে 24 জনকে (যা অনুমানগুলি পূরণ করে) এর মধ্যে একটি কিউকিউ প্লট স্থাপন করা হয়েছে তার একটি উদাহরণ রয়েছে। এই জাতীয় অনুশীলনটি গুরুত্বপূর্ণ কারণ এটি আমাদের প্রতিটি ছোট্ট উইগলকে ব্যাখ্যা করে নিজেকে বোকা বানাতে সহায়তা করে, যার বেশিরভাগই সরল শব্দ হবে।

আমি প্রায়শই উল্লেখ করি যে আপনি কয়েকটি পয়েন্ট coveringেকে রেখে যদি কোনও ছাপ পরিবর্তন করতে পারেন তবে আমরা শব্দাবলম্বন ছাড়া আর কিছু দ্বারা প্রকাশিত ছাপের উপর নির্ভর করতে পারি।

[তবে, যখন এটি কয়েকটির চেয়ে অনেকগুলি বিষয় থেকে স্পষ্ট হয়, এটি সেখানে নেই তা বজায় রাখা শক্ত hard]

Whuber এর উত্তরে প্রদর্শন আমার ছাপ সমর্থন করে, গসিয়ান দাগ কাহিনিসূত্রেও bimodality একই প্রবণতা কুড়ান বলে মনে হয় ।Y

যখন আমাদের কাছে যাচাই করার জন্য আরও ডেটা নেই, আমরা কমপক্ষে তা দেখতে পারি যে ইমপ্রেশনটি পুনরায় মডেলিংয়ের মাধ্যমে বাঁচতে পারে (বাইভারিয়েট বন্টন বুটস্ট্র্যাপ করুন এবং এটি প্রায় সর্বদা উপস্থিত রয়েছে কিনা তা দেখুন), বা অন্যান্য ম্যানিপুলেশন যেখানে ছাপটি স্পষ্ট হওয়া উচিত নয় should যদি এটি সহজ শব্দ হয়।

1) এখানে দেখার জন্য একটি উপায় যা আপাত দ্বিখণ্ডিততা কেবল স্কিউনেস প্লাস শোরগোলের চেয়ে বেশি কিনা - এটি কি কার্নেলের ঘনত্বের প্রাক্কলনটিতে প্রদর্শিত হয়? যদি আমরা বিভিন্ন রূপান্তরের অধীনে কার্নেল ঘনত্বের অনুমানের প্লট করি তবে এটি এখনও দৃশ্যমান? এখানে আমি এটি ডিফল্ট ব্যান্ডউইথের 85% এ বৃহত্তর প্রতিসাম্যের দিকে রূপান্তর করি (যেহেতু আমরা তুলনামূলকভাবে ছোট মোডটি সনাক্ত করার চেষ্টা করছি, এবং ডিফল্ট ব্যান্ডউইথটি সেই কাজের জন্য অনুকূল নয়):

এখানে চিত্র বর্ণনা লিখুন

প্লটগুলি , এবং । উল্লম্ব লাইনগুলি , এবং । দ্বিগুণতা হ্রাস পেয়েছে, তবে এখনও বেশ দৃশ্যমান। যেহেতু এটি মূল কে-ডি-তে খুব স্পষ্ট বলে মনে হচ্ছে এটি সেখানে রয়েছে - এবং দ্বিতীয় এবং তৃতীয় প্লটগুলি এর রূপান্তরকে কমপক্ষে কিছুটা শক্তিশালী করার পরামর্শ দেয়।YYlog(Y)6868log(68)

2) এটি দেখার জন্য আরও একটি মৌলিক উপায় এখানে কেবল "গোলমাল" এর চেয়ে বেশি নয় কি:

পদক্ষেপ 1: Y তে ক্লাস্টারিং করুন

এখানে চিত্র বর্ণনা লিখুন

দ্বিতীয় ধাপ: তে দুটি গ্রুপে বিভক্ত করুন এবং দুটি গ্রুপকে আলাদাভাবে ক্লাস্টার করুন এবং দেখুন এটি বেশ একই রকম কিনা। দুটি অংশে যদি কিছু না ঘটে থাকে তবে এতটা ভাগ করে নেওয়া আশা করা উচিত নয়।X

এখানে চিত্র বর্ণনা লিখুন

পূর্বের প্লটটিতে বিন্দুগুলির সাথে পয়েন্টগুলি "সমস্ত এক সেট" ক্লাস্টার থেকে আলাদাভাবে ক্লাস্টার করা হয়েছিল। আমি আরও কিছু পরে করব, তবে মনে হচ্ছে সম্ভবত সম্ভবত এই অবস্থানের কাছে একটি অনুভূমিক "বিভাজন" থাকতে পারে।

আমি একটি রেজিস্ট্রোগ্রাম বা নাদারায়া-ওয়াটসন অনুমানকারী চেষ্টা করতে যাচ্ছি (উভয়ই রিগ্রেশন ফাংশনের স্থানীয় অনুমান, )। আমি এখনও তৈরি করি নি তবে তারা কীভাবে চলে যায় আমরা তা দেখতে পাব। আমি সম্ভবত খুব অল্প জায়গায় বাদ দিতে চাই যেখানে খুব কম ডেটা আছে।E(Y|x)

3) সম্পাদনা করুন: 0.1 প্রস্থের বিনয়ের জন্য এখানে রেজিস্ট্রোগ্রামটি দেওয়া হয়েছে (আমি আগেই বলেছি এমন প্রান্তটি বাদে):

এখানে চিত্র বর্ণনা লিখুন

এটি সম্পূর্ণরূপে আমার মূল চক্রান্তটির সাথে সামঞ্জস্যপূর্ণ; এটি প্রমাণ করে না যে আমার যুক্তি সঠিক ছিল, তবে আমার সিদ্ধান্তগুলি একই ফলাফলে পৌঁছেছিল যা রেজিস্ট্রোগ্রামে করে।

আমি প্লটে যা দেখেছি - এবং ফলাফলটি যুক্তিগুলি উত্সাহিত হয়েছিল, সম্ভবত আমার বোঝার পক্ষে সফল হওয়া উচিত ছিল না ।E(Y|x)

(পরবর্তী চেষ্টা করার চেষ্টাটি একটি নাদায়রা-ওয়াটসন অনুমানক হবে Then তাহলে আমি দেখতে পাচ্ছি কীভাবে সময় পেলে এটি পুনর্নির্মাণের অধীনে চলে যায়))

4) পরে সম্পাদনা করুন:

নাদেরিয়া-ওয়াটসন, গাউসিয়ান কার্নেল, ব্যান্ডউইথ 0.15:

এখানে চিত্র বর্ণনা লিখুন

আবার এটি আমার প্রাথমিক ছাপের সাথে আশ্চর্যজনকভাবে সামঞ্জস্যপূর্ণ। দশটি বুটস্ট্র্যাপের প্রতিকারের ভিত্তিতে এনডাব্লু এর অনুমানকারী এখানে রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

বিস্তৃত প্যাটার্নটি রয়েছে, যদিও বেশ কয়েকটি রেজোলিউস পুরো ডেটার উপর ভিত্তি করে বর্ণনাকে পরিষ্কারভাবে অনুসরণ করে না। আমরা দেখতে পাই যে বামের স্তরের ক্ষেত্রে ডানদিকের চেয়ে কম সুনিশ্চিত - শব্দের মাত্রা (কিছুটা পর্যবেক্ষণ থেকে, আংশিকভাবে প্রশস্ত ছড়িয়ে পড়া) এমন যে এমনটি দাবি করা কম সহজ যেটি সত্যিকার অর্থে উচ্চতর কেন্দ্রের চেয়ে বাম

আমার সামগ্রিক ধারণাটি হ'ল আমি সম্ভবত নিজেকে বোকা বানাচ্ছিলাম না, কারণ বিভিন্ন দিক বিভিন্ন ধরণের চ্যালেঞ্জ (স্মুথিং, রূপান্তরকরণ, উপগোষ্ঠীতে বিভক্ত হওয়া, পুনরায় মডেলিং) -এর জন্য পরিমিতভাবে দাঁড়ায় যা যদি তারা কেবল শব্দ করে তবে তাদের অস্পষ্ট করে তোলে। অন্যদিকে, ইঙ্গিতগুলি হ'ল প্রভাবগুলি আমার প্রাথমিক ছাপের সাথে সুস্পষ্টভাবে সামঞ্জস্যপূর্ণ হলেও তুলনামূলকভাবে দুর্বল এবং বাম দিক থেকে কেন্দ্রের দিকে প্রত্যাশায় যে কোনও বাস্তব পরিবর্তন দাবি করা খুব বেশি হতে পারে।


1
আমি একটি উত্তর জিজ্ঞাসাবাদ করেছি, তবে এই
উত্তরটিতে

1
আমি আমার ডাউন ভোটের বিপরীতে চেষ্টা করেছি, তবে আমি অনুমান করি যে আমি পারব না। কেবলমাত্র আপনার উত্তরটির সাথে আমি সত্যিই একমত নই বলে অগত্যা এটির আলোচনায় অবদান নেই। আমি নিশ্চিত কীভাবে ভোট নিচে ব্যবহার করতে, এবং it.p না মানে কিছু ব্যক্তিগত না নই
rvl

4
@ রুস ডাউনভোট সম্পর্কে চিন্তা করবেন না, এটি সত্যিকার অর্থেই কিছু যায় আসে না, এর বাইরে এটি ইঙ্গিত দেয় যে আমার কিছু কথা বলা উচিত। ভুয়া ইন্টারনেট পয়েন্টগুলি নিয়ে চিন্তা করার চেয়ে আমরা কেন দ্বিমত করি (আমরা যে পরিমাণেও করি তা পর্যন্ত) আরও অনেক গুরুত্বপূর্ণ। আপনার আলোচনা করার মতো একটি আপত্তি আছে, এবং আমি এই সংক্ষিপ্ত আলোচনাটি করার জন্য এই ডাউনভোটকে দশবারের সাথে সানন্দে প্রদান করব। আমি আপনাকে উত্সাহিত করি যতবার আপনি অসম্মতি জানায় ততবার আমাকে নীচে নামিয়ে আনতে, যদি আপনি কেন বলবেন। এটাই আমার কিছু শেখার সুযোগ।
Glen_b

1
@ রুসলেন্থ আপনি নীচে ভোট পুনরায় ক্লিক করে একটি ডাউনভোট (বা আপগোট) পূর্বাবস্থায় ফেরাতে পারেন। নীচে (বা উপরে) তীরের উপরে আপনার ভোটগুলি হোভারটেক্সটে কোথায় রয়েছে সে সম্পর্কে আপনি যদি অনিশ্চিত হন তবে আপনাকে অবহিত করবে।
অ্যালেক্সিস

4
+1 আমি আসলে এই বিশ্লেষণটি অনেক করেছি তবে সেই উত্তরগুলি দিয়ে আমার উত্তরকে অতিরিক্তভাবে প্রসারিত করতে চাই না। আপনি এটিকে একটি পরিষ্কার, পঠনযোগ্য এবং বিশ্বাসযোগ্য আকারে উপস্থাপনে দুর্দান্ত কাজ করেছেন। আমি একটি জিনিস যোগ করেছিলাম (y, "নির্ধারিত" হিসাবে y এর বৈশিষ্ট্য সত্ত্বেও) x এর বিরুদ্ধে x (আসলে, মসৃণ) x প্রতিরোধ করা: আমি মনে করি যে ফলাফলটি এমনভাবে সম্পর্কের ক্ষেত্রে অনৈখিকতার মূল্যায়ন করতে সহায়ক ছিল যা y কিনা কিনা সম্পর্কে অজ্ঞেয় এক বা দুটি গ্রুপ হিসাবে বিবেচনা করা উচিত।
whuber

13

ঠিক আছে ভাবেন, আমি অ্যালেক্সিসের নেতৃত্ব অনুসরণ করে ডেটা ক্যাপচার করেছি। এখানে বনাম এর একটি প্লট রয়েছে ।logyxপ্লটের লগ (Y) বনাম এক্স

এবং পারস্পরিক সম্পর্ক:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

পারস্পরিক সম্পর্ক পরীক্ষা সম্ভবত নেতিবাচক নির্ভরতা নির্দেশ করে। আমি যে কোনও দ্বিধাহীনতা সম্পর্কে অবিস্মৃত রয়েছি (তবে এটি অনুপস্থিত যে স্বীকৃতও নয়)।

[আমি পূর্ববর্তী সংস্করণে থাকা একটি অবশিষ্ট প্লটটি সরিয়ে দিয়েছি কারণ @ ভুবার পূর্বাভাস দেওয়ার চেষ্টা করছিল এমন বিষয়টিকে আমি উপেক্ষা করেছি ।]X|Y


2
ঘটনাক্রমে ... এটি আমার কাছে কেবল ঘটেছিল যে লগ (Y) রূপান্তরকে নির্ভরশীল হিসাবে গ্রহণ করা এখনও একটি অ-রৈখিক সম্পর্ক সন্ধানের সমতুল্য ... লগ (ওয়াই) আমি যে কব্জাগুলির সাথে অভিনয় করেছি তার চেয়ে অবশেষের ভাল কাজ আমার উত্তর ... তবে একটি সিদ্ধান্তে একইরকম: এবং এর মধ্যে সম্পর্কের চেয়ে কার্যকরী এক্সপ্রেশন রয়েছে । YXY=a+bX
অ্যালেক্সিস

রাশিয়ার এই অবশিষ্টাংশের জন্য আপনাকে ধন্যবাদ। এটি একটি অনুরোধ নয়, তবে আমি এটি উল্লেখ করতে চাই যে আমি যে আগ্রহের বিষয় হিসাবে খুঁজে পেয়েছি - এবং জিওএফ অন্বেষণের জন্য সম্ভবত আরও বেশি মূল্যবান - এটি এই পথটির পরিবর্তে y এর ফাংশন হিসাবে x এর সম্পর্ক ছিল । এ খুঁজছি এক্স অবশিষ্টাংশ অনুরোধ জানানো যেমন কিনা আমরা অ-রৈখিক পুনরায় এক্সপ্রেশন এর মাধ্যমে কোনো কিছু জানতে পারে যেমন কিছু অতিরিক্ত (হয়তো দরকারী) প্রশ্ন ইত: পূর্বে উত্থাপিত না হয়, এক্স (হ্যাঁ, আমরা পারি); দ্বি-জনসংখ্যার হাইপোথিসিস (হ্যাঁ, আবার) এবং আমার ফিটের দৃust়তা সম্পর্কে এটি অনেক কিছু বলা যায় কিনা (এটি খুব দৃ it়)।
whuber

ভাল, সম্ভবত আপনি এর জন্য অবশিষ্ট প্লট করতে চান। আমি অন্য স্টাফ এ চলেছি
rvl

5

রাশ লেন্থ ভেবেছিলেন যে ওয়াই অক্ষগুলি লোগারিটিমিক হলে গ্রাফটি কেমন দেখায়। অ্যালেক্সিস ডেটা স্ক্র্যাপ করেছে, সুতরাং লগ অক্ষের সাহায্যে প্লট করা সহজ:

এখানে চিত্র বর্ণনা লিখুন

লগ স্কেলে, বিমোডালিটি বা ট্রেন্ডের কোনও ইঙ্গিত নেই। লগ স্কেলটি বোঝায় কি না তা অবশ্যই নির্ভর করে, ডেটা কী উপস্থাপন করে তার বিবরণে। তেমনি, এই ধারণাটি বুদ্ধিমান হয় কি না যে ডেটা দুটি জনসংখ্যা থেকে নমুনা উপস্থাপন করে যেমন হুবুহু প্রস্তাব দেয় তার উপর নির্ভর করে বিশদ।


সংযোজন: নীচের মন্তব্যের ভিত্তিতে, এখানে একটি সংশোধিত সংস্করণ দেওয়া হয়েছে:

এখানে চিত্র বর্ণনা লিখুন


আমি রাশ লেন্থ তার পোস্ট করার কয়েক মিনিটের মধ্যে আমার গ্রাফ পোস্ট করেছি। আমি ওকে দেখিনি, বা আমার পোস্ট করতাম না।
হার্ভি মোটুলস্কি

আমি দেখতে পেয়েছি যে অনুমানে (সোজা আপ লিনিয়ার) রিগ্রেশন ফলাফলগুলি লগ ( ) দিয়ে আরও শক্তিশালী । Y
অ্যালেক্সিস

9
এই গ্রাফিকটি ভিজ্যুয়ালাইজেশনের একটি দুর্বল পছন্দের প্রভাবের একটি আকর্ষণীয় উদাহরণ উপস্থাপন করে: দিক অনুপাত সঙ্কুচিত করে এবং ওয়াই-অক্ষটি যতটা প্রয়োজন তার দ্বিগুণের বেশি করে, সফ্টওয়্যারটি স্বয়ংক্রিয়ভাবে কোনও উল্লম্ব স্ক্র্যাটারের ভিজ্যুয়াল ইম্প্রেসকে দমন করেছে, দর্শকের পক্ষে যেকোন কিছু দেখতে অসুবিধে হচ্ছে। এ কারণেই গ্রাফিকাল উপস্থাপনা দ্বারা পরিচালিত একটি ভাল অন্বেষণে অবশ্যই (ক) উপস্থাপনের উপযুক্ত পদ্ধতিগুলি অবশ্যই ব্যবহার করা উচিত যা প্রকাশের পরিবর্তে, ডেটা ব্যবহার করে এবং (খ) অতিরিক্ত বিশ্লেষণে তাদের সমর্থন করে (যেমন @ গ্লেন_ব এর পোস্টে দেখানো হয়েছে) ।
whuber

প্রশ্নে Y এর ব্যাপ্তির জন্য, লগ বেস 2 হ'ল Y অক্ষের জন্য যুক্তিসঙ্গত মানগুলির সহজ পছন্দ হবে। এটি হাতের উপাত্তের সাথে খাপ খায় না এমন 1 এবং 1000 এর দুর্দান্ত মানগুলি থেকে উপরের পরিসরকে আটকাতে পারে।
অ্যান্ডি ডাব্লু

1

ঠিক আছে, আপনি ঠিক বলেছেন, সম্পর্ক দুর্বল, তবে শূন্য নয়। আমি ইতিবাচক অনুমান করব। তবে, অনুমান করবেন না, কেবল একটি সাধারণ লিনিয়ার রিগ্রেশন (ওএলএস রিগ্রেশন) চালান এবং এটি সন্ধান করুন! সেখানে আপনি এক্সএক্সএক্সের একটি opeাল পাবেন যা আপনাকে কী সম্পর্ক বলে tells এবং হ্যাঁ, আপনার কাছে এমন বিদেশী রয়েছে যা ফলাফলকে পক্ষপাতদুষ্ট করতে পারে। যে মোকাবেলা করা যেতে পারে। সম্পর্কের উপর বহিরাগতদের প্রভাব সম্পর্কে অনুমান করতে আপনি কুকের দূরত্ব ব্যবহার করতে পারেন বা কোনও লাভের প্লট তৈরি করতে পারেন।

শুভকামনা


আপনি কী ভাবছেন যে তারা ডিজিপিকে অ-রৈখিক হওয়ার পরিবর্তে প্রকৃত আউটলিয়ার?
আবুমান

আমি মনে করি এটিও হতে পারে। তবে এটা বলা শক্ত, বিন্দুগুলি এত ছড়িয়ে ছিটিয়ে আছে।
হেলগি গিউমন্ডসন

কেন ওএলএসের সাথে রৈখিকতা অনুমান করবেন? ননপ্যারমেট্রিক রিগ্রেশন এফটিডাব্লু! :)
অ্যালেক্সিস

1
@ অ্যালেক্সিস জোর দেওয়ার ক্ষেত্রে সঠিক যে লাইনারিটির মতো অনুমানগুলি ন্যায়সঙ্গত হওয়া উচিত, তা ডোমেন তত্ত্ব দ্বারা বা মডেল চেকিংয়ের দ্বারা। যাইহোক, আমি মনে করি কেন এই জাতীয় মানগুলি সংঘটিত হয়েছে তা যত্ন সহকারে বিবেচনা না করে পরিসংখ্যান বিশ্লেষণে খুব সাধারণ ত্রুটি out
আবুমান

হ্যাঁ, ভুল মূল্য হিসাবে কোনও ভাল ন্যায়সঙ্গততা ছাড়াই আউটলিয়ার্স মোছা যাবে না। তবে রূপান্তরগুলি আরও ভাল ফিটের সাথে মান বিতরণকে সামঞ্জস্য করতে, এবং বহিরাগতদের হ্রাস করতে সহায়তা করে। এবং হ্যাঁ আমি সম্মত, আমি বিশ্বাস করি যে যুক্তিসঙ্গত কারণ ছাড়াই বহিরাগতদের মুছে ফেলা বেশ সাধারণ বিষয়।
হেলগি গিউমন্ডসন

1

আপনি ইতিমধ্যে আপনার এক্স / ওয়াই ডেটা পয়েন্টগুলির ওরিয়েন্টেশন এবং তাদের বিস্তারের দিকে লক্ষ্য রেখে আপনার প্রশ্নের কিছুটা অন্তর্দৃষ্টি দিয়েছিলেন। সংক্ষেপে আপনি সঠিক।

আনুষ্ঠানিক পদ অভিযোজন হিসাবে উল্লেখ করা যেতে পারে পারস্পরিক সম্পর্ক চিহ্ন এবং বিচ্ছুরণ ভ্যারিয়েন্স । এই দুটি লিঙ্ক দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের ব্যাখ্যা কীভাবে আপনাকে আরও তথ্য দেবে ।


0

এটি একটি বাড়ির কাজ। সুতরাং, আপনার প্রশ্নের উত্তর সহজ। X এ Y এর লিনিয়ার রিগ্রেশন চালান, আপনি এই জাতীয় কিছু পাবেন:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

সুতরাং, টি-পরিসংখ্যানগুলি 99% আত্মবিশ্বাসে এক্স ভেরিয়েবলের উপর তাৎপর্যপূর্ণ। অতএব, আপনি কোনও ধরণের সম্পর্ক থাকার কারণে ভেরিয়েবলগুলি ঘোষণা করতে পারেন।

এটা কি লিনিয়ার? একটি ভেরিয়েবল এক্স 2 = (এক্স-গড় (এক্স)) ^ 2 যোগ করুন এবং আবার প্রতিক্রিয়া করুন।

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

এক্স এর সহগ এখনও তাত্পর্যপূর্ণ, তবে এক্স 2 এটি নয়। এক্স 2 আনলাইনারিটির প্রতিনিধিত্ব করে। সুতরাং, আপনি ঘোষণা করেন যে তেহ সম্পর্কটি রৈখিক বলে মনে হয়।

উপরেরটি একটি বাড়ির কাজের জন্য ছিল।

বাস্তব জীবনে জিনিসগুলি আরও জটিল হয়। ভাবুন, এটি ছিল এক শ্রেণির শিক্ষার্থীদের ডেটা। পাউন্ডে ওয়াই - বেঞ্চ প্রেস, এক্স - বেঞ্চ প্রেসের আগে নিজের শ্বাস ধরে রাখার কয়েক মিনিটের সময়। আমি ছাত্রদের লিঙ্গ জিজ্ঞাসা করব। কেবল এটির মজাদার জন্য, এর জন্য আরও একটি পরিবর্তনশীল যুক্ত করুন, জেড, এবং যাক যে <= 1 (বালিকা) সমস্ত Y <60 এর জন্য এবং জেড = 0 (ছেলে) যখন ওয়াই> = 60 হয়। তিনটি ভেরিয়েবল দিয়ে রিগ্রেশন চালান:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

কি হলো?! এক্স এবং ওয়াইয়ের মধ্যে "সম্পর্ক" অদৃশ্য হয়ে গেছে! ওহ, মনে হচ্ছে বিভ্রান্তিকর পরিবর্তনশীল , লিঙ্গের কারণে সম্পর্কটি উত্সাহিত হয়েছিল ।

গল্পের নৈতিকতা কী? "সম্পর্ক" "ব্যাখ্যা" করার জন্য, এমনকি এটি প্রথম স্থানে প্রতিষ্ঠিত করার জন্য আপনার কী ডেটা আছে তা জানতে হবে। এই ক্ষেত্রে, আমি যে মুহুর্তে বলছি যে শিক্ষার্থীদের শারীরিক ক্রিয়াকলাপের ডেটা, আমি তাত্ক্ষণিকভাবে তাদের লিঙ্গ জিজ্ঞাসা করব এবং লিঙ্গ পরিবর্তনশীল না পেয়ে ডেটা বিশ্লেষণ করতেও বিরক্ত করব না।

অন্যদিকে, যদি আপনাকে স্ক্যাটার প্লটটি "বর্ণনা" করতে বলা হয়, তবে কিছু যায়। সম্পর্কিত, লিনিয়ার ফিট ইত্যাদি আপনার বাড়ির কাজের জন্য উপরের দুটি ধাপ পর্যাপ্ত হওয়া উচিত: এক্স (সম্পর্ক) এর গুণফল দেখুন, তারপরে এক্স ^ 2 (লিনিয়ারিটি)। আপনি এক্স ভেরিয়েবলটিকে ডি-মেনড করে তা নিশ্চিত করুন (গড়টি বিয়োগ)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.