খুব বড় সংখ্যক জোড়যুক্ত ডেটাপয়েন্টের উপস্থাপনের জন্য গ্রাফিক্যভাবে একটি ভাল উপায় কী?


9

আমার ক্ষেত্রে জোড় করা ডেটা প্লট করার স্বাভাবিক উপায় হ'ল পাতলা opালু লাইন বিভাগগুলির একটি সিরিজ হিসাবে এটি দুটি গ্রুপের জন্য মিডিয়ানের মিডিয়ান এবং সিআই দিয়ে আচ্ছাদিত:

এখানে চিত্র বর্ণনা লিখুন

যাইহোক, এই ধরণের প্লটটি পড়তে আরও শক্ত হয়ে যায় কারণ ডেটাপয়েন্টগুলির সংখ্যা খুব বড় হয়ে যায় (আমার ক্ষেত্রে আমার 10000 জোড়া অর্ডার হয়):

এখানে চিত্র বর্ণনা লিখুন

আলফা হ্রাস কিছুটা সহায়তা করে, তবে এটি এখনও দুর্দান্ত নয়। সমাধান অনুসন্ধান করার সময় আমি এই কাগজটি জুড়ে এসেছি এবং একটি 'সমান্তরাল লাইনের প্লট' প্রয়োগের চেষ্টা করার সিদ্ধান্ত নিয়েছি। আবার এটি অল্প সংখ্যক ডেটাপয়েন্টের জন্য খুব সুন্দরভাবে কাজ করে:

এখানে চিত্র বর্ণনা লিখুন

তবে এই ধরণের প্লটটি দেখতে সুন্দর হওয়া এমনকি আরও শক্ত এন খুব বড়:

এখানে চিত্র বর্ণনা লিখুন

আমি মনে করি আমি পৃথকভাবে দুটি গ্রুপের বিতরণগুলি দেখতে পেলাম, যেমন বক্সপ্লট বা বেহালা দিয়ে, এবং উপরে দুটি মিডিয়ান / সিআই দেখিয়ে ত্রুটিযুক্ত বারগুলির সাথে একটি লাইন বানাতে পারি, তবে আমি সত্যিই সে ধারণাটি পছন্দ করি না, কারণ এটি প্রকাশ করে না ডেটা যুক্ত জোড় প্রকৃতি।

আমি 2 ডি স্ক্যাটার প্লটের ধারণা সম্পর্কে অত্যধিক আগ্রহী নই: আমি আরও কমপ্যাক্ট উপস্থাপনাকে পছন্দ করব এবং আদর্শভাবে এমন একটিতে যেখানে দুটি গোষ্ঠীর মান একই অক্ষের সাথে বদ্ধ হয়। সম্পূর্ণতার জন্য, ডেটাটি 2D স্ক্রেটারের মতো দেখায়:

এখানে চিত্র বর্ণনা লিখুন

খুব বড় নমুনা আকারের সাথে পেয়ারড ডেটা উপস্থাপনের আরও ভাল উপায়ের কথা কি কেউ জানেন? আপনি কিছু উদাহরণের সাথে লিঙ্ক করতে পারেন?

সম্পাদন করা

দুঃখিত, আমি যা খুঁজছি তা ব্যাখ্যা করার জন্য আমি পরিষ্কারভাবে খুব ভাল কাজ করতে পারি নি। হ্যাঁ, 2 ডি স্ক্যাটার প্লটটি কাজ করে এবং পয়েন্টগুলির ঘনত্ব আরও ভালভাবে জানাতে আরও অনেকগুলি উপায়ে এটি উন্নত করা যেতে পারে - আমি কার্নেলের ঘনত্বের প্রাক্কলন অনুসারে বিন্দুগুলিকে রঙিন কোড করতে পারি, আমি 2 ডি হিস্টোগ্রাম তৈরি করতে পারি , আমি বিন্দু ইত্যাদির উপরের অংশগুলি ইত্যাদি প্লট করতে পারি ... ইত্যাদি

যাইহোক, আমি মনে করি যে আমি যে বার্তাটি জানাতে চাইছি তার জন্য এটি অতিমাত্রার কাজ। প্রতি সেটের পয়েন্টের 2 ডি ঘনত্ব দেখানোর বিষয়ে আমি সত্যিই যত্নবান নই - আমাকে কেবলমাত্র এটিই দেখাতে হবে যে 'বার'-এর মানগুলি সাধারণত' বিন্দু 'এর চেয়ে বড়, যতটা সম্ভব সহজ এবং পরিষ্কারভাবে দেওয়া যায় , এবং ডেটার প্রয়োজনীয় জোড় প্রকৃতি হারানো ছাড়া। আদর্শভাবে আমি দুটি গ্রুপের সংলগ্ন অক্ষগুলি পরিবর্তে অরথোগোনাল অক্ষগুলির চেয়ে আরও ভালভাবে প্লট করতে চাই, যেহেতু এগুলি তাদের দৃশ্যমানভাবে তুলনা করা সহজ করে।

হয়তো স্ক্যাটার প্লটের চেয়ে ভাল বিকল্প আর কিছু নেই, তবে আমি জানতে চাই যে বিকল্পগুলির মধ্যে কাজ করতে পারে কিনা।


1
আপনি কি barঅনুভূমিক এবং dotউল্লম্ব অক্ষের সাথে সম্পর্কিত মানগুলি একটি স্ক্যাটারপ্লট হিসাবে সহজভাবে পরিকল্পনা করার চেষ্টা করেছেন ?
হাফম্যান

@ টিলহফম্যান হ্যাঁ, আমি আমার প্রশ্নের শেষে এটি উল্লেখ করেছি। এই মুহূর্তে আমার কাছে এটি সম্ভবত সেরা বিকল্প, তবে আমি আরও সংক্ষিপ্ত প্রতিনিধিত্ব করতে পছন্দ করব এবং আদর্শভাবে এটি একই অক্ষের সাথে উভয় দলের মানকে উপস্থাপন করে (সম্ভবত আমি অযৌক্তিকভাবে দাবি করছি ...)। আমি আমার প্রশ্নে স্ক্যাটারপ্লট যুক্ত করব।
ali_m

দুঃখিত, আমি এটা মিস করেছি এই মুহুর্তে আপনি কীভাবে আপনার সিন্থেটিক ডেটা তৈরি করছেন?
হাফম্যান

2
আপনি একটি "কমপ্যাক্ট" উপস্থাপনা বলতে কী বোঝাতে পারেন? স্ক্র্যাটারপ্লট সম্পর্কগুলি দেখানোর ক্ষেত্রে যেমন একটি ছোট্ট অঞ্চলে স্বতন্ত্রভাবে অস্বাভাবিক ডেটা দেখায় অন্যদের তুলনায় স্পষ্টতই উঁচু; এটি ডেটাসেটের আকার বাড়ার সাথে সাথে আরও ভাল হয় grows (10,000 কোনও স্ক্র্যাটারপ্লটের জন্য বড় নয়)) আপনি এতগুলি বিভিন্ন গ্রাফিক্সের উল্লেখ করেছেন যে আপনার সত্যিকারের যা প্রয়োজন তা হ্রাস করা অসম্ভব। দয়া করে আপনার ভিজ্যুয়ালাইজেশনের উদ্দেশ্যটি বলুন : ঠিক কী ধরণের তথ্য আপনি অন্যদের কাছে শিখতে বা জানানোর আশা করেন? আপনি কতটা নির্ভুল এবং দ্রুত তা অনুধাবন করা এবং বোঝার উদ্দেশ্যে করতে চান?
whuber

1
@ ভুবার অস্পষ্ট থাকার জন্য দুঃখিত। আমি যা প্রত্যাশা করছিলাম এটি উপাত্ত উপস্থাপনের একটি উপায় ছিল যা উভয় গোষ্ঠীর মানগুলি অরথোগোনাল অক্ষগুলির পরিবর্তে (একই সাথে তারা 'opালু লাইন' এবং 'সমান্তরাল লাইন' প্লটগুলিতে থাকে) হিসাবে একই ধরণের তৈরি করা হয়। বার্তাটি খুব সহজ - যে 'বার'-এর মানগুলি সাধারণত' বিন্দু 'এর চেয়ে বেশি। এর বাইরেও, আমি বিতরণের ঘনত্ব উপস্থাপনের বিষয়ে খুব বেশি যত্ন নিই না, যদিও আমি জানাতে চাই যে নমুনায় প্রচুর জোড় রয়েছে।
ali_m

উত্তর:


7

আমি কীভাবে আপনার লক্ষ্য বুঝতে পারি তা প্রদত্ত, আমি কেবল জোড়যুক্ত পার্থক্যগুলি গণনা করব ( bars - dots), তারপরে এই পার্থক্যগুলিকে একটি হিস্টগ্রাম বা কার্নেলের ঘনত্বের অনুমানের প্লটে প্লট করব। আপনি শূন্য পার্থক্য (2) পার্সেন্টাইলের যে কোনও পছন্দের সাথে মিল রেখে উল্লম্ব রেখার (1) এর যে কোনও সংমিশ্রণ যুক্ত করতে পারেন।

এটি ডেটাটির কোন অংশটি barsঅতিক্রম করবে dotsএবং সাধারণত পর্যবেক্ষণের পার্থক্যগুলি তা হাইলাইট করবে ।

(আমি অনুমান করেছি যে আপনি প্রকৃত, কাঁচা মান প্রদর্শন আগ্রহী নন, তাহলে barsএবং dotsএকই জমিতে।)

এই পার্থক্যগুলি তাৎপর্যপূর্ণ কিনা তা বোঝাতে কেউ আত্মবিশ্বাস বা উত্তরোত্তর বিশ্বাসযোগ্য অন্তর অন্তর্ভুক্ত করতে পারে। (এইচ / টি @ মিঃমিরিটোলজি!)


এই উত্তরে যুক্ত করা: আপনি জোড়যুক্ত পার্থক্যের জন্য আত্মবিশ্বাসের ব্যবধানগুলিও প্লট করতে পারেন যা পার্থক্যগুলি তাৎপর্যপূর্ণ কিনা তা দৃশ্যত নির্দেশ করবে।
মিঃ মেরিটোলজি

অনেকগুলি জোড় দিয়ে, এটি দেখতে আকর্ষণীয় হতে পারে যে পার্থক্যটি এছাড়াও "প্রারম্ভিক পয়েন্ট" এর উপর নির্ভর করে, সুতরাং আপনি যেমন একটি মডেল ফিট করতে পারেন Yবি=μ+ +অফসেট(Yএকজন)+ +Δ(Yএকজন-Y¯একজনবা সম্ভবত একটি চতুর্ভুজ শব্দ! গ্রাফিক্যালি, আপনি যেমন দেখিয়েছেন তেমন পয়সার প্লট করুন, তবে opeালের উপর নির্ভর করে হ্রাস করা আলফা এবং রঙের সাথে।
কেজেটিল বি হালওয়ারসেন

2

অনেকগুলি জোড়া দিয়ে আপনার আরও কাঠামোগত গভীরভাবে তদন্ত করার সম্ভাবনা রয়েছে, যেমন পার্থক্যটি Yবি-Yএকজন "সূচনা পয়েন্ট" উপর নির্ভর করে Yএকজন!

আপনি মত একটি মডেল ফিট করতে পারে

Yবি=μ+ +অফসেট(Yএকজন)+ +Δ(Yএকজন-Y¯একজন)+ +ε
এবং আপনি এমনকি একটি চতুর্ভুজ শব্দ যুক্ত করতে পারে + +Δ2(Yএকজন-Y¯একজন)2 অথবা আপনি জেনারালাইজড অ্যাডিটিভ মডেল (বা রিগ্রেশন স্প্লাইনস) ব্যবহার করে একটি স্প্লিনের সাথে রৈখিক + চতুর্ভুজ শব্দটি প্রতিস্থাপন করতে পারেন।

গ্রাফিকভাবে আপনি যেমন দেখিয়েছেন তেমন রেখাগুলি হ্রাস করতে পারে আলফা ফ্যাক্টর (*) দিয়ে, সম্ভবত কেবল রেখার এলোমেলো নমুনা দেখিয়ে আরও কমিয়ে দেওয়া যেতে পারে। তারপরে আপনি opeাল অনুযায়ী লাইনগুলি রঙ করতে পারেন ...

নিক কক্সের একটি মন্তব্যে উল্লিখিত ব্ল্যান্ড-আলটম্যান প্লটগুলির জন্য উদাহরণ হিসাবে দেখুন পৃথকভাবে একাধিক পর্যবেক্ষণের সাথে পদ্ধতির মধ্যে চুক্তি দেখুন বা ট্যাগটি দেখুন

(*) এখানে আলফা ফ্যাক্টর প্লটটি স্বচ্ছের ক্ষেত্রে একটি গ্রাফিকাল প্যারামিটার তৈরি করছে, সুতরাং প্রথম প্লট করা পয়েন্টগুলি পরে ওভারপ্লোটিং দ্বারা সম্পূর্ণরূপে ঘটায় না।


1
অনুরূপ চেতনায়, আমি মনে করি, চক্রান্ত পার্থক্য (এ -খ) বনাম গড় (এ + বি) / 2 অনেক ক্ষেত্রে একটি সাধারণ ডিভাইস। চিকিত্সার পরিসংখ্যানগুলিতে আটকে থাকা একটি নাম হ'ল "ব্ল্যান্ড-অল্টম্যান প্লটস" যদিও সম্পর্কিত লেখকরা মৌলিকত্বের কোনও দাবি করেননি এবং এই ধারণাটি কমপক্ষে 1950 এর দশকে ফিরে আসে।
নিক কক্স

1

আমি 2 ডি স্ক্যাটার প্লট পছন্দ করব। জনাকীর্ণ অঞ্চলে আরও বৈপরীত্যের জন্য আমি হালকা ধূসরতে রেফারেন্স লাইন আঁকব। ভিড় উপশম করতে, সীমানা ছাড়াই চিহ্নিতকারীদের আঁকুন, আরও আলফা হ্রাস করুন, মার্কারের আকার হ্রাস করুন।

এটি বলেছে, আপনি যদি বিতরণের ডানার তুলনায় টিপিক্যাল জোড়ায় বেশি আগ্রহী হন তবে এর সংখ্যার যোগফলের dotsবিপরীতে ক্রমসংখ্যক যোগফলের লাইন প্লট করার চেষ্টা করুনbars । প্লটটি এখনও 2 ডি তবে অনেক কম কালি দিয়ে। প্লট করার ক্ষেত্রও সংরক্ষণ করতে, আপনি ট্রেসটি 45 by দ্বারা ঘোরান যাতে ফ্রেমটি রেফারেন্স দিক হিসাবে কাজ করে।

এই প্লটটি ডেটাগুলিতে যে কোনও প্রবণতাও প্রদর্শন করবে। যদি প্রক্রিয়াটি স্থির হিসাবে পরিচিত হয় তবে জোড়গুলি, যেমন, তাদের জ্যামিতিক গড়, দ্বারা বাছাই করুন sqrt(bars*dots)


0

আমি আপনার কাছে মিডিয়ান এবং চতুর্ভুজগুলির জন্য যেমন রেখাগুলি তৈরি করার পরামর্শ দিচ্ছি বা আপনি যতটুকু পার্সেন্টাইল তার পক্ষে চান। মিডিয়ান অন্যান্য শতকরা রেখার চেয়ে ঘন / আরও বিচক্ষণ থাকতে পারে। এটি বর্তমানে আপনার ক্ষেত্রে ব্যবহৃত প্লটের সরলতা এবং পরিচিতির সাথে আপস না করে বিতরণ জুড়ে ডেটা কীভাবে আচরণ করে তা দেখার ক্ষমতা রক্ষা করতে সহায়তা করবে।

এছাড়াও, এত উচ্চতর নমুনার আকারের সাথে, ত্রুটি বারগুলির সাথে গড় বা মাঝারি প্রবণতা সম্ভবত যথেষ্ট হবে কারণ আপনি এতটা পুঙ্খানুপুঙ্খভাবে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি উপভোগ করবেন। বায়োমেডিকাল ক্ষেত্রটি সেই জুটিযুক্ত লাইনের প্লটগুলির উপরও নির্ভর করে, তবে এটি প্রায়শই ঘটে কারণ নমুনা আকারটি 10-20 এর ক্রম হতে পারে, সুতরাং সম্ভাব্য লিভারেজ পয়েন্টগুলি কল্পনা করা গুরুত্বপূর্ণ।


0

আমার প্রথম পরামর্শটি একটি বিচ্ছুরিত প্লট।

যদি আপনার প্লটে 10000 বিন্দু অসমভাবে ছড়িয়ে পড়ে তবে এখনও একটি অস্পষ্ট মেঘ, উত্তাপের মানচিত্রটি বিবেচনা করুন। X = 10.5, y = 11.5 এ পিক্সেলের রঙটি বোঝায় যে 10.45 এবং 10.55 এর মধ্যে কত গুণ মান 11.45 এবং 11.55: 0 = সাদা = আরজিবি (255,255,255), 1 = নীল = আরজিবি (0, 0,255), 2 = আরজিবি (1,0,254), ... 256 এবং উপরে = আরজিবি (255,0,0) = লাল


এটি মূলত আমাকে কম 2 টি রেজোলিউশন বাদে 2 ডি স্ক্যাটার হিসাবে একই ধরণের উপস্থাপনা দেয়। আমি এ জাতীয় কিছু করতে পারি তবে আমি আদর্শভাবে আরও কমপ্যাক্ট উপস্থাপনের জন্য প্রত্যাশা করছিলাম যা উভয় গ্রুপের জন্য অরথোগোনাল অক্ষের পরিবর্তে একই অক্ষের সাথে মূল্যবোধ তৈরি করে।
ali_m

1
আপনার বিক্ষিপ্ত প্লটের দিকে তাকিয়ে আমি দেখতে পাচ্ছি যে আপনি আপনার "কালি স্পট" এর কেন্দ্রে প্রচুর তথ্য হারাচ্ছেন। আপনার কিছু করা দরকার, হয় রূপান্তরকরণ প্রয়োগ করে (লোগারিদম?) অথবা আমার প্রস্তাবিত হিথ ম্যাপের সাহায্যে।
ডার্ক হর্স্টন

দুঃখিত! আপনার পরামর্শটি সম্পূর্ণ যুক্তিসঙ্গত একটি - আমি যা খুঁজছি তা ব্যাখ্যা করার জন্য আমি এখনও যথেষ্ট ভাল কাজ করতে পারি নি। হ্যাঁ, একটি দ্বি-মাত্রিক প্লট (স্ক্রেটার, হিটম্যাপ, কনট্যুর প্লট ইত্যাদি) নমুনা পয়েন্টগুলির ঘনত্বের উপস্থাপনে একটি ভাল কাজ করবে, তবে আমি মনে করি যে এটি সত্যই প্রদর্শিত হওয়ার চেয়ে বেশি তথ্য। আমাকে যা করতে হবে তা দেখানোর জন্য যে 'বার' এর মানগুলি সাধারণত 'বিন্দু' এর চেয়ে বেশি। আমি ডেটার সংযুক্ত প্রকৃতি সংরক্ষণ করে এটি দেখানোর সহজতম উপায় খুঁজছি।
ali_m

ক্যাটটার প্লটের তির্যকটি কি দিকটি যথেষ্ট ভাল নির্দেশ করে না?
ডার্ক হর্স্টন

না, তবে সম্ভবত আমার অযৌক্তিক প্রত্যাশা রয়েছে :-)
অ্যালি_ম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.