পরীক্ষামূলক তথ্য উপস্থাপন


9

ডেটা ভিজ্যুয়ালাইজেশনের বিষয়ে আমার উপদেষ্টার সাথে আমার তর্ক রয়েছে। তিনি দাবি করেছেন যে পরীক্ষামূলক ফলাফলের প্রতিনিধিত্ব করার সময়, মানগুলি কেবল " চিহ্নিতকারী " দিয়ে প্লট করা উচিত , যেমন চিত্রের নমুনাতে উপস্থাপন করা হয়েছে। যখন বক্ররেখা কেবল একটি " মডেল " উপস্থাপন করে

Markers.png

আমি অন্যদিকে বিশ্বাস করি যে পাঠ্যের সহজলভ্যতার জন্য বেশিরভাগ ক্ষেত্রে একটি বক্ররেখা অপ্রয়োজনীয়, যেমনটি দ্বিতীয় চিত্রের নমুনায় দেখানো হয়েছে:

Lines.png

আমি কি ভুল নাকি আমার প্রফেসর? পরে যদি ঘটনাটি ঘটে থাকে তবে আমি কীভাবে তাকে বোঝাতে পারি।


5
পয়েন্টগুলি হ'ল ডেটা। আপনি পয়েন্টগুলির সাথে ফিট করে এমন বক্ররেখাগুলি ডেটা নয়। সুতরাং যদি আপনার উদ্দেশ্য ডেটা প্রদর্শন করা হয় ....

3
জেফি যেমন বলেছে আরও স্পষ্ট করে বলার জন্য: আপনি যে কার্ভগুলি প্লট করেছেন তা হ'ল একটি মডেল, কারণ আপনি এগুলি আঁকানোর সময় আপনি কোনও নির্দিষ্ট আকৃতি ধরেছিলেন এবং এই আকারটির জন্য আপনার কিছু যুক্তি ছিল। এই যুক্তি একটি নির্দিষ্ট মডেলের উপর ভিত্তি করে।
জীবাণু

1
আমি একটি মাইগ্রেশন অনুরোধ জমা দিয়েছি; এটি সত্যিই এখানে নয়, ক্রসওয়েডিয়াইটেডের অন্তর্গত।

2
আমি মনে করি এটি ক্রসভিলেটেডে অন টপিক হতে পারে তবে এটি এখানে অবশ্যই বিষয়টিতে রয়েছে । মাইগ্রেশন কেবলমাত্র এখানে অফ-টপিক থাকলেই বিবেচনা করা উচিত, (এমন দুটি প্রশ্নে এমন প্রশ্ন রয়েছে যা দুটি সাইটে অন-টপিক হবে, তা ঠিক আছে)। এটি বৈধ উত্তরের সাথে একটি আসল প্রশ্ন, এটি অবশ্যই অনেক শিক্ষাবিদদের জন্য প্রাসঙ্গিক।

2
আপনার দ্বিতীয় চার্টটি সন্দেহজনক। আপনি যদি সরল রেখাগুলি সহ পয়েন্টগুলিতে যোগ দিতেন তবে আপনার (সম্ভবত) ভিজ্যুয়াল স্পষ্টতার পক্ষে যুক্তি থাকতে পারে। তবে একটি বক্ররেখা ব্যবহার করে আপনি দাবি করছেন যে নীল লাইনের শিখর 740 at এবং বেগুনি রেখার নূন্যতম 840 at এ রয়েছে, যদিও সেই তাপমাত্রায় আপনার কোনও পরীক্ষামূলক ডেটা নেই। পরিমাপ করা ডেটার বাইরে মিনিট / সর্বাধিক উপস্থাপন করা একটি লাল পতাকা।
ড্যারেন কুক

উত্তর:


10

আমি এই নিয়মটি পছন্দ করি:

আপনার যদি চোখকে গাইড করার জন্য লাইনটির প্রয়োজন হয় (যেমন একটি প্রবণতা দেখানোর জন্য যে লাইনটি স্পষ্টভাবে দৃশ্যমান হবে না), আপনার লাইনটি লাগানো উচিত নয়

মানুষ নিদর্শনগুলি স্বীকৃতি দেওয়ার ক্ষেত্রে অত্যন্ত ভাল (আমরা বরং বিদ্যমান প্রবণতা মিস করার চেয়ে বিদ্যমান প্রবণতাগুলি দেখার পক্ষে) of যদি আমরা লাইন ছাড়াই ট্রেন্ডটি পেতে সক্ষম না হয়ে থাকি তবে আমরা পুরোপুরি নিশ্চিত হতে পারি যে ডেটা সেটে কোনও প্রবণতা নির্ধারিতভাবে প্রদর্শিত হতে পারে না।

দ্বিতীয় গ্রাফের বিষয়ে কথা বলছি, আপনার পরিমাপের পয়েন্টগুলির অনিশ্চয়তার একমাত্র ইঙ্গিতটি হ'ল 700 ডিগ্রি সেন্টিগ্রেড এ সি এর দুটি লাল বর্গক্ষেত্র। এই দুটি ছড়িয়ে যাওয়ার অর্থ হ'ল আমি উদাহরণ স্বীকার করব না

  • সি এর জন্য আদৌ একটি প্রবণতা রয়েছে: হে 1.2
  • 2.0 এবং 3.6 এর মধ্যে পার্থক্য রয়েছে
  • এবং নিশ্চিতভাবে বাঁকানো মডেলগুলি ডেটাকে উপভোগ করছে।

খুব ভাল কারণ দেওয়া ছাড়া। সেটা অবশ্য আবার মডেল হয়ে উঠবে।


সম্পাদনা করুন: ইভানের মন্তব্যের জবাব দিন:

আমি রসায়নবিদ এবং আমি বলব যে ত্রুটি ছাড়া কোনও পরিমাপ নেই - যা গ্রহণযোগ্য তা পরীক্ষামূলক এবং যন্ত্রের উপর নির্ভর করবে।

এই উত্তরটি পরীক্ষামূলক ত্রুটি দেখানোর বিরুদ্ধে নয় তবে এটি এটিকে দেখানো এবং আমলে নেওয়ার জন্য all

আমার যুক্তির পিছনে ধারণাটি হ'ল গ্রাফটি ঠিক একটি পুনরাবৃত্তি পরিমাপ দেখায়, সুতরাং যখন আলোচনার সময় কোনও মডেল কতটা ফিট হতে হবে (যেমন অনুভূমিক রেখা, সরলরেখা, চতুর্ভুজ, ...) এটি আমাদের পরিমাপের ধারণা দিতে পারে ত্রুটি. আপনার ক্ষেত্রে, এর অর্থ হল যে আপনি কোনও হার্ড মডেল (উদাহরণস্বরূপ থার্মোডাইনামিক বা গতিগত সমীকরণ) থাকলেও এটি চতুর্ভুজযুক্ত হওয়া উচিত - এমনকি আপনার পর্যাপ্ত ডেটা নেই, আপনি অর্থবোধক চতুষ্পদ (স্প্লাইন) ফিট করতে পারবেন না would ।

এটি উদাহরণস্বরূপ:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

এখানে প্রতিটি র সি এর 95% আস্থার ব্যবধানের সাথে এক রৈখিক একসাথে ফিট রয়েছে: হে অনুপাত:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

রৈখিক মডেল

মনে রাখবেন যে উচ্চতর সি এর জন্য: ও অনুপাতের আত্মবিশ্বাসের ব্যবধানটি 0 এর নীচে থাকে below এর অর্থ লিনিয়ার মডেলের অন্তর্নিহিত অনুমানগুলি ভুল। তবে, আপনি উপসংহারে পৌঁছাতে পারেন যে উচ্চতর সি: হে সামগ্রীর জন্য লিনিয়ার মডেলগুলি ইতিমধ্যে অত্যধিক উপযোগী।

সুতরাং, পিছনে পদক্ষেপ এবং শুধুমাত্র একটি ধ্রুবক মান ফিট করা (অর্থাত্ কোনও টি নির্ভরতা নেই):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

কোন টি নির্ভরতা

পরিপূরকটি হ'ল সি: ও এর উপর নির্ভরতা না রাখার মডেল:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

না সি: ও নির্ভরতা

তবুও, আত্মবিশ্বাসের ব্যবধানটি একটি অনুভূমিক বা এমনকি সামান্য আরোহণের রেখাগুলিকে coverেকে দেবে।

আপনি যেতে পারেন এবং উদাহরণস্বরূপ তিনটি সি: ও অনুপাতের জন্য আলাদা অফসেটের অনুমতি দিচ্ছেন তবে সমান equalালু ব্যবহার করে।

তবে ইতিমধ্যে আরও কয়েকটি পরিমাপ পরিস্থিতিটিকে মারাত্মকভাবে উন্নতি করবে - সি এর জন্য আস্থা অন্তর কতটা সংকীর্ণ তা নোট করুন: হে = 1: 1, যেখানে আপনার কেবলমাত্র 3 এর পরিবর্তে 4 পরিমাপ রয়েছে।

উপসংহার: আপনি যদি আমার পয়েন্টগুলির সাথে তুলনা করেন তবে আমি কোন সিদ্ধান্তে সন্দেহবাদী হব, সেগুলি কয়েকটি উপলব্ধ পয়েন্টগুলিতে খুব বেশিভাবে পড়ছিল!


আপনি খুব ভাল পয়েন্ট করা। তবে ইঞ্জিনিয়ারিংয়ে পরীক্ষামূলক ত্রুটি (অনিশ্চয়তা) খুব সাধারণ এবং এটি ধরে নেওয়া হয় যে 3 ~ 5% আপেক্ষিক ত্রুটি গ্রহণযোগ্য। তবুও আমাকে MAX, MIN এবং AVG ফলাফলগুলি দেখাতে হবে। সুতরাং আমার ক্ষেত্রে চিহ্নিতকারীগুলি হস্তগুলি এবং লাইনটি গড়।
ইভান পি।

খুব ভাল এবং চূড়ান্ত সহায়ক উদাহরণ (আপনি আমাকে আর সম্পর্কে আগ্রহী করেছেন)। সুতরাং, অবশ্যই সঠিক কাজটি হ'ল আরও ডেটা পয়েন্ট।
ইভান পি।

12

JeffE বলেছেন: পয়েন্ট হয় ডেটা । সাধারণভাবে, যতটা সম্ভব বাঁক যোগ করা এড়ানো ভাল। বক্ররেখার যুক্ত করার একটি কারণ হ'ল এটি পয়েন্ট এবং পয়েন্টগুলির মধ্যে প্রবণতাটিকে আরও পাঠযোগ্য making এটি বিশেষভাবে সত্য যদি আপনার কয়েকটি ডেটা পয়েন্ট থাকে।

যাইহোক, বিচ্ছুরিত ডেটা প্রদর্শন করার অন্যান্য উপায় রয়েছে , এটি স্ক্রেটার প্লটের চেয়ে ভাল হতে পারে। একটি সম্ভাবনা একটি বার চার্ট, যেখানে বিভিন্ন বারগুলি আপনার একক পয়েন্টের চেয়ে অনেক বেশি দৃশ্যমান। একটি রঙের কোড (আপনার চিত্রের মধ্যে ইতিমধ্যে যা রয়েছে তার সমান) প্রতিটি ডেটা সিরিজের ট্রেন্ডগুলি দেখতে সহায়তা করবে (বা ডেটা সিরিজটি বিভক্ত হতে পারে এবং ছোট স্বতন্ত্র বারের চার্টে একে অপরের পাশে উপস্থাপিত হবে)।

অবশেষে, আপনি যদি সত্যিই আপনার চিহ্নগুলির মধ্যে কিছু ধরণের লাইন যুক্ত করতে চান তবে দুটি ক্ষেত্রে রয়েছে:

  1. যদি আপনি কোনও নির্দিষ্ট মডেলটি আপনার ডেটা (লিনিয়ার, সুরেলা, যাই হোক না কেন) এর জন্য বৈধ হওয়ার প্রত্যাশা করেন, আপনার মডেলটি আপনার ডেটা মাপসই করা উচিত, পাঠ্যে মডেলটি ব্যাখ্যা করুন এবং ডেটা এবং মডেলের মধ্যে চুক্তির বিষয়ে মন্তব্য করুন।

  2. যদি আপনার কাছে ডেটাটির জন্য কোনও যুক্তিসঙ্গত মডেল না থাকে তবে আপনার গ্রাফে অতিরিক্ত অনুমানগুলি অন্তর্ভুক্ত করা উচিত নয় । বিশেষত, এর অর্থ এটি হ'ল স্ট্রেইট লাইনগুলি ছাড়া আপনার পয়েন্টগুলির মধ্যে কোনও ধরণের লাইন অন্তর্ভুক্ত করা উচিত নয়। এক্সেল (এবং অন্যান্য সফ্টওয়্যার) আঁকতে পারে এমন দুর্দান্ত "স্প্লাইন ফিট" ইন্টারপোলেশনগুলি মিথ্যা । আপনার ডেটা নির্দিষ্ট গাণিতিক মডেল অনুসরণ করার কোন বৈধ কারণ নেই, তাই আপনার সরলরেখার অংশগুলিতে লেগে থাকা উচিত।

    তদুপরি, সেক্ষেত্রে চিত্রের ক্যাপশনে কোথাও অস্বীকৃতি যুক্ত করা ভাল, যেমন "লাইন কেবল চোখের জন্য গাইড"।


2
বারগুলি আরও উপযুক্ত বলে মন্তব্যটি মাইনাস করার পক্ষে এটি দুর্দান্ত পরামর্শ। সম্পর্কিত সম্পর্কিত অনুরূপ আলোচনার জন্য "হ্যান্ডেল বার" প্লটগুলির বিকল্প গ্রাফিক্স দেখুন । ওপি দ্বারা ক্লাস্টার্ড বার চার্ট হিসাবে তালিকাভুক্ত প্লটটি কল্পনা করুন, টেম্পচার রেঞ্জগুলি জুড়ে প্রবণতাটি কল্পনা করা শক্তিশালী হয়ে উঠবে। পয়েন্টগুলি আরও সহজে দৃশ্যমান করার একটি উপায় হ'ল এক্স-অক্ষের সাথে সেগুলি ঘেউ ঘেউ করা এবং ক্লিভল্যান্ডের কাজটি পরামর্শ দেয় যে আমাদের যাইহোক বারগুলিতে পয়েন্টগুলি পছন্দ করা উচিত।
অ্যান্ডি ডব্লু

@ অ্যান্ডি ডব্লিউ, "এক্স-অক্ষ বরাবর এগুলি ঘিটাঘাটি" বলতে আপনার কী অর্থ?
ইভান পি।

1
@ ইভানপ।, আমি পয়েন্টগুলি একে একে ডান বা বাম দিকে সামান্য সরানোর জন্য অ্যাবসিসার নির্দিষ্ট মানটিতে স্থির করার পরিবর্তে পয়েন্টগুলি একে অপরের উপরে .াকা না রাখার অর্থ চাইছি। এটি গ্রাফের বাকী অংশ থেকে পরিষ্কার হওয়া উচিত যে তারা সত্যিকার অর্থে এক্স-অক্ষের গ্রুপগুলির জন্য সঠিক মানগুলি উল্লেখ করে এবং সামান্য জিটারটি মানগুলির মধ্যে প্রবণতাটি কল্পনা করার ক্ষেত্রে কোনও প্রভাব ফেলতে পারে না।
অ্যান্ডি ডব্লু

6

1-আপনার অধ্যাপক একটি বৈধ পয়েন্ট করছেন।

2-আপনার প্লটটি অবশ্যই পঠনযোগ্যতা আইএমএইচও বৃদ্ধি করে না।

3-আমার বোঝার থেকে এই ধরণের প্রশ্নটি সত্যই জিজ্ঞাসা করা সঠিক ফোরাম নয় এবং আপনার ক্রস-বৈধতা করে জিজ্ঞাসা করা উচিত।


পাঠযোগ্যতার সমস্যাটি কোথায় তা জানতে আগ্রহী এবং উন্নতির জন্য যে কোনও পরামর্শই আমরা স্বাগত জানাই
ইভান পি

1

কখনও কখনও পয়েন্টগুলিতে যোগদান করা অর্থপূর্ণ হয়, বিশেষত যদি তারা খুব ঘন হয়।

এবং তারপরে এটি বিভক্তকরণের অর্থ হতে পারে (উদাহরণস্বরূপ একটি স্প্লাইন সহ )। যাইহোক, যদি এটি অর্ডার একের স্প্লাইনের চেয়ে আরও উন্নত কিছু হয় (যার জন্য এটি দৃশ্যত সুস্পষ্ট যে এটি কেবল পয়েন্টগুলিতে যোগ দিচ্ছে), আপনার এটি উল্লেখ করা দরকার।

যাইহোক, কয়েক পয়েন্ট বা এক ডজন পয়েন্ট ক্ষেত্রে এটি ক্ষেত্রে হয় না। পয়েন্টগুলি যেমন আছে তেমনই চিহ্নসকে রেখে দিন। আপনি যদি কোনও লাইন (বা অন্য কোনও বাঁক) ফিট করতে চান তবে এটি একটি মডেল। আপনি এটি যুক্ত করতে পারেন, তবে স্পষ্ট হয়ে উঠুন - যেমন "লাইনটি লিনিয়ার রিগ্রেশন ফিটকে উপস্থাপন করে"।


0

আমি মনে করি এমন কিছু মামলা রয়েছে যেখানে কেউ একটি স্পষ্ট মডেল প্রস্তাব করে না, তবুও চোখের জন্য কোনও ধরণের গাইডের প্রয়োজন হয়। আমার নিয়মটি হ'ল প্লেগের মতো বক্ররেখা এড়ানো এবং ধারাবাহিকের ক্রমাগত পয়েন্টগুলির মধ্যে টুকরোচক সোজা লাইনগুলিতে আটকে যাওয়া।

এক জন্য, এই ধারণা পাঠকদের কাছে আরও স্পষ্ট obvious এছাড়াও পাঠকদের ডেটা দ্বারা অসমর্থিত ট্রেন্ডগুলি ধরে রাখতে দূরে রাখা স্পিকনিয়েন্স ভাল। যদি কিছু হয় তবে এটি কেবল শব্দ এবং বহিরাগতদের হাইলাইট করে।

যে জিনিসগুলির বিষয়ে আমি সতর্ক হই তা হ'ল স্প্র্লাইস, চতুর্ভুজ, রিগ্রেশন ইত্যাদির ব্যবহার কারিরি (অ-কঠোর, স্পষ্ট নয়) খুব সহজেই এটি মনে হয় যে প্রবণতা রয়েছে যেখানে কিছুই নেই। অপব্যবহারের একটি ভাল উদাহরণ হ'ল ইভানের আঁকা বাঁক। 3 ডেটাপয়েন্ট সহ আমি অন্তর্নিহিত মডেলটিতে কোনও ম্যাক্সিমা বা মিনিমা সুস্পষ্ট বলে মনে করি না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.