সময় সিরিজের সেটগুলির তুলনা


10

আমি তুলনা করতে চাইছি সময়-সিরিজের ডেটা তিন সেট আছে। এগুলি প্রায় 12 দিনের 3 টি পৃথক সময়কালে নেওয়া হয়েছে। ফাইনালের সপ্তাহগুলিতে এগুলি কলেজের লাইব্রেরিতে নেওয়া সর্বনিম্ন, সর্বোচ্চ এবং সর্বনিম্ন প্রধান সংখ্যা। আমার গড়, সর্বোচ্চ এবং সর্বনিম্ন কারণটি ছিল কারণ প্রতি ঘন্টার মাথার সংখ্যাগুলি অবিচ্ছিন্ন ছিল না ( একটি সময়ের সিরিজের নিয়মিত ডাটা ফাঁকগুলি দেখুন )।

এখন ডেটা সেটটি দেখতে এমন দেখাচ্ছে। সন্ধ্যায় 12 টি সন্ধ্যার জন্য একটি ডেটা পয়েন্ট (গড়, সর্বাধিক বা মিনিট) থাকে is কেবলমাত্র 12 দিনের উদ্বেগের মধ্যে 3 টি সেমিস্টার ডেটা নেওয়া হয়েছিল। সুতরাং উদাহরণস্বরূপ, বসন্ত 2010, পতন 2010 এবং মে 2011 এর 12 টি পয়েন্টের একটি সেট রয়েছে। এখানে একটি উদাহরণ চার্ট দেওয়া হয়েছে:

এখানে চিত্র বর্ণনা লিখুন

আমি সেমিস্টারে ওভারলাইড করেছি কারণ আমি দেখতে চাই যে কীভাবে প্যাটার্নগুলি সেমিস্টার থেকে সেমিস্টারে পরিবর্তিত হয়। তবে লিঙ্কযুক্ত থ্রেডে যেমন আমাকে বলা হয়েছে , সেমিস্টারে টেল টু-হেডে থাপ্পর দেওয়া ভাল ধারণা নয় কারণ এর মধ্যে কোনও ডেটা নেই।

প্রশ্নটি তখন: প্রতিটি সেমিস্টারের উপস্থিতির নিদর্শন তুলনা করতে আমি কোন গাণিতিক কৌশলটি ব্যবহার করতে পারি? সময়-সিরিজের জন্য বিশেষ কিছু আছে যা আমার অবশ্যই করা উচিত, বা আমি কেবল শতাংশ পার্থক্য নিতে পারি? আমার লক্ষ্যটি হ'ল এই দিনগুলিতে লাইব্রেরির ব্যবহার উপরে বা নীচে চলছে; আমি এটি নিশ্চিত করার জন্য কোন কৌশল (গুলি) ব্যবহার করা উচিত তা নিশ্চিত।

উত্তর:


8

স্থির-প্রভাব অ্যানোভা (বা এর লিনিয়ার রিগ্রেশন সমতুল্য) এই ডেটাগুলি বিশ্লেষণের জন্য পদ্ধতিগুলির একটি শক্তিশালী পরিবার সরবরাহ করে। উদাহরণস্বরূপ, এখানে প্রতি সন্ধ্যায় গড় এইচসির প্লটগুলির সাথে সামঞ্জস্যপূর্ণ একটি ডেটাসেট রয়েছে (রঙের জন্য একটি প্লট):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

আনোভা এই টেবিলের countবিরুদ্ধে dayএবং colorউত্পাদন করে:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

model0.0000 এর পি-মানটি ফিটটি অত্যন্ত তাৎপর্যপূর্ণ দেখায়। day০.০০০০ এর পি-মানটিও অত্যন্ত তাৎপর্যপূর্ণ: আপনি দিনের পর দিন পরিবর্তনগুলি সনাক্ত করতে পারেন। যাইহোক, color0.2001 এর (সেমিস্টার) পি-মানটিকে উল্লেখযোগ্যভাবে বিবেচনা করা উচিত নয়: আপনি প্রতিদিনের বিভিন্নতার জন্য নিয়ন্ত্রন করার পরেও তিনটি সেমিস্টারের মধ্যে পদ্ধতিগত পার্থক্য সনাক্ত করতে পারবেন না

টুকির এইচএসডি ("সৎ উল্লেখযোগ্য পার্থক্য") পরীক্ষাটি 0.05 স্তরে প্রতিদিনের উপায়ে (সেমিস্টার নির্বিশেষে) নিম্নলিখিত উল্লেখযোগ্য পরিবর্তনগুলি (অন্যদের মধ্যে) চিহ্নিত করে:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

এটি গ্রাফগুলিতে চোখ কী দেখতে পারে তা নিশ্চিত করে।

কারণ গ্রাফগুলি বেশ খানিকটা লাফিয়ে যায়, তাই দিন-দিনের পারস্পরিক সম্পর্ক (সিরিয়াল পারস্পরিক সম্পর্ক) সনাক্ত করার উপায় নেই, যা পুরো সিরিজ বিশ্লেষণের পুরো বিষয়। অন্য কথায়, সময় সিরিজের কৌশলগুলি নিয়ে বিরক্ত করবেন না: তাদের আরও বৃহত্তর অন্তর্দৃষ্টি দেওয়ার জন্য এখানে পর্যাপ্ত ডেটা নেই।

যে কোনও পরিসংখ্যানগত বিশ্লেষণের ফলাফলকে কতটা বিশ্বাস করা উচিত তা সর্বদা অবাক করা উচিত। হিটারোসিসেস্টাস্টিটির জন্য বিভিন্ন ডায়াগনস্টিকস (যেমন ব্রুশ-পৌত্তলিক পরীক্ষা ) কোনও লাভজনক দেখায় না। অবশিষ্টাংশগুলি খুব সাধারণ দেখাচ্ছে না - এগুলি কয়েকটি দলে পড়ে যায় - সুতরাং সমস্ত পি-মানগুলি লবণের দানা দিয়ে নিতে হবে। তবুও, তারা যুক্তিসঙ্গত দিকনির্দেশনা সরবরাহ করেছে এবং গ্রাফগুলি দেখে আমরা যে ডেটা পেতে পারি তা উপলব্ধি করতে সহায়তা করে।

আপনি প্রতিদিনের মিনিমা বা প্রতিদিনের ম্যাক্সিমায় একটি সমান্তরাল বিশ্লেষণ চালিয়ে যেতে পারেন। গাইড হিসাবে অনুরূপ প্লট দিয়ে শুরু করার এবং স্ট্যাটিস্টিকাল আউটপুট পরীক্ষা করার বিষয়টি নিশ্চিত করুন।


+1, সাধারণ এখনও শক্তিশালী কৌশলগুলির প্রদর্শনের জন্য। আমি সবচেয়ে কৌতূহলী যদিও আপনি গ্রাফ থেকে মানগুলি বের করতে কীভাবে পরিচালনা করেছিলেন? কিছু সফ্টওয়্যার, বা ছাত্রের সাথে খারাপ আচরণ করার শাস্তি? :)
এমপিক্টাস

1
@ এমপি আমি গ্রাফিকের স্ক্রিনশটের শীর্ষে পয়েন্টগুলি ডিজিটালাইজড করেছি, জিআইএস সফ্টওয়্যার দিয়ে তাদের স্থানাঙ্কগুলি বের করেছি, একটি স্প্রেডশিট দিয়ে স্থানাঙ্কগুলি রূপান্তরিত করেছি, তারপরে এটি একটি পরিসংখ্যান প্যাকেজে আমদানি করেছি। এটি কয়েক মিনিট সময় নেয়। আপনার কেবলমাত্র ডেটা কোনও চার্ট বা মানচিত্রের আকারে থাকলে এই পদ্ধতিটি কার্যকর হতে পারে।
whuber

পছন্দ করুন আমি এই সম্পর্কে অবগত ছিল না।
সানকুলসু

@ তবে আমি অবাক হয়েছি যে 36 টি স্বতন্ত্র পর্যবেক্ষণের তুলনায় 12 টি স্বতঃসীমাবদ্ধ রিডিংয়ের 3 সেট থাকার কী প্রভাব রয়েছে। আমি ভাবব যে আমাদের সত্যিই পার্সেল আউট করার 35 ডিগ্রি স্বাধীনতা নেই। আপনি যে সম্ভাবনাগুলি প্রতিফলিত করছেন তা কেন্দ্রীয় চি-স্কোয়ার ভেরিয়েবলের অ-কেন্দ্রীয় চি-বর্গ ভেরিয়েবলের অনুপাতের ভিত্তিতে তৈরি করা হয়। আমি এখানে কি অনুপস্থিত কিছু আছে? প্লট থেকে নম্বরগুলি বের করার জন্য দুর্দান্ত কাজ। এই বিষয়ে আমাদের সহায়তা করার জন্য কোনও নির্দিষ্ট প্রোগ্রাম রয়েছে যা আপনি উল্লেখ করতে পারেন।
আইরিশস্ট্যাট

1
xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0

0

সারা, আপনার ৩ numbers নম্বর (প্রতিটি চক্রের 12 টি মান; 3 চক্র) এবং একটি 11 টি সূচক সহ একটি প্রতিরোধের মডেল তৈরি করুন যার সম্ভাব্য সপ্তাহের-সেমিস্টারের প্রভাব প্রতিফলিত করে এবং তারপরে রেন্ডার করার জন্য প্রয়োজনীয় কোনও হস্তক্ষেপ সিরিজ (ডাল, স্তর স্তর) চিহ্নিত করুন অবশিষ্টাংশের গড় সর্বত্র 0.0 হয় বা কমপক্ষে পরিসংখ্যানগতভাবে 0.0 এর থেকে আলাদা নয়। উদাহরণস্বরূপ, যদি আপনি 13 পর্যায় পর্যায়ে একটি শিফট শনাক্ত করেন তবে এটি প্রথম সেমিস্টারের গড়ের মধ্যে অর্থাৎ প্রথম 12 মানগুলির মধ্যে শেষ দুটি সেমিস্টারের গড় (শেষ 24 মান) এর মধ্যে একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ পার্থক্যের পরামর্শ দিতে পারে। আপনি সম্ভবত সেমেস্টার প্রভাবের কোনও সপ্তাহের অনুমানটি আঁকতে বা অনুমানটি পরীক্ষা করতে সক্ষম হতে পারেন। এক্ষেত্রে আপনার জন্য একটি ভাল টাইম সিরিজ প্যাকেজ কার্যকর হতে পারে। এই বিশ্লেষণাত্মক অঙ্গনে আপনাকে সহায়তা দেওয়ার জন্য কোনও ব্যক্তির সন্ধানের প্রয়োজন হতে পারে।


1
এটি দ্বিমুখী আনোভা (চক্র অনুসারে দিন) এর বর্ণনার মত শোনাচ্ছে এবং তারপরে 11 জোড়া দিনের পরিকল্পিত পরীক্ষা করা হয়। সাধারণ পুরানো পরিসংখ্যান সফ্টওয়্যার সম্ভবত বিশেষ সময় সিরিজ সফ্টওয়্যার চেয়ে আরও নমনীয় এবং শক্তিশালী হতে চলেছে; এটা অবশ্যই সহজ হবে। বিটিডাব্লু, সূচীগুলি দিন (পরীক্ষার সময়কালে) হয়, সেমিস্টারের সপ্তাহ নয়।
হোয়বার

প্রতিদিনের সর্বোচ্চ এবং সর্বনিম্ন তুলনা করার জন্যও আমি কী ANOVA ব্যবহার করতে পারি? বা এটি কি কেবলমাত্র উপায়ে প্রযোজ্য?
induvidyul

@ সরাহ এটি মিনিমা এবং ম্যাক্সিমার ক্ষেত্রে প্রযোজ্য। যাইহোক, এই পরিসংখ্যানগুলি মাধ্যমের চেয়ে অনেক বেশি পরিবর্তনশীল হতে পারে, তাই আপনি সময়ের সাথে বা সেমিস্টারের মধ্যে পরিবর্তনগুলি সনাক্ত করতে পারবেন এমন সম্ভাবনা কম। আপনার গ্রাফটি এটি পরিষ্কার করে দিয়েছে যে এর অর্থগুলি উল্লেখযোগ্যভাবে পৃথক। যদি আপনি পারেন তবে দিনের সময়কে অন্তর্ভুক্ত করে এবং তাদের দৈনিক উপায়ের পরিবর্তে আসল ঘন্টার সংখ্যাগুলি ব্যবহার করে আনোভাটিকে ত্রি- উপায়ে তৈরি করুন।
whuber

@ হুইবার: আমাকে বলা হয়েছে যে প্রতি ঘণ্টায় ডেটা একসাথে স্ট্রিং করা ব্যবহারযোগ্য নয়, যেহেতু এগুলি কেবল সকাল 12 টা থেকে 6 টা পর্যন্ত রেকর্ড করা হয়েছে। আমার আগের প্রশ্নটি দেখুন একটি সময়ের সিরিজে নিয়মিত ডেটা ফাঁক
induvidyul

@ সারাহ আমি অন্যরকমের বিষয়ে কথা বলছি: তিনটি কারণের ভিত্তিতে নির্ভরতার মডেল করুন: পিরিয়ড (তার মধ্যে 3), পিরিয়ডে দিন (তার মধ্যে 12) এবং দিনের ঘন্টা (তার মধ্যে 6)। এমনকি আপনি কয়েক ঘন্টার মধ্যে সম্পর্কের জন্য অ্যাকাউন্ট করতে পারেন, তবে এটি আপনার প্রয়োজনের জন্য প্রয়োজনীয় নাও হতে পারে। নির্বিশেষে, আমি প্রতিটি পিরিয়ডকে 12 * 24 গুনের একটি বিঘ্নিত সিরিজ হিসাবে দেখার পরামর্শ দিচ্ছি না : প্রচুর পরিমাণে অনুপস্থিত তথ্য রয়েছে।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.