আমি কীভাবে প্রোগ্রামিংয়ে ডেটা সিরিজের বিভিন্ন বিভাগগুলি বিভিন্ন বক্ররেখার সাথে ফিট করতে পারি?


14

প্রদত্ত ডেটাসেটের বিভাগগুলি আলাদাভাবে ফিট করার জন্য কোনও নথিভুক্ত অ্যালগরিদমগুলি কি সেরা ফিটের বিভিন্ন বক্ররেখাতে আছে?

উদাহরণস্বরূপ, বেশিরভাগ মানব ডেটা এই চার্টের দিকে তাকাতে সহজেই এটিকে 3 ভাগে বিভক্ত করতে পারে: একটি সাইনোসয়েডাল বিভাগ, একটি লিনিয়ার অংশ এবং বিপরীত এক্সফোনেনশিয়াল বিভাগ। আসলে, আমি সাইন ওয়েভ, একটি লাইন এবং একটি সাধারণ ক্ষতিকারক সূত্র দিয়ে এই নির্দিষ্টটি তৈরি করেছি।

তিনটি পৃথক অংশের সাথে ডেটার চার্ট

এর মতো অংশগুলি সন্ধানের জন্য কি বিদ্যমান অ্যালগরিদম রয়েছে, যা পরে আলাদা আলাদাভাবে বিভিন্ন বক্ররেখা / রেখাগুলিতে এক ধরণের যৌগিক সিরিজের উপাত্তের উপসর্গগুলির সর্বোত্তম-ফিটগুলির জন্য তৈরি করা যায়?

মনে রাখবেন যে উদাহরণটির অংশগুলির প্রান্তগুলি বেশ লাইন আপ করার পরেও এটি অগত্যা হবে না; সেগমেন্ট কাট অফে মানগুলিতে হঠাৎ ধাক্কাও পড়তে পারে। সম্ভবত এই কেসগুলি সনাক্ত করা সহজ হবে।

আপডেট: এখানে বাস্তব-বিশ্বের ডেটাগুলির একটি ছোট্ট একটি চিত্র দেওয়া হয়েছে: রিয়েল ওয়ার্ল্ড চার্ট

আপডেট 2: এখানে একটি অসাধারণভাবে ছোট রিয়েল-ওয়ার্ল্ড ডেটা সেট করা হয়েছে (কেবল 509 ডেটা পয়েন্ট):

4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235

এখানে আঁকাগুলি রয়েছে, ডটড লাইনগুলির সাথে চিহ্নিত কিছু পরিচিত রিয়েল-ওয়ার্ল্ড এলিমেন্ট প্রান্তগুলির প্রশংসিত অবস্থান সহ, আমরা সাধারণত একটি বিলাসিতা রাখি না:

এখানে চিত্র বর্ণনা লিখুন

আমাদের কাছে একটি বিলাসিতা রয়েছে তবে তা হ'ল দূরদৃষ্টি: আমার ক্ষেত্রে ডেটা কোনও সময়ের সিরিজ নয়, বরং স্থানিকভাবে সম্পর্কিত; এটি কেবল একটি সম্পূর্ণ ডেটাসেট (সাধারণত 5000 - 15000 ডেটা পয়েন্ট) একবারে বিশ্লেষণ করে বুদ্ধিমান করে তোলে, চলমান পদ্ধতিতে নয়।


1
সিভিতে পিএস প্রথম পোস্ট; আমি একটি সফ্টওয়্যার বিকাশকারী এবং আমি সাধারণত আরও বেশি থাকি। আমি যদি কোনও স্থানীয় নিষেধাজ্ঞা লঙ্ঘন করেছি তবে ক্ষমা চাই। আমার উত্তরগুলির সন্ধানের অনেকগুলি এখানেই নেতৃত্ব দিয়েছে, তাই আমি ভেবেছিলাম এটি জিজ্ঞাসার সবচেয়ে ভাল জায়গা হবে।
বার্বড

আপনি কেন ডেটা পোস্ট করবেন না এবং আমি উদাহরণ দিয়ে আপনার প্রশ্নের উত্তর দেওয়ার চেষ্টা করব।
আইরিশস্ট্যাট

একটি সম্ভাবনা হ'ল একটি মেটা-মডেল ব্যবহার করে একবারে পুরো কার্ভগুলির মাপসই করা। জিনিসগুলিকে আরও সুনির্দিষ্ট করে তুলতে, ধরুন আপনার চূড়ান্ত উদ্দেশ্যটি হিস্টোগ্রামটি মসৃণ করা, একটি কেডিপি ব্যবহার করে বলুন। তারপরে, কেডিএর থেকে আপনার মসৃণ অনুমানটি আরও সুনির্দিষ্ট হবে যদি আপনি এমন কোনও মডেল ব্যবহার করেন যেখানে কার্নেলের প্রস্থটি এখানে ব্যবহৃত মডেলের মতো এর মানের পরিসীমা পরিবর্তনের জন্য অনুমোদিত হয় , সমীকরণ (2) - (3)এক্স
ব্যবহারকারী 603

1
আপনি উদাহরণটি তৈরি করেছেন যাতে ধারণাটি বোঝায়: এতদূর, এত ভাল। সত্যিকারের হিস্টোগ্রামগুলির সাথে, এটি অনেক বেশি সাধারণ যে জটিল আকারটি ওভারল্যাপিং বিতরণের মিশ্রণকে প্রতিফলিত করে: পর্যবেক্ষণ করা হিস্টোগ্রামের পরিবর্তন স্থানগুলিতে আগ্রহটি তখন দেখা যায় না যা সাধারণত দৃ conv়ভাবে উপস্থিত থাকে না বা মিশ্রণগুলি নিয়ে চিন্তা করার সঠিক উপায় নয়। তবে এটি সম্ভব যে আপনি পরিসংখ্যান বিজ্ঞানের মান তুলনায় অনেক বেশি বিস্তৃতভাবে "হিস্টোগ্রাম" ব্যবহার করছেন যেখানে এর অর্থ ফ্রিকোয়েন্সি বা সম্ভাব্যতা বিতরণের বার চার্ট (কেবল)।
নিক কক্স

@ আইরিশ স্ট্যাট - সাধারণ ডেটাসেটে 5000 থেকে 15000 এন্ট্রি থাকে। আমি এখানে একটি সংক্ষিপ্ত বাস্তব বাস্তব প্রস্তুত করার চেষ্টা করছিলাম, তবে এটি একটি খারাপ উদাহরণ হিসাবে প্রমাণিত হয়েছিল, এবং আমাকে আবার শুরু করতে হয়েছিল। অন্যদিকে, এটি করার ফলে প্রথমে নিদর্শনগুলির সন্ধানের জন্য উপায়ে মসৃণকরণ এবং গড়বৃদ্ধির পরিমাণের দিক দিয়ে আমার কাছে একটি আংশিক জবাব দেওয়ার পরামর্শ দেওয়া হয়েছিল, পরে জরিমানা করা হবে তাই তার জন্য ধন্যবাদ :) আমার কাছে সত্যিকারের একটি মাত্র 509 প্রশস্ত যে দেখে মনে হচ্ছে এটি ভাল হতে পারে; আমি যখন পারি তখন এ প্রশ্নের সাথে যুক্ত করব।
বার্বড

উত্তর:


2

প্রশ্নটির আমার ব্যাখ্যাটি হ'ল ওএপি এমন পদ্ধতিগুলির সন্ধান করছে যা এইচএসি অবশিষ্টাংশ নয়, সরবরাহিত উদাহরণগুলির আকার (গুলি) মাপসই করে। তদতিরিক্ত, স্বয়ংক্রিয় রুটিনগুলির জন্য যা উল্লেখযোগ্য মানব বা বিশ্লেষক হস্তক্ষেপের প্রয়োজন হয় না তা পছন্দসই। এই থ্রেডে তাদের জোর দেওয়া সত্ত্বেও বক্স-জেনকিনস উপযুক্ত হতে পারে না, কারণ তাদের যথেষ্ট বিশ্লেষকদের জড়িত হওয়া দরকার।

এই ধরণের অ-মুহুর্ত ভিত্তিক, প্যাটার্ন মিলের জন্য আর মডিউল বিদ্যমান। পারমুয়েশন ডিস্ট্রিবিউশন ক্লাস্টারিং হ'ল একটি ম্যাক্স প্ল্যাঙ্ক ইনস্টিটিউট বিজ্ঞানীর দ্বারা তৈরি এমন একটি প্যাটার্ন মেলানো কৌশল যা আপনার বর্ণিত মানদণ্ডগুলি পূরণ করে। এটির প্রয়োগ সময় সিরিজের ডেটাতে হয় তবে এটি সীমাবদ্ধ নয়। আর মডিউলটি তৈরি করা হয়েছে তার জন্য এখানে একটি উদ্ধৃতি দেওয়া আছে:

পিডিসি: আন্দ্রেয়াস ব্র্যান্ডমায়ার লিখেছেন জটিলতা ভিত্তিক ক্লাস্টারিং টাইম সিরিজের জন্য একটি আর প্যাকেজ

পিডিসি ছাড়াও, মেশিন লার্নিং রয়েছে, ইউসি ইরভিনে ইমন কেওগের দ্বারা নির্মিত আইস্যাক্স রুটিন এটিও তুলনীয়।

অবশেষে, ডেটা স্মেশিংয়ের এই কাগজটি রয়েছে: ডেটাতে লুকিং অর্ডার উন্মোচন করালিখেছেন চট্টোপাধ্যায় এবং লিপসন। চতুর শিরোনামের বাইরেও কাজের একটি গুরুতর উদ্দেশ্য রয়েছে। এখানে বিমূর্ততাটি রয়েছে: "স্বয়ংক্রিয় বক্তৃতা স্বীকৃতি থেকে শুরু করে অস্বাভাবিক তারা আবিষ্কার করা, প্রায় সমস্ত স্বয়ংক্রিয় আবিষ্কারের কার্যাদি অন্তর্নিহিত হ'ল সংযোগ এবং স্পট বহিরাগতদের সনাক্তকরণের জন্য একে অপরের সাথে ডেটা স্ট্রিমের তুলনা এবং বিপরীত করার ক্ষমতা data তথ্যের বিস্তার সত্ত্বেও, স্বয়ংক্রিয় পদ্ধতিগুলি গতি রক্ষা করছে না A একটি মূল প্রতিবন্ধটি হ'ল বর্তমানে বেশিরভাগ ডেটা তুলনা অ্যালগরিদমগুলি কোনও মানব বিশেষজ্ঞের উপর নির্ভর করে যে ডেটাগুলির 'বৈশিষ্ট্যগুলি' তুলনার জন্য প্রাসঙ্গিক তা নির্দিষ্ট করতে Here এখানে, আমরা স্বেচ্ছাসেবীর উত্সগুলির মধ্যে সাদৃশ্য অনুমান করার জন্য একটি নতুন নীতি প্রস্তাব করি ডোমেন জ্ঞান বা শিক্ষণ উভয়ই ব্যবহার করে ডেটা স্ট্রিম a আমরা অনেকগুলি বাস্তব-বিশ্বের চ্যালেঞ্জিং সমস্যা থেকে ডেটা বিশ্লেষণের জন্য এই নীতিটির প্রয়োগ প্রদর্শন করি, মৃগী আক্রান্ত সংক্রান্ত ইলেক্ট্রো-এনসেফালোগ্রাফিক নিদর্শনগুলির ছিন্নমূলকরণ, অসামান্য কার্ডিয়াক ক্রিয়াকলাপ সনাক্তকরণের শব্দ রেকর্ডিং এবং কাঁচা আলোকমিতি থেকে জ্যোতির্বিজ্ঞানের বিষয়গুলির শ্রেণিবদ্ধকরণ সহ। এই সমস্ত ক্ষেত্রে এবং কোনও ডোমেন জ্ঞানের অ্যাক্সেস ছাড়াই আমরা ডোমেন বিশেষজ্ঞদের দ্বারা তৈরি বিশেষায়িত অ্যালগরিদম এবং হিউরিস্টিক্স দ্বারা অর্জিত নির্ভুলতার সাথে সমান পারফরম্যান্স প্রদর্শন করি। আমরা পরামর্শ দিচ্ছি যে ডেটা ভাঙার নীতিগুলি ক্রমবর্ধমান জটিল পর্যবেক্ষণগুলি বোঝার জন্য দ্বার উন্মুক্ত করতে পারে, বিশেষত যখন বিশেষজ্ঞরা কী সন্ধান করবেন তা জানেন না। " এই সমস্ত ক্ষেত্রে এবং কোনও ডোমেন জ্ঞানের অ্যাক্সেস ছাড়াই আমরা ডোমেন বিশেষজ্ঞদের দ্বারা তৈরি বিশেষায়িত অ্যালগরিদম এবং হিউরিস্টিক্স দ্বারা অর্জিত নির্ভুলতার সাথে সমান পারফরম্যান্স প্রদর্শন করি। আমরা পরামর্শ দিচ্ছি যে ডেটা ভাঙার নীতিগুলি ক্রমবর্ধমান জটিল পর্যবেক্ষণগুলি বোঝার জন্য দ্বার উন্মুক্ত করতে পারে, বিশেষত যখন বিশেষজ্ঞরা কী সন্ধান করবেন তা জানেন না। " এই সমস্ত ক্ষেত্রে এবং কোনও ডোমেন জ্ঞানের অ্যাক্সেস ছাড়াই আমরা ডোমেন বিশেষজ্ঞদের দ্বারা তৈরি বিশেষায়িত অ্যালগরিদম এবং হিউরিস্টিক্স দ্বারা অর্জিত নির্ভুলতার সাথে সমান পারফরম্যান্স প্রদর্শন করি। আমরা পরামর্শ দিচ্ছি যে ডেটা ভাঙার নীতিগুলি ক্রমবর্ধমান জটিল পর্যবেক্ষণগুলি বোঝার জন্য দ্বার উন্মুক্ত করতে পারে, বিশেষত যখন বিশেষজ্ঞরা কী সন্ধান করবেন তা জানেন না। "

এই পদ্ধতিটি বক্ররেখার ফিটের বাইরে চলে যায়। এটি চেক আউট মূল্য।


আপনাকে ধন্যবাদ - আপনি সঠিক যে আমি চাই তা বিশ্লেষকদের হস্তক্ষেপ ছাড়াই স্বয়ংক্রিয়ভাবে ক্লাস্টারগুলি সন্ধান করা find আমি যে কাজটি করতে চাইছি তার জন্য, আমাকে 5000-15000 ডাটা পয়েন্টের ডেটাসেটগুলি ক্লাস্টারে বিভক্ত করতে হবে যা প্রতিটি সহজ সূত্রের সাথে পুনরাবৃত্তি করে (পুনরাবৃত্তিযুক্তগুলি সহ) একটি সময়সীমার মধ্যে 50000 এর মতো ডেটাসেটের গ্রুপের উপর মানুষের হস্তক্ষেপ ছাড়াই ভালভাবে অনুসরণ করে গার্হস্থ্য কম্পিউটার হার্ডওয়্যার মানুষের দ্বারা।
বার্বড

প্রতিটি ক্লাস্টারের সাথে কোন বাঁকটি খাপ খায়, একবার আমি যে কোনও উপায়ে সীমানা সনাক্ত করে ফেলেছি, এটি যথেষ্ট সহজ আমি কেবলমাত্র বিভিন্ন মডেল (সাইন ওয়েভ, বহুপদী, ক্ষতিকারক) চেষ্টা করে দেখতে চাই এবং এটি আরও ভাল সাধারণ আর ^ 2 দেয়।
বার্বড

2
ঠিক আছে, আমি মনে করি এটি থেকে ভুল ধারণাটি উত্পন্ন হয়েছে: স্যাক্স এবং আইস্যাক্স সময় সিরিজ সংরক্ষণ এবং প্রক্রিয়াকরণের জন্য উপস্থাপনের ফর্ম্যাট, সেগুলি ক্লাস্টারিং বা বিভাগ / প্যাটার্ন সনাক্তকরণ অ্যালগোরিদম নয় (প্রতি ওপির পোস্টে)। আপনার উত্তর থেকে আমার বোঝা গেল যে কেওগ একটি অ্যালগরিদম নিয়ে এসেছিলেন যা SAX এর উপস্থাপনের ফর্ম্যাটের উপর ভিত্তি করে ওপি'র সমস্যা সমাধানের জন্য ঘটে। তবে আমি মনে করি এটি কি আপনি বোঝাতে চেয়েছেন না?
ঝুবার্ব

2
ঠিক আছে, কেওগের কাছে পৌঁছানোর দরকার নেই, আমি আইস্যাক্স এবং স্যাক্স সম্পর্কে জানি , তারা সময় সিরিজের দক্ষ খনির জন্য উপস্থাপনা ফর্ম্যাট। লিঙ্কগুলি তাদের ব্যাখ্যা করে। আইস্যাক্সটি নতুন সংস্করণ। আপনার উত্তর সম্পর্কে আমার ভুল বোঝাবুঝি দ্বারা আমি উত্তেজিত হয়েছি, সুতরাং প্রশ্নগুলি (পেডেন্টিক হওয়ার চেষ্টা করছে না) :)।
ঝুবার্ব

2
আমি কোনও কিছু গোপন করার চেষ্টা করছিলাম না, আমি 'আইস্যাক্স রুটিন'কে আইস্যাক্সে পরিচালিত অ্যালগরিদম হিসাবে ব্যাখ্যা করেছি। আমি প্রস্তাব দিচ্ছি যে আপনার উত্তরটি স্পষ্টতার পরে পুনরায় শব্দকরণ / পরিবর্তন প্রয়োজন।
ঝুবার্ব

2

একটি সময় সিরিজের পরিবর্তনের পয়েন্টগুলি সনাক্তকরণের জন্য একটি শক্তিশালী গ্লোবাল এআরআইএমএ মডেল (আপনার ক্ষেত্রে সময়ের সাথে মডেল পরিবর্তনগুলি এবং প্যারামিটার পরিবর্তনের দ্বারা ত্রুটিযুক্ত) অবশ্যই তৈরি করা উচিত এবং তারপরে সেই মডেলের প্যারামিটারগুলির মধ্যে সবচেয়ে উল্লেখযোগ্য পরিবর্তন পয়েন্টটি সনাক্ত করতে হবে। আপনার 509 মানগুলি ব্যবহার করে সর্বাধিক উল্লেখযোগ্য পরিবর্তন পয়েন্ট 353 এর কাছাকাছি ছিল I আমি অটোবক্সে উপলব্ধ কিছু মালিকানাধীন অ্যালগরিদম ব্যবহার করেছি (যা আমি বিকাশ করতে সহায়তা করেছি) যা সম্ভবত আপনার পছন্দসই অ্যাপ্লিকেশনটির জন্য লাইসেন্স হতে পারে be মূল ধারণাটি হ'ল ডেটাটিকে দুটি ভাগে বিভক্ত করা এবং সর্বাধিক গুরুত্বপূর্ণ পরিবর্তন বিন্দুটি সুনির্দিষ্টভাবে দুটি সেটের প্রতিটি পরিবর্তনের পয়েন্ট নির্ধারণ করার জন্য দুটি সময়ের রেঞ্জের পৃথকভাবে (১-৩৫২; ৩৫৩-50০৯) পুনরায় বিশ্লেষণ করা। আপনার কে সাবসেট না হওয়া পর্যন্ত এটি পুনরাবৃত্তি হবে। আমি এই পদ্ধতির ব্যবহার করে প্রথম পদক্ষেপটি সংযুক্ত করেছি।এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন


153 এবং 173 এর পি-মান কম থাকলে 353 কেন পতাকাঙ্কিত হবে?
নিক কক্স

@ নিককক্স ভাল প্রশ্ন! দুর্দান্ত মন্তব্য পূর্বাভাসের উদ্দেশ্যে পুরো ধারণাটি হ'ল পুরানো উপসেটটি থেকে অতি সাম্প্রতিক (তাৎপর্যপূর্ণ) উপসেটটি পৃথক করা যার কারণেই 353 টি জিতেছে .... উদ্দেশ্যে এখানে একটি প্রকৃতপক্ষে 173 নির্বাচন করবে।
আইরিশস্ট্যাট

"সর্বাধিক সাম্প্রতিক স্বাক্ষরকারী BREAK পয়েন্ট" শিরোনামটি গল্পটি বলার চেষ্টা করেছে
আইরিশস্ট্যাট

ধন্যবাদ! এটি সত্যিই আকর্ষণীয় এবং অনেক প্রশংসাযোগ্য। আমি আরও বিশদ জন্য আপনার সাথে যোগাযোগ করা হতে পারে।
বার্ড

ব্যাখ্যার জন্য ধন্যবাদ: ধারণাটি শেষ নোটটিতে প্রকৃতপক্ষে সুস্পষ্ট। (ঘটনাচক্রে, আমি 1990 এর দশকের গোড়া থেকে প্রোগ্রাম আউটপুটে এত বেশি UPCER CASE দেখিনি I আমি "95% আত্মবিশ্বাসের স্তর" থেকে "5% তাত্পর্য্য স্তরে" পরিবর্তিত হওয়ার পরামর্শ দিচ্ছি যা বোঝানো হয়েছে))
নিক কক্স

2

আমি মনে করি যে থ্রেডটির শিরোনামটি বিভ্রান্তিমূলক: আপনি ঘনত্বের কার্যগুলি তুলনা করতে দেখছেন না তবে আপনি আসলে একটি সময়ের সিরিজের কাঠামোগত বিরতির সন্ধান করছেন। তবে এই কাঠামোগত বিরতিগুলি কোনও রোলিং টাইম উইন্ডোতে পাওয়া যায় বা সময় সিরিজের মোট ইতিহাস দেখে পূর্বের দৃষ্টিতে খুঁজে পাওয়া যায় কিনা তা আপনি নির্দিষ্ট করে দেবেন না। এই অর্থে আপনার প্রশ্নটি আসলে এটির একটি সদৃশ: সময় ধারাবাহিকের কাঠামোগত বিরতি সনাক্ত করার জন্য কোন পদ্ধতি?

এই লিঙ্কে রব হ্যান্ডম্যান দ্বারা উল্লিখিত হিসাবে, আর এই উদ্দেশ্যে স্ট্রোকচেঞ্জ প্যাকেজ সরবরাহ করে। আমি আপনার ডেটা নিয়ে খেলেছি তবে আমি অবশ্যই বলব যে ফলাফলগুলি হতাশাব্যঞ্জক [সত্যিই প্রথম ডেটা পয়েন্টটি কি 4 বা অনুমিত হয় 54?]:

raw = c(54,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235)
raw = log(raw+1)
d = as.ts(raw,frequency = 12)
dd = ts.intersect(d = d, d1 = lag(d, -1),d2 = lag(d, -2),d3 = lag(d, -3),d4 = lag(d, -4),d5 = lag(d, -5),d6 = lag(d, -6),d7 = lag(d, -7),d8 = lag(d, -8),d9 = lag(d, -9),d10 = lag(d, -10),d11 = lag(d, -11),d12 = lag(d, -12))

(breakpoints(d ~d1 + d2+ d3+ d4+ d5+ d6+ d7+ d8+ d9+ d10+ d11+ d12, data = dd))
>Breakpoints at observation number:
>151 
>Corresponding to breakdates:
>163 

(breakpoints(d ~d1 + d2, data = dd))
>Breakpoints at observation number:
>95 178 
>Corresponding to breakdates:
>107 190 

আমি প্যাকেজের নিয়মিত ব্যবহারকারী নই। আপনি দেখতে পাচ্ছেন যে এটি সেই মডেলের উপর নির্ভর করে যা আপনি ডেটাতে ফিট করেন। আপনি পরীক্ষা করতে পারেন

library(forecast)
auto.arima(raw)

যা আপনাকে সেরা ফিটিং আরিমা মডেল দেয়।


ধন্যবাদ! আমি শিরোনাম থেকে 'হিস্টোগ্রাম' শব্দটি সম্পাদনা করেছি; আমি প্রথম দিকে এটি ভুলভাবে ব্যবহার করেছিলাম, এবং মন্তব্যের জবাবে আমি পূর্বের সম্পাদনায় যখন এটি শরীর থেকে সরিয়েছিলাম তখন শিরোনামটি সম্পাদনা করতে ভুলে গিয়েছিলাম।
বার্ড

আমার ডেটা আসলে স্থানিকভাবে সম্পর্কিত ডেটাগুলির একটি সিরিজ, এটি সময় ভিত্তিক নয় এবং সাধারণত একটি সরলরেখায় বা এমনকি একটি সমতলে প্রায়শই যথেষ্ট থাকে না - তবে আপনি ঠিক বলেছেন যে কিছু মৌলিক স্তরে এটি একই হিসাবে বিবেচনা করা যেতে পারে পথ; আমার ধারণা যে এটি আমার পূর্ববর্তী অনুসন্ধানগুলিতে আমি যে উত্তরগুলি প্রত্যাশা করছিলাম সেগুলি কেন খুঁজে পেল না তার একটি অংশ হতে পারে।
বার্ড

এই উদাহরণে প্রথম ডেটা পয়েন্টটি সত্যই একটি 4, তবে এটি ভাল হতে পারে যে আমরা কোনও পূর্ববর্তী কাঠামোর শেষে আঘাত করতে এসেছি বা সম্ভবত এটি শব্দ ছিল; আমি একজন আউটলেট হিসাবে এটি ছেড়ে খুশি হব, তবে আমি যে সিস্টেমটি নিয়ে আসছি তাও এ জাতীয় জিনিসগুলির সাথে লড়াই করতে হবে।
বার্ড

ওহ, এবং বিশ্লেষণ অন্ধকারে আছে। আমি স্পষ্ট করতে প্রশ্নটি সম্পাদনা করব।
বার্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.