মাসিক, দৈনিক এবং সাপ্তাহিক ডেটা কীভাবে মার্জ করবেন?


11

গুগল ট্রেন্ডস সাপ্তাহিক ডেটা ফেরত দেয় তাই আমাকে তাদের আমার দৈনিক / মাসিক ডেটাতে মার্জ করার একটি উপায় খুঁজে বের করতে হবে।

আমি এখন পর্যন্ত যা করেছি তা হ'ল প্রতিটি সিরিয়াকে প্রতিদিনের ডেটাতে নষ্ট করে দেওয়া, উদাহরণ হিসাবে:

থেকে:

2013-03-03 - 2013-03-09 37

প্রতি:

2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37

তবে এটি আমার সমস্যার সাথে অনেক জটিলতা যুক্ত করছে। আমি গত 6 মাসের মান বা মাসিক ডেটাতে 6 টি মান থেকে গুগল অনুসন্ধানগুলির পূর্বাভাস দেওয়ার চেষ্টা করছিলাম। প্রতিদিনের ডেটা 180 অতীতের মানগুলিকে বোঝায়। (আমার কাছে 10 বছরের ডেটা রয়েছে তাই মাসিক ডেটাতে 120 পয়েন্ট / সাপ্তাহিক ডেটাতে 500+ / প্রতিদিনের ডেটাতে 3500+)

অন্য পদ্ধতিটি হ'ল সাপ্তাহিক / মাসিক ডেটাতে প্রতিদিনের ডেটা "মার্জ" করা। তবে এই প্রক্রিয়া থেকে কিছু প্রশ্ন উত্থাপিত হয়। কিছু ডেটা গড়ে নেওয়া যায় কারণ তাদের যোগফল কিছু উপস্থাপন করে। বৃষ্টিপাত উদাহরণস্বরূপ, একটি নির্দিষ্ট সপ্তাহে বৃষ্টিপাতের পরিমাণগুলি প্রতি সপ্তাহে রচনা করার পরিমাণের যোগফল হবে।

আমার ক্ষেত্রে আমি দাম, আর্থিক হার এবং অন্যান্য জিনিস নিয়ে কাজ করছি। দামগুলির জন্য আমার ক্ষেত্রের মধ্যে ভলিউম বিনিময়ের বিষয়টি অ্যাকাউন্টে নেওয়া সাধারণ, তাই সাপ্তাহিক ডেটা ওজনযুক্ত গড় হবে। আর্থিক হারের জন্য এটি কিছুটা জটিল যে প্রতিদিনের হার থেকে সাপ্তাহিক হার তৈরিতে কিছু সূত্র জড়িত। অন্যান্য জিনিসগুলির জন্য আমি অন্তর্নিহিত বৈশিষ্ট্যগুলি জানি না। আমি মনে করি অর্থহীন সূচকগুলি এড়াতে এই বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ (উদাহরণস্বরূপ, গড়পড়তা দামের গড় একটি বুদ্ধিমান হবে)।

সুতরাং তিনটি প্রশ্ন:

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, কীভাবে আমি দৈনিক থেকে সাপ্তাহিক / মাসিক ডেটাতে যেতে পারি?

আমি মনে করি সাপ্তাহিক / মাসিক ডেটা দৈনিক তথ্যগুলিতে ভাঙার মতো কিছুটা ভুল হয়েছে কারণ আমি এমন পরিমাণে প্রবর্তন করছি যা বাস্তব জীবনের কোনও ধারণা নেই। সুতরাং প্রায় একই প্রশ্ন:

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, আমি কীভাবে সাপ্তাহিক / মাসিক থেকে প্রতিদিনের ডেটাতে যেতে পারি?

শেষ কিন্তু সর্বনিম্ন নয়: যখন বিভিন্ন সময় ধাপের সাথে দুটি সময় সিরিজ দেওয়া হয়, তবে এর থেকে আরও ভাল কী: সর্বনিম্ন বা সবচেয়ে বড় সময় পদক্ষেপটি ব্যবহার করে? আমি মনে করি এটি ডেটা সংখ্যা এবং মডেলের জটিলতার মধ্যে একটি আপস তবে আমি এই বিকল্পগুলির মধ্যে নির্বাচন করার জন্য কোনও দৃ argument় যুক্তি দেখতে পাচ্ছি না।

সম্পাদনা করুন: আপনি যদি সহজেই এটি করতে কোনও সরঞ্জাম (আর পাইথন এমনকি এক্সেলের মধ্যেও) জানেন তবে এটি খুব প্রশংসা হবে।


অজগরটির জন্য, মানক সরঞ্জামটি পান্ডাস। এটি বিশেষত আর্থিক ডেটা টাইমসারিগুলি মোকাবেলা করার জন্য ডিজাইন করা হয়েছিল। পান্ডাস টাইমসারিজ
seanv507

"অজানা সম্পত্তি" বলতে কী বোঝায় সে সম্পর্কে কিছুটা প্রসারিত করার জন্য যত্নশীল?
TheGrimmScientist

উত্তর:


8

যখন বিভিন্ন সময় ধাপের সাথে দুটি সময় সিরিজ দেওয়া হয়, তবে এর থেকে আরও ভাল কী: সর্বনিম্ন বা সবচেয়ে বড় সময় পদক্ষেপটি ব্যবহার করে?

আপনার টাইমরিজ বিশ্লেষণের জন্য আপনার উভয়টি করা উচিত: দৈনিক ডেটাসেটের সাথে সর্বাধিক গ্রানুলারিটি পান এবং মাসিক ডেটাসেট দিয়ে বিশ্লেষণটি পুনরাবৃত্তি করুন। মাসিক ডেটাসেটের সাহায্যে আপনার কাছে 120 টি ডাটা পয়েন্ট রয়েছে যা আপনার ডেটাতে মৌসুমীতার সাথেও টাইমসারি মডেল পাওয়ার জন্য যথেষ্ট।

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, কীভাবে আমি দৈনিক থেকে সাপ্তাহিক / মাসিক ডেটাতে যেতে পারি?

প্রতিদিনের ডেটা থেকে সাপ্তাহিক বা মাসিক ডেটা বলার জন্য, আপনি স্মুথিং ফাংশন ব্যবহার করতে পারেন। আর্থিক ডেটাগুলির জন্য, আপনি চলন্ত গড় বা তাত্পর্যপূর্ণ স্মুথিং ব্যবহার করতে পারেন তবে সেগুলি যদি আপনার ডেটার জন্য কাজ না করে তবে আপনি স্প্লাইন স্মুথিং ফাংশন "স্মিথ স্প্লিন" আরে ব্যবহার করতে পারেন: https://stat.ethz.ch/R -manual / আর-patched / লাইব্রেরি / পরিসংখ্যান / HTML / smooth.spline.html

প্রত্যাশিত মডেলটিতে মূল দৈনিক ডেটাসেটের চেয়ে কম শব্দ হবে এবং আপনি পছন্দসই সময় পয়েন্টগুলির জন্য মান পেতে পারেন। শেষ অবধি, এই ডেটা পয়েন্টগুলি আপনার টাইমরিজ বিশ্লেষণে ব্যবহার করা যেতে পারে।

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, আমি কীভাবে সাপ্তাহিক / মাসিক থেকে প্রতিদিনের ডেটাতে যেতে পারি?

আপনার যখন মাসিক বা সাপ্তাহিক ডেটা থাকে তখন প্রতিদিনের ডেটা পাওয়ার জন্য আপনি ইন্টারপোলেশন ব্যবহার করতে পারেন। প্রথমত, আপনাকে ডেটা বর্ণনা করার জন্য একটি সমীকরণ খুঁজে পাওয়া উচিত। এটি করার জন্য আপনার ডেটা প্লট করা উচিত (যেমন সময়ের সাথে সাথে দাম)। যখন উপাদানগুলি আপনার জানা থাকে, তখন এই সমীকরণটি সেই কারণগুলির দ্বারা প্রভাবিত হওয়া উচিত। যখন উপাদানগুলি অজানা, আপনি একটি সেরা ফিট সমীকরণ ব্যবহার করতে পারেন। সবচেয়ে সহজ হবে লিনিয়ার ফাংশন বা টুকরোচক লিনিয়ার ফাংশন, তবে আর্থিক তথ্যের জন্য এটি ভালভাবে কাজ করবে না। সেক্ষেত্রে আপনার পিসওয়াইজ কিউবিক স্প্লিন ইন্টারপোলেশন বিবেচনা করা উচিত। এই লিঙ্কটি সম্ভাব্য ইন্টারপোলেশন ফাংশনগুলিতে আরও বিশদে যায়: http://people.math.gatech.edu/~meyer/MA6635/chap2.pdf

আর এ, টাইমসারি ডেটার ইন্টারপোলেশন করার জন্য একটি পদ্ধতি রয়েছে। এখানে আপনি প্রতিদিনের মানগুলির ফাঁকায় সাপ্তাহিক মান এবং এনএ বলার জন্য একটি ভেক্টর তৈরি করতে পারেন এবং তারপরে এনএএসের জন্য ইন্টারপোল্টেড মানগুলি পেতে "ইন্টারপিএনএ" ফাংশনটি ব্যবহার করেন। যাইহোক, এই ফাংশনটি অন্তরবিচ্ছিন্ন মানগুলি পেতে "প্রায়" ফাংশনটি ব্যবহার করে, যা লিনিয়ার বা ধ্রুবক বিরক্তি প্রয়োগ করে। আর-তে কিউবিক স্প্লাইন ইন্টারপোলেশন সঞ্চালনের জন্য আপনার পরিবর্তে "স্প্লাইনফান" ফাংশনটি ব্যবহার করা উচিত।

সচেতন হওয়ার মতো বিষয় হ'ল টাইমসরিজ মডেলগুলি সাধারণত আপনি অন্যের মধ্যে ঘনিষ্ঠতর স্মুথিং বা অটো-রিগ্রসিটিভ ইন্টিগ্রেটেড মুভিং অ্যাভারেজ (এআরআইএমএ) পদ্ধতিগুলি দেখছেন কিনা তা ভবিষ্যতের মানগুলির পূর্বাভাস দেওয়ার জন্য কিছুটা গড় তৈরি করে। সুতরাং দৈনিক মানগুলির পূর্বাভাস দেওয়ার জন্য টাইমসারি মডেল সেরা পছন্দ নাও হতে পারে তবে সাপ্তাহিক বা মাসিক মডেলগুলি আরও ভাল হতে পারে।


ব্যবহারিক উত্তর বলে মনে হচ্ছে। সালিশের কারণে এটি আর্থিক সময় সিরিজের ক্ষেত্রে প্রযোজ্য কিনা তা নিশ্চিত নন।
lcrmorin

আমি মনে করি আপনার প্রশ্নের উত্তরগুলি এখনও বৈধ। টাইমসরিজ মডেলগুলির জন্য আপনি আর্চ (অটোরেগ্রেসিভ কন্ডিশনাল হিটারোস্কেস্টেটিসিটি) মডেলগুলি দেখতে চাইতে পারেন।
গ্যাঙ্কস

যখন আপনি আর্থিক সময় সিরিজের উদাহরণস্বরূপ ঘনক স্প্লাইন ব্যবহার করে বিভক্ত হন, আপনি কি সামনের দিকের পক্ষপাতিত্ব চালু করবেন না? আমি মনে করি কোনও মেশিন-লার্নিং মডেলের জন্য বাস্তবায়ন করা যদি এটি বিশেষভাবে গুরুত্বপূর্ণ হতে পারে?
tsando

5

আমি এই অঞ্চলে বিশেষজ্ঞ নই, তবে আমি বিশ্বাস করি যে আপনার প্রশ্নটি সময়ের ধারাবাহিকতা একীকরণ এবং একত্রিতকরণের সাথে সম্পর্কিত । যদি এটি হয় তবে এখানে কিছু আশাবাদী প্রাসঙ্গিক সংস্থান রয়েছে যা আপনার সমস্যা সমাধানে সহায়ক হতে পারে (প্রথম পাঁচটি আইটেম প্রধান, তবে প্রতিনিধি এবং শেষ দুটি পরিপূরক):


2

এটি খুব সন্তোষজনক উত্তর হবে না, তবে এখানে আমার নেওয়া ...

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, কীভাবে আমি দৈনিক থেকে সাপ্তাহিক / মাসিক ডেটাতে যেতে পারি?

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, আমি কীভাবে সাপ্তাহিক / মাসিক থেকে প্রতিদিনের ডেটাতে যেতে পারি?

উভয়ের জন্য একই উত্তর: আপনি অজানা বৈশিষ্ট্যের জন্য এটি করতে পারবেন না, এবং পরিচিত বৈশিষ্ট্যের জন্য এটি মানগুলি কীভাবে গণনা করা হয়েছিল তার উপর নির্ভর করবে।

আপনি ইঙ্গিত হিসাবে:

(উদাহরণস্বরূপ, গড়পড়তা হারের গড় বুদ্ধিমান হবে)

বৈশিষ্ট্য / মানগুলি জানা বা অজানা কিনা তা কোনও ক্ষেত্রেই একক রূপান্তর রূপে উপযুক্ত নয়। এমনকি পরিচিত বৈশিষ্ট্য সহ, আপনার সম্ভবত প্রতিটি ধরণের জন্য একটি অনন্য রূপান্তর প্রয়োজন: গড়, মধ্যক, মোড, ন্যূনতম, সর্বোচ্চ, বুলিয়ান ইত্যাদি for

যখন বিভিন্ন সময় ধাপের সাথে দুটি সময় সিরিজ দেওয়া হয়, তবে এর থেকে আরও ভাল কী: সর্বনিম্ন বা সবচেয়ে বড় সময় পদক্ষেপটি ব্যবহার করে?

যখনই সম্ভব, ক্ষুদ্রতম সম্ভাব্য পদক্ষেপের সম্পূর্ণ গ্রানুলারিটি সংরক্ষণ করার চেষ্টা করুন। ধরে নিচ্ছি যে মানগুলি কীভাবে রূপান্তর করতে হয় আপনি সর্বদা পদক্ষেপগুলি রোল-আপ করতে পারেন (উদাহরণস্বরূপ, দিন থেকে মাস, মাস থেকে বছর) ... তবে ক্ষতির পরিবর্তনের পরে আপনি বড় আকারের ছোট পদক্ষেপগুলি পুনর্গঠন করতে সক্ষম হবেন না ।


2

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, কীভাবে আমি দৈনিক থেকে সাপ্তাহিক / মাসিক ডেটাতে যেতে পারি?

সমষ্টি।

উদাহরণস্বরূপ, আপনার প্রতিদিন লোকেরা 'উইজেটগুলি' অনুসন্ধান করার সময় রয়েছে। মাসিক মোট পেতে এক মাসের জন্য প্রতিদিনের মোট যোগ করুন। আপনাকে আরও পরিপূর্ণ সংস্করণ দেওয়ার জন্য প্রতিটি গ্রানুলারিটিতে সংগ্রহ করা আসল ডেটা সম্পর্কে আরও সুনির্দিষ্ট আমাকে দেখতে হবে।

জ্ঞাত এবং অজানা বৈশিষ্ট্যের জন্য, আমি কীভাবে সাপ্তাহিক / মাসিক থেকে প্রতিদিনের ডেটাতে যেতে পারি?

আপনি পারবেন না।

পদার্থবিজ্ঞানে তুলনামূলক ধারণাটি হল নাইকুইস্ট ফ্রিকোয়েন্সি । সাধারণ ধারণাটি হ'ল আপনি আরও ডেটা না নিয়ে আপনার ডেটাতে যা উপস্থিত রেখেছেন তার চেয়ে বেশি তথ্য যুক্ত করতে পারবেন না। কেউ যেদিন কোনও জিজ্ঞাসা চালিয়েছিল কেবল সেই দিন দেওয়া, আপনি কীভাবে বলতে পারেন যে সেই প্রশ্নের কোন দিনটি চালানো হয়েছিল? আপনি কিছু অনুমান করতে সক্ষম হতে পারেন, তবে প্রশ্নের উত্তর দেওয়ার একমাত্র উপায় হ'ল প্রত্যক্ষ বা পরোক্ষভাবে সিস্টেমে আরও তথ্য আনা। মাসিক ভেরিয়েবলের দৈনিক অবস্থায় (যেমন গ্যাখস উল্লিখিত, অন্তরঙ্গকরণ) অবহিত অনুমানের জন্য আপনি করতে পারেন এমন কিছু জিনিস রয়েছে তবে আপনার ডেটা দৈনিক দেখার জন্য এখনও মূলত মাসিক ডেটা প্রসারিত।

যখন বিভিন্ন সময় ধাপের সাথে দুটি টাইম সিরিজ দেওয়া হয় তখন আরও ভাল কী: সর্বনিম্ন বা সবচেয়ে বড় সময় পদক্ষেপটি ব্যবহার করে?

এটি পুরোপুরি নির্ভর করে আপনি কী উত্তর দেওয়ার চেষ্টা করছেন তার উপর।

ছোট গ্রানুলারিটি শব্দ এবং অন্যান্য অসঙ্গতিগুলির জন্য আরও সংবেদনশীল হবে। দীর্ঘতর গ্রানুলারিটি প্রশ্নগুলির আরও আত্মবিশ্বাসের জবাব দিতে সক্ষম হবে, তবে এর কয়েকটি কার্যকারিতা আলগা করে। উদাহরণস্বরূপ, আপনি যদি নতুন সাঁতারের ক্লাবের জন্য বিপণন প্রচারনা কখন চালু করবেন তা জানতে উইকএন্ড প্ল্যানিংয়ের পরিকল্পনাগুলি যখন লোকেরা সন্ধান করতে শুরু করে তা দেখার চেষ্টা করছেন, আপনি যদি ছোট না হন তবে প্রতিদিনের ডেটা দেখবেন। আপনি কাকে বিনিয়োগ করতে চান তা নির্ধারণ করার জন্য যদি আপনি নাইট ক্লাবগুলির সাধারণ ট্রেন্ডিংয়ের দিকে নজর রাখেন তবে মাসিক সম্ভবত আরও ভাল।


2

তারিখ বিভাগের উপর ভিত্তি করে সামগ্রিক ডেটা সংগ্রহ করতে সক্ষম হওয়াই হ'ল টেবিলের সফটওয়্যার ব্যবহার করে এক টুকরো কেক। আপনি কেবলমাত্র আপনার ডেটাটি সরঞ্জামে প্লাগ করবেন এবং তারপরে আপনি মেট্রিক এবং তারিখের উভয় মাত্রাকে একটি রিপোর্ট বডি স্পেসের উপরে টেনে নিয়ে যেতে পারেন। ঝাঁকুনি তাত্ক্ষণিকভাবে উড়ে যাওয়ার সময়ে সামগ্রিক ভিজ্যুয়ালাইজেশন এবং / অথবা বিশদ ডেটা টেবিলগুলিকে উত্সাহিত করবে। আপনি বছর, ত্রৈমাসিক, মাস, সপ্তাহ, দিন, ঘন্টা ইত্যাদির দ্বারা দলবদ্ধ / যোগফল তৈরি করতে পারেন (সরঞ্জামটি দেওয়া বাক্স কার্যকারিতার বাইরে স্ট্যান্ডার্ড, অন্তর্নির্মিত)

এছাড়াও, যদি আপনি পরে অতিরিক্ত ডেটা অন্তর্ভুক্ত করতে চান (যা আমি ধরে নিই যে আপনি 'অজানা সম্পত্তি' বলতে কী বোঝাতে চেয়েছিলেন), আপনি অন্য কোনও ডেটা সেট আমদানি করতে পারেন এবং সহজেই প্রথমটিতে এটি সংযোজন করতে পারবেন, যতক্ষণ না এটি তারিখগুলি অফার করে।

আমি নিখরচায় সংস্করণটি পরীক্ষা করার পরামর্শ দেব, যা আমার বিশ্বাস, যাকে বলা হয় ঝকঝকে পাবলিক।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.