কোন একক ঘটনা অনুদায়ী ডেটা প্রভাবিত করে এমন সম্ভাবনা বিশ্লেষণ করতে আমার কোন পরিসংখ্যানের মডেল ব্যবহার করা উচিত


19

একটি নির্দিষ্ট ঘটনাটি কিছু দ্রাঘিমাংশের ডেটা প্রভাবিত করে এমন সম্ভাবনা বিশ্লেষণ করার জন্য আমি একটি সূত্র, পদ্ধতি বা মডেল ব্যবহার করার চেষ্টা করছি। গুগলে কী সন্ধান করতে হবে তা আমি খুব কষ্ট করে আবিষ্কার করছি।

এখানে একটি উদাহরণের চিত্র:

চিত্র যে আপনি এমন একটি ব্যবসায়ের মালিক যার প্রতি দিন গড়ে 100 জন ওয়াক-ইন গ্রাহক রয়েছে। একদিন, আপনি সিদ্ধান্ত নিন যে আপনি প্রতিদিন আপনার দোকানে আগত গ্রাহকদের সংখ্যা বাড়িয়ে তুলতে চান, যাতে মনোযোগ পেতে আপনি আপনার স্টোরের বাইরে একটি ক্রেজি স্টান্ট টানেন। পরের সপ্তাহে আপনি প্রতিদিন গড়ে 125 জন গ্রাহক দেখতে পাবেন।

পরের কয়েক মাস ধরে, আপনি আবার সিদ্ধান্ত নিয়েছেন যে আপনি আরও কিছু ব্যবসা পেতে চান এবং সম্ভবত এটি আরও দীর্ঘায়িত করতে চান, তাই আপনার দোকানে আরও বেশি গ্রাহক পেতে আপনি কিছু অন্যান্য এলোমেলো জিনিস চেষ্টা করে দেখুন। দুর্ভাগ্যক্রমে, আপনি সেরা বিপণনকারী নন, এবং আপনার কিছু কৌশলগুলির খুব কম বা কোনও প্রভাব নেই, এবং অন্যরা এমনকি নেতিবাচক প্রভাব ফেলে।

যে কোনও একটির ইভেন্ট ইতিবাচক বা নেতিবাচকভাবে ওয়াক-ইন গ্রাহকদের সংখ্যার উপর প্রভাব ফেলেছিল তা নির্ধারণের জন্য আমি কোন পদ্ধতিটি ব্যবহার করতে পারি? আমি পুরোপুরি সচেতন যে পারস্পরিক সম্পর্ক অগত্যা কার্যকারণকে সমান করে না, তবে কোনও নির্দিষ্ট ইভেন্টের পরে ক্লায়েন্টের আপনার ব্যবসায়ের প্রতিদিনের হাঁটাচলা সম্ভাবনা বৃদ্ধি বা হ্রাস নির্ধারণ করার জন্য আমি কোন পদ্ধতি ব্যবহার করতে পারি?

ওয়াক-ইন গ্রাহকদের সংখ্যা বাড়ানোর আপনার প্রয়াসের মধ্যে পারস্পরিক সম্পর্ক রয়েছে কি না তা বিশ্লেষণ করতে আমি আগ্রহী নই, বরং অন্য যে সমস্ত একটির থেকে পৃথক পৃথক কোনও একটি ঘটনা কার্যকর হয়েছিল কিনা তা নয়।

আমি বুঝতে পারি যে এই উদাহরণটি বরং সংকীর্ণ এবং সরলতর, তাই আমি আপনাকে ব্যবহার করছি প্রকৃত ডেটার সংক্ষিপ্ত বিবরণও দেব:

কোনও নির্দিষ্ট বিপণন সংস্থা তাদের ক্লায়েন্টের ওয়েবসাইটে যে প্রভাব ফেলেছে তা নির্ধারণ করার চেষ্টা করছি যখন তারা নতুন সামগ্রী প্রকাশ করে, সামাজিক মিডিয়া প্রচার চালায় ইত্যাদি। যে কোনও একটি নির্দিষ্ট সংস্থার জন্য তাদের 1 থেকে 500 ক্লায়েন্ট থাকতে পারে anywhere প্রতিটি ক্লায়েন্টের 5 টি পৃষ্ঠা থেকে শুরু করে 10 মিলিয়নেরও বেশি আকারের ওয়েবসাইট রয়েছে। বিগত ৫ বছরে প্রতিটি সংস্থা প্রতিটি ক্লায়েন্টের জন্য তাদের সমস্ত কাজ বিশিষ্ট করেছে, যার মধ্যে কীভাবে কাজ করা হয়েছিল, কোনও ওয়েবসাইটের ওয়েবপৃষ্ঠাগুলি প্রভাবিত হয়েছিল, কত ঘন্টা ব্যয় করেছিল ইত্যাদি including

উপরের ডেটা ব্যবহার করে, যা আমি ডেটা গুদামে একত্রিত হয়েছি (তারকা / স্নোফ্লেক স্কিমার গুচ্ছের মধ্যে রেখেছি), আমার নির্ধারণ করা দরকার যে কোনও এক টুকরো কাজের (সময়ের যে কোনও একটি ঘটনা) প্রভাব ফেলেছিল তার সম্ভাবনা কতটা? কোনও নির্দিষ্ট কাজের দ্বারা প্রভাবিত কোনও / সমস্ত পৃষ্ঠাগুলিতে আঘাত করা ট্র্যাফিক। আমি 40 টি বিভিন্ন ধরণের সামগ্রীর জন্য মডেল তৈরি করেছি যা কোনও ওয়েবসাইটে পাওয়া যায় যা সাধারণত ট্র্যাফিক প্যাটার্ন বর্ণনা করে এমন একটি পৃষ্ঠা যা বলেছিল যে সামগ্রীর প্রকারযুক্ত পৃষ্ঠাগুলি লঞ্চের তারিখ থেকে আজ অবধি অভিজ্ঞতা লাভ করতে পারে। উপযুক্ত মডেলের তুলনায় সাধারণ হিসাবে চিহ্নিত, আমার নির্দিষ্ট নির্দিষ্ট কাজের ফলাফল হিসাবে নির্দিষ্ট পৃষ্ঠায় প্রাপ্ত বর্ধিত বা হ্রাস দর্শকদের সর্বাধিক এবং সর্বনিম্ন সংখ্যা নির্ধারণ করা দরকার।

যদিও আমার কাছে বেসিক ডেটা অ্যানালাইসিসের (লিনিয়ার এবং একাধিক রিগ্রেশন, পারস্পরিক সম্পর্ক ইত্যাদি) অভিজ্ঞতা রয়েছে, তবে কীভাবে এই সমস্যা সমাধানের জন্য যেতে হবে তার জন্য আমি একটি ক্ষতির মধ্যে আছি। যদিও অতীতে আমি সাধারণত প্রদত্ত অক্ষের জন্য একাধিক পরিমাপের সাথে ডেটা বিশ্লেষণ করেছি (উদাহরণস্বরূপ তাপমাত্রা বনাম তৃষ্ণা বনাম প্রাণী এবং তৃষ্ণার উপর প্রভাবটি নির্ধারণ করেছে যে প্রাণীর জুড়ে তীব্র তাপমাত্রা বৃদ্ধি পেয়েছে), আমি মনে করি যে উপরে, আমি প্রভাবটি বিশ্লেষণ করার চেষ্টা করছি অ-রৈখিকের জন্য একক সময়ে একক ইভেন্টের, তবে অনুমানযোগ্য (বা কমপক্ষে মডেল-সক্ষম), অনুদৈর্ঘ্য ডেটাসেট। আমি স্ট্যাম্পড :(

কোনও সহায়তা, টিপস, পয়েন্টার, প্রস্তাবনা বা দিকনির্দেশ অত্যন্ত সহায়ক হবে এবং আমি চির কৃতজ্ঞ থাকব!


অনুদায়ী ডেটা মডেলিংয়ের জন্য উত্সর্গীকৃত পরিসংখ্যান বিশ্লেষণের পুরো শ্রেণি রয়েছে। যদি আপনি একই বিষয়ে বারবার ব্যবস্থা গ্রহণ করেন তবে হস্তক্ষেপের প্রভাব আছে কিনা তা নির্ধারণ করতে মিশ্র মডেলগুলি প্রায়শই সামাজিক বিজ্ঞানে শিল্পের রাজ্য হিসাবে ব্যবহৃত হয়। আপনার যদি সময় সিরিজ থাকে তবে কেবলমাত্র অরিমার মতো কিছু ব্যবহার করা যেতে পারে।
বি_মিনার

একটি আরডিডি পদ্ধতি আপনার জন্যও কার্যকর হতে পারে: austinclemens.com/blog/2014/06/08/436
বি_মিনার

উত্তর:


11

রেকর্ডের জন্য, আমি মনে করি এটি এমন ধরণের প্রশ্ন যা তথ্য বিজ্ঞান স্ট্যাক এক্সচেঞ্জের জন্য উপযুক্ত for আমি আশা করি যে আমরা ডেটা সমস্যার বাস্তব বিশ্বের উদাহরণ এবং তাদের সমাধান কীভাবে সেরা তা সম্পর্কে বিভিন্ন দৃষ্টিভঙ্গি পেয়েছি।

আমি আপনাকে পি-ভ্যালুগুলি ব্যবহার না করার জন্য উত্সাহিত করব কারণ এগুলি বেশ বিভ্রান্তিকর হতে পারে ( 1 , 2 )। আমার পদ্ধতির উপর নির্ভর করে আপনি কোনও হস্তক্ষেপের আগে এবং পরে কোনও প্রদত্ত পৃষ্ঠায় ট্র্যাফিকের সংক্ষিপ্তসার করতে সক্ষম হচ্ছেন। আপনি যে বিষয়টি যত্নশীল তা হস্তক্ষেপের আগে এবং পরে হারের পার্থক্য । অর্থাৎ, কীভাবে প্রতিদিন হিটের সংখ্যা পরিবর্তন হয়? নীচে, আমি কিছু সিমুলেড উদাহরণ ডেটা সহ প্রথম ছুরিকা পদ্ধতির ব্যাখ্যা করি। তারপরে আমি একটি সম্ভাব্য সমস্যা (এবং আমি এটি সম্পর্কে কী করব) ব্যাখ্যা করব।

প্রথমে হস্তক্ষেপের আগে এবং পরে একটি পৃষ্ঠা সম্পর্কে ভাবা যাক। হস্তক্ষেপ দৈনিক 15% দ্বারা হিট বৃদ্ধি ভান করুন:

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

def simulate_data(true_diff=0):
    #First choose a number of days between [1, 1000] before the intervention
    num_before = np.random.randint(1, 1001)

    #Next choose a number of days between [1, 1000] after the intervention
    num_after = np.random.randint(1, 1001)

    #Next choose a rate for before the intervention. How many views per day on average?
    rate_before = np.random.randint(50, 151)

    #The intervention causes a `true_diff` increase on average (but is also random)
    rate_after = np.random.normal(1 + true_diff, .1) * rate_before

    #Simulate viewers per day:
    vpd_before = np.random.poisson(rate_before, size=num_before)
    vpd_after = np.random.poisson(rate_after, size=num_after)

    return vpd_before, vpd_after

vpd_before, vpd_after = simulate_data(.15)

plt.hist(vpd_before, histtype="step", bins=20, normed=True, lw=2)
plt.hist(vpd_after, histtype="step", bins=20, normed=True, lw=2)
plt.legend(("before", "after"))
plt.title("Views per day before and after intervention")
plt.xlabel("Views per day")
plt.ylabel("Frequency")
plt.show()

হস্তক্ষেপের আগে এবং পরে প্রতিদিন হিট বিতরণ

আমরা পরিষ্কারভাবে দেখতে পারি যে হস্তক্ষেপটি গড়ে প্রতিদিন হিটগুলির সংখ্যা বাড়িয়েছে। তবে হারের পার্থক্যের পরিমাণ নির্ধারণের জন্য, আমাদের একাধিক পৃষ্ঠাগুলির জন্য একটি সংস্থার হস্তক্ষেপ ব্যবহার করা উচিত। যেহেতু অন্তর্নিহিত হার প্রতিটি পৃষ্ঠার জন্য পৃথক হবে, তাই আমাদের হারের শতাংশের পরিবর্তন গণনা করা উচিত (আবার, এখানে হারটি প্রতিদিন হিট)।

এখন, আমরা ভান করি যে n = 100পৃষ্ঠাগুলির জন্য আমাদের কাছে ডেটা রয়েছে, যার প্রত্যেকটিরই একই সংস্থার কাছ থেকে হস্তক্ষেপ পেয়েছিল। আমরা যে শতাংশ পার্থক্য নিই তা পেতে (গড় (আগে প্রতি দিন হিট)) - গড় (প্রতি দিন হিট) পরে / গড় (প্রতি দিন হিট)

n = 100

pct_diff = np.zeros(n)

for i in xrange(n):
    vpd_before, vpd_after = simulate_data(.15)
    # % difference. Note: this is the thing we want to infer
    pct_diff[i] = (vpd_after.mean() - vpd_before.mean()) / vpd_before.mean()

plt.hist(pct_diff)
plt.title("Distribution of percent change")
plt.xlabel("Percent change")
plt.ylabel("Frequency")
plt.show()

শতাংশ পরিবর্তনের বিতরণ

এখন আমাদের আগ্রহের প্যারামিটার বিতরণ! আমরা এই ফলাফলটি বিভিন্ন উপায়ে জিজ্ঞাসা করতে পারি। উদাহরণস্বরূপ, আমরা এই শতাংশ পরিবর্তনের সর্বাধিক সম্ভাব্য মানটি জানতে চাইব বা মোডটি (আনুমানিক) পেতে চাই:

def mode_continuous(x, num_bins=None):
    if num_bins is None:
        counts, bins = np.histogram(x)
    else:
        counts, bins = np.histogram(x, bins=num_bins)

    ndx = np.argmax(counts)
    return bins[ndx:(ndx+1)].mean()

mode_continuous(pct_diff, 20)

আমি যখন এটি চালিয়েছি তখন আমার ০.২২26 পেয়েছে, যা আমাদের পক্ষে সত্যিকারের শতাংশের পরিবর্তনটি বিবেচনা করে ১৫ টির মতো খারাপ নয়। আমরা ইতিবাচক পরিবর্তনগুলির সংখ্যাটিও দেখতে পারি, যা প্রদত্ত সংস্থার হস্তক্ষেপে প্রতিদিন হিটগুলি উন্নত হওয়ার সম্ভাবনাটি প্রায় ঘনিষ্ঠ হয়:

(pct_diff > 0).mean()

এখানে, আমার ফলাফলটি 0.93, তাই আমরা বলতে পারি যে এই সংস্থাটি কার্যকর হওয়ার খুব ভাল সম্ভাবনা রয়েছে।

অবশেষে, একটি সম্ভাব্য ক্ষতি: প্রতিটি পৃষ্ঠার সম্ভবত কিছু অন্তর্নিহিত প্রবণতা রয়েছে যার জন্য আপনার সম্ভবত অ্যাকাউন্ট করা উচিত। অর্থাৎ হস্তক্ষেপ না করেও প্রতিদিন হিট বেড়ে যেতে পারে। এটির জন্য অ্যাকাউন্ট করতে, আমি একটি সাধারণ লিনিয়ার রিগ্রেশন অনুমান করব যেখানে ফলাফল ভেরিয়েবল প্রতিদিন হিট এবং স্বতন্ত্র পরিবর্তনশীল দিনটি হয় (দিন থেকে শুরু = 0 এবং আপনার নমুনায় সমস্ত দিন কেবল বৃদ্ধি)। তারপরে আপনার ডেটা ট্রেন্ড করতে প্রতিদিন প্রতিটি সংখ্যক হিট থেকে y_hat অনুমানটি বিয়োগ করুন। তারপরে আপনি উপরের পদ্ধতিটি করতে পারেন এবং আত্মবিশ্বাসী হতে পারেন যে অন্তর্নিহিত প্রবণতার কারণে ইতিবাচক শতাংশের পার্থক্য নেই। অবশ্যই, প্রবণতা রৈখিক নাও হতে পারে, তাই বিবেচনা ব্যবহার করুন! শুভকামনা!


এই ধরণের বিশদ ব্যাখ্যার জন্য আপনাকে অনেক ধন্যবাদ! আমি সত্যিই এটার প্রশংসা করছি. নিজের এবং নিয়ন 4373 এর মধ্যে আমি সমস্যার সমাধান করতে সক্ষম হয়েছি! এই সম্প্রদায় দোলা! ধন্যবাদ!
পিটার

10

আমার ডেটা বিশ্লেষকের দিনগুলিতে এই ধরণের সমস্যাটি বেশ সাধারণ ছিল। মূলত, বিপণনের প্রত্যেকেই এমন এক কৌতূহল ধারণা নিয়ে আসবে যে বিক্রিটি উচ্চতর আপকে একক ইভেন্ট হিসাবে বিক্রি করবে যা কেপিআইকে 2000% বাড়িয়ে দেবে। উচ্চতর আপগুলি তাদের অনুমোদন করবে এবং তারপরে তারা তাদের "পরীক্ষা" শুরু করবে। ফলাফলগুলি ফিরে আসবে, এবং কী কাজ করেছে এবং কে করেছে তা নির্ধারণের জন্য পরিচালনগুলি ডেটা বিশ্লেষকদের উপর তা ফেলে দেবে।

সংক্ষিপ্ত উত্তরটি হ'ল আপনি সত্যিই বুঝতে পারবেন না যে এটি সময়সীমার মতো এলোমেলো এ / বি শৈলী পরীক্ষা হিসাবে চালিত হয়নি। তবে আমি এই উত্তরটি কতটা ঘাটতি পেয়েছি তা সম্পর্কে আমি খুব সচেতন, বিশেষত যদি খাঁটি উত্তর না থাকার বিষয়টি ভবিষ্যতের ব্যবসায়িক সিদ্ধান্তের জরুরিতার সাথে অপ্রাসঙ্গিক। এই পরিস্থিতিতে বিশ্লেষণটি উদ্ধার করার জন্য আমি যে কয়েকটি কৌশল ব্যবহার করব তা এখানে রইল, মনে রাখবেন এটি একটি শিল্পের চেয়ে বেশি বিজ্ঞান।

হ্যান্ডলগুলি

একটি হ্যান্ডেল এমন কিছু যা ডেটাতে উপস্থিত থাকে যা আপনি ধরে রাখতে পারেন। আপনার পরিস্থিতিতে আপনি আমাকে যা বলছেন সেগুলি থেকে আপনি বিপণন সংস্থাটি কারা, কখন তারা কোন কৌশল চেষ্টা করেছিল এবং কোন সাইটে তারা এটি প্রয়োগ করেছিল সে সম্পর্কে আপনার কাছে প্রচুর তথ্য রয়েছে। এগুলি আপনার সূচনা পয়েন্ট এবং তথ্য যা আপনার বিশ্লেষণের কোণঠাসা হতে চলেছে।

প্রণালী বিজ্ঞান

পদ্ধতিগুলি সম্ভবত এজেন্সিগুলির সবচেয়ে শক্তিশালী প্রভাব ফেলতে চলেছে যার এজেন্সিগুলিকে যে কোনও এবং সমস্ত লাভের জন্য ক্রেডিট দেওয়া হয় যাতে আপনার এটি নিশ্চিত হওয়া দরকার যে এটি স্পষ্টভাবে রূপরেখায় রয়েছে এবং সমস্ত অংশীদাররা সম্মত হন যে এটি বোধগম্য। যদি আপনি এটি করতে না পারেন তবে আপনার বিশ্লেষণকে বিশ্বাস করা লোকদের পক্ষে কঠিন হয়ে উঠবে।

এর উদাহরণ রূপান্তর are বলুন বিপণন বিভাগ কিছু সীসা কিনে এবং তারা আমাদের ল্যান্ডিং পৃষ্ঠায় পৌঁছে, আমরা তাদের 3 দিনের জন্য ট্র্যাক করব, যদি তারা যদি সেই সময়ের মধ্যে কোনও ক্রয় করে থাকে তবে আমরা সেগুলি রূপান্তরিত হয়ে গেছে বলে গণনা করব। 3 দিন কেন, 5 বা 1 নয় কেন? যতক্ষণ না সবাই সম্মতি দেয় ততক্ষণ তা গুরুত্বপূর্ণ নয়, আপনার এখন একটি সংজ্ঞা রয়েছে যা আপনি তৈরি করতে পারেন।

তুলনা

একটি আদর্শের মধ্যে আপনার কাছে একটি দৃ relationship় সম্পর্ক প্রমাণের জন্য একটি চমৎকার এ / বি পরীক্ষা হবে, আমি ধরে নিতে চলেছি যে আপনি সেইগুলিতে সংক্ষেপে চলেছেন, তবুও, আপনি ডেটার মতো একটি সাধারণ তুলনা থেকে কিছু শিখতে পারেন। সংস্থাগুলি যখন রেডিও বিজ্ঞাপনের কার্যকারিতা নির্ধারণ করার চেষ্টা করছেন তারা প্রায়শই একই বাজারে অফসেট মাসগুলিতে বা এক বাজারে বেশ কয়েক মাস ধরে বিজ্ঞাপন চালাবেন এবং ফলাফলটি একটি আলাদা তবে অনুরূপ বাজারের সাথে তুলনা করুন। এটি বিজ্ঞানের পক্ষে উত্তীর্ণ হয় না, তবে সমস্ত শোরগোলের সাথে একটি দৃ results় ফলাফল প্রায় সর্বদা লক্ষণীয় হয়।

কোনও প্রভাব কোনও রেজিস্ট্রেশন করার জন্য কতক্ষণ সময় দেওয়া হয় তা নির্ধারণ করতে আমি এগুলি আপনার ক্ষেত্রে একত্রিত করব। একবার আপনার কাছে সেই সময়কালের ডেটা হয়ে গেলে তা আপনার মডেলড ট্র্যাফিক পূর্বাভাস, সপ্তাহের এক সপ্তাহের বৃদ্ধি, মাসের পর মাস ইত্যাদি এর বিরুদ্ধে চালায় যা পরে, এজেন্সিগুলির মধ্যে এবং সময়কাল ধরে অর্থবহ তুলনার অনুমতি দিতে পারে।

প্রয়োগবাদ

আকাঙ্ক্ষা কারণ এবং কার্যকারিতা সম্পর্কে গভীর ধারণা প্রদান করতে সক্ষম হতে পারে তবে এটি সম্ভবত বাস্তবসম্মত নয়। বাইরের বিশৃঙ্খলাগুলি কীভাবে আপনার বিশ্লেষণ তৈরি করে, আপনি ক্রমাগত বার বার প্রশ্নের বিরুদ্ধে চলে যাচ্ছেন: এই ইভেন্টটি কি আয়তন / বিক্রয় / ক্লিক মাধ্যমে বাড়াতে পেরেছিল বা কিছু করার পরেও একই প্রভাব ফেলেছিল? এর জন্য আমি যে সর্বোত্তম পরামর্শ দিতে পারি তা হ'ল আপনি যা পরিমাপ করতে যাচ্ছেন তার জন্য অত্যন্ত বাস্তব লক্ষ্য নির্ধারণ করা হয়েছে। একটি ভাল সূচনা পয়েন্ট হ'ল, আপনার যে পদ্ধতিটি রয়েছে তার মধ্যে, কোন ইভেন্টটি সবচেয়ে বেশি প্রভাব ফেলেছিল। একবারগুলি সেখান থেকে আপনার অ্যাপারচারটি খোলার পরে।

সারসংক্ষেপ

একবার আপনি এই সমস্ত দিকগুলি যুক্তিযুক্ত হয়ে গেলে আপনি একটি সাধারণ সমাধান তৈরি করতে যেতে পারেন যা পরে স্বয়ংক্রিয়ভাবে তৈরি করা যেতে পারে। আপনার সমাধানটি এই পদ্ধতিতে ডিজাইনের সুবিধাটি হ'ল ব্যবসায়িক যুক্তি ইতিমধ্যে অন্তর্নির্মিত This এটি আপনার ফলাফলগুলিকে অ-প্রযুক্তিগত ব্যবসায়িক নেতাদের কাছে অনেক বেশি অ্যাক্সেসযোগ্য এবং স্বজ্ঞাত করে তুলবে।


পাগল বিপণন ছেলেদের জন্য 1 টি। বাজার গবেষণা এবং দুর্বল পরিসংখ্যানগুলিতে করা মোড়কিতে কাজ করা আমাকে দুঃখ দেয় ...
ক্রিশ্চিয়ান সাউর

2

সম্পাদনা: সতর্কতা, আমি আমার বার্তাটি ছেড়ে দিই তবে আমার উত্তরটি ভুল বলে মনে হচ্ছে, দয়া করে নীচের মন্তব্যটি দেখুন!

আমি কোনও বিশেষজ্ঞ নই তবে আমার ধারণা মূল সমস্যাটি এই প্রশ্নের উত্তর দেওয়া:

কোনও / কোনও ইভেন্ট কোনও নির্দিষ্ট দিনে হিট সংখ্যাকে প্রভাবিত করেছে?

তবে আমি একাধিক ইভেন্টের চিকিত্সা করতে জানি না, তাই আমি এই প্রশ্নের উত্তর দেওয়ার চেষ্টা করব:

  • ইভেন্ট এক্স কোনও নির্দিষ্ট দিনে হিট সংখ্যাকে প্রভাবিত করে?

পি-মানগুলির সাথে হাইপোথিসিস টেস্টিং ব্যবহার করে যার উত্তর দেওয়া যেতে পারে (বিজ্ঞানীরা উদাহরণস্বরূপ মূল্যায়ন করতে যদি কোনও ওষুধ কোনও রোগে আক্রান্ত হয় বা না তবে) do

পি-মানগুলি ব্যবহার করে, আপনি নির্ধারণ করতে পারেন যে কোনও নির্দিষ্ট দিনে হিটগুলির সংখ্যাটি সাধারণ পরিস্থিতিতে কেবল এলোমেলো এবং গ্রহণযোগ্য ছিল বা সেগুলি অবশ্যই আপনার মডেলের পরিবর্তনের সাথে সঙ্গতিপূর্ণ।

পরিসংখ্যান বইতে ওপেন ইন্ট্রোতে আপনি পি-মানগুলি সম্পর্কে আরও পড়তে পারেন , আমি সেখান থেকে সেগুলি সম্পর্কে আসলেই শিখেছি।

তারপরে, সমস্যার অন্যান্য অংশগুলি হ'ল কীভাবে আপনার ইভেন্টগুলি সনাক্ত করতে এবং আপনার প্রশ্নের উত্তর দেওয়ার জন্য প্রয়োজনীয় প্যারামিটারগুলি গণনা করতে হবে (গড় / মিডিয়ান, প্রবর্তন ইত্যাদি) এবং কীভাবে কীভাবে আপ টু ডেট থাকবে এবং কীভাবে কাজ করা যায়।


1

কয়েক বছর আগে (২০১৫) গুগল একটি নির্দিষ্ট সিরিজের মডেলটিতে একটি নির্দিষ্ট ইভেন্টের প্রভাব সম্পর্কে একটি গবেষণা পত্র প্রকাশ করেছিল। আপনি এখানে আরও বিশদ পড়তে পারেন বায়েশিয়ান স্ট্রাকচারাল টাইম-সিরিজের মডেলগুলি ব্যবহার করে কার্যকারণের প্রভাবটি

এই গিটহাব পৃষ্ঠায় , আপনি এটি কীভাবে কাজ করে তার বিশদ উদাহরণ এবং বর্ণনা পেতে পারেন। সংক্ষেপে,

এই আর প্যাকেজটি একটি টাইম সিরিজে ডিজাইন করা হস্তক্ষেপের কার্যকারণ প্রভাব অনুমান করার জন্য একটি পদ্ধতির প্রয়োগ করে। উদাহরণস্বরূপ, কতগুলি অতিরিক্ত দৈনিক ক্লিক বিজ্ঞাপন প্রচারের দ্বারা উত্পন্ন হয়েছিল? এলোমেলোভাবে পরীক্ষা-নিরীক্ষা পাওয়া না গেলে এই জাতীয় প্রশ্নের উত্তর দেওয়া কঠিন হতে পারে।

আপনি আপনার মডেলটিকে প্রাক ইভেন্ট ইভেন্ট ডেটা এবং ইভেন্টের পরে ডেটা দিয়ে প্রশিক্ষণ দিন এবং আপনি এর মতো একটি প্লট পাবেন

এখানে চিত্র বর্ণনা লিখুন

প্রথম প্যানেলটি চিকিত্সা পরবর্তী সময়ের জন্য ডেটা এবং একটি পাল্টা ভবিষ্যদ্বাণী দেখায়। দ্বিতীয় প্যানেল পর্যবেক্ষণ করা ডেটা এবং জবাবদিহি পূর্বাভাসের মধ্যে পার্থক্য দেখায়। মডেল দ্বারা অনুমান হিসাবে এটি পয়েন্টওয়াইজ কার্যকারিতা প্রভাব। তৃতীয় প্যানেল দ্বিতীয় প্যানেল থেকে পয়েন্টওয়াইজ অবদানগুলি যুক্ত করে, যার ফলে হস্তক্ষেপের সংশ্লেষিত প্রভাবের প্লট তৈরি হয়।

নিম্নলিখিত চলমান summary(impact), আপনি একটি সংক্ষিপ্তসার এবং ইভেন্টটি আপনার সময়-সিরিজের ডেটাতে ঘটেছে আনুমানিক প্রভাব।

পাইথনে একই লাইব্রেরিটি পোর্ট করা হয়েছে। উদাহরণস্বরূপ এখানে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.