শ্রেণিবদ্ধ বায়েশিয়ান মডেল (?)


12

দয়া করে আমার পরিসংখ্যানীয় লিঙ্গো কসাইয়ের জন্য ক্ষমা প্রার্থনা করুন :) আমি এখানে বেশ কয়েকটি প্রশ্ন পেয়েছি যা বিজ্ঞাপন সম্পর্কিত এবং হারের মাধ্যমে ক্লিক করে। তবে তাদের মধ্যে কেউই আমার শ্রেণিবিন্যাসের পরিস্থিতি সম্পর্কে বুঝতে আমার খুব বেশি সহায়তা করেনি।

একটি সম্পর্কিত প্রশ্ন আছে এই একই শ্রেণিবদ্ধ বায়েশিয়ান মডেল সমতুল্য উপস্থাপনা? , তবে আমি নিশ্চিত নই যে তাদের আসলে একই ধরণের সমস্যা আছে কিনা। শ্রেণিবদ্ধ বায়েসিয়ান দ্বিপদী মডেলের আরেকটি প্রশ্ন প্রাইপার হাইপারপ্রাইয়ার্স সম্পর্কে বিশদে যায় তবে আমি আমার সমস্যার সমাধানটি ম্যাপ করতে পারছি না

নতুন পণ্যটির জন্য আমার অনলাইনে বেশ কয়েকটি বিজ্ঞাপন রয়েছে। আমি বিজ্ঞাপনগুলি কয়েক দিন চলতে দিলাম। সেই মুহুর্তে পর্যাপ্ত লোকেরা ক্লিক করে বিজ্ঞাপনগুলি ক্লিক করে কোনটি সর্বাধিক ক্লিক পায়। বিজ্ঞাপনে ক্লিক করার পরে লোকেরা আসলে কতটা কিনে তা দেখার জন্য আমি সর্বাধিক ক্লিকগুলি ব্যতীত সমস্ত কিছু খুঁজে বের করার পরে আমি সেইটিকে আরও কয়েকদিন চালিয়ে যেতে পারি। এই মুহুর্তে আমি জানি যে বিজ্ঞাপনগুলি প্রথম স্থানে চালানো ভাল ধারণা ছিল কিনা।

আমার পরিসংখ্যানগুলি খুব কোলাহলপূর্ণ কারণ আমি প্রতিদিন প্রচুর আইটেম বিক্রি করি সেহেতু আমার কাছে প্রচুর ডেটা নেই। অতএব, বিজ্ঞাপন দেখার পরে কত লোক কিছু কিনে তা অনুমান করা সত্যিই শক্ত। প্রতি 150 ক্লিকের মধ্যে প্রায় এক জন ক্রয়ের ফলাফল দেয়।

সাধারণভাবে বলতে গেলে আমি জানতে হবে যে যত তাড়াতাড়ি সম্ভব প্রতিটি বিজ্ঞাপনে অর্থ হারাচ্ছি কিনা কোনও বিজ্ঞাপনে সমস্ত বিজ্ঞাপনের উপর বিশ্বব্যাপী পরিসংখ্যান সহ প্রতি-বিজ্ঞাপন গ্রুপের পরিসংখ্যানগুলি মসৃণ করে।

  • প্রতিটি বিজ্ঞাপনের পর্যাপ্ত কেনাকাটা না হওয়া পর্যন্ত আমি যদি অপেক্ষা করি তবে তা ভেঙে যাব কারণ এটি খুব বেশি সময় নেয়: 10 টি বিজ্ঞাপনের পরীক্ষার জন্য আমাকে 10 গুণ বেশি অর্থ ব্যয় করতে হবে যাতে প্রতিটি বিজ্ঞাপনের পরিসংখ্যান যথেষ্ট পরিমাণে নির্ভরযোগ্য হয়ে উঠতে পারে। ততক্ষণে আমি হয়তো টাকা হারিয়ে ফেলেছি।
  • যদি আমি বিজ্ঞাপনগুলির সমস্তগুলির মধ্যে ক্রয় গড় করি তবে আমি ঠিক তেমন কাজ করে না এমন বিজ্ঞাপনগুলি কিক আউট করতে সক্ষম হব না।

আমি কী বিশ্বব্যাপী ক্রয়ের হার ( N $ উপ-বিতরণের ? এর অর্থ হ'ল প্রতিটি বিজ্ঞাপনের জন্য আমার কাছে যত বেশি ডেটা থাকবে, সেই বিজ্ঞাপনের পরিসংখ্যান তত বেশি স্বতন্ত্র। যদি কেউ এখনও কোনও বিজ্ঞাপনে ক্লিক না করে থাকে তবে আমি ধরে নিই যে গ্লোবাল গড় যথাযথ।perclick)anduseitasapriorfor

আমি এর জন্য কোন বিতরণটি বেছে নেব?

যদি আমার এ-তে 20 টি ক্লিক এবং বিতে 4 টি ক্লিক থাকে তবে আমি কীভাবে এটির মডেল করব? এখন পর্যন্ত আমি বুঝতে পেরেছি যে দ্বিপাক্ষিক বা পইসন বিতরণটি এখানে অর্থবোধ করতে পারে:

  • purchase_rate ~ poisson (?)
  • (purchase_rate | group A) ~ poisson (কেবলমাত্র গ্রুপ A এর জন্য ক্রয়ের হার অনুমান করুন?)

তবে আমি আসলে গণনা করার পরে কী করব purchase_rate | group A। গ্রুপ এ (বা অন্য কোনও গ্রুপ) বোঝার জন্য আমি কীভাবে দুটি বিতরণ একসাথে প্লাগ করব।

আমাকে কি প্রথমে কোনও মডেল ফিট করতে হবে? আমার কাছে এমন ডেটা রয়েছে যা আমি কোনও মডেলকে "প্রশিক্ষণ" দিতে ব্যবহার করতে পারি:

  • বিজ্ঞাপন এ: 352 টি ক্লিক, 5 টি কেনাকাটা
  • বিজ্ঞাপন বি: 15 টি ক্লিক, 0 টি কেনাকাটা
  • বিজ্ঞাপন সি: 3519 ক্লিক, 130 কেনাকাটা

আমি দলের যে কোনও একটির সম্ভাব্যতা অনুমান করার একটি উপায় অনুসন্ধান করছি। যদি কোনও গোষ্ঠীর কাছে কেবলমাত্র দু'টি ডেটাপয়েন্ট থাকে তবে আমি মূলত বিশ্ব গড়তে ফিরে যেতে চাই। আমি বয়েশিয়ান পরিসংখ্যান সম্পর্কে কিছুটা জানি এবং প্রচুর পিডিএফ পড়েছি যে তারা কীভাবে বয়েশিয়ান অনুমান এবং সংযুক্ত প্রিভিয়ার্স ব্যবহার করে মডেল করে তা বর্ণনা করে। আমি মনে করি এটি সঠিকভাবে করার একটি উপায় আছে তবে কীভাবে এটি সঠিকভাবে মডেল করা যায় তা আমি বুঝতে পারি না।

আমি ইঙ্গিতগুলি সম্পর্কে খুব খুশি হব যা আমাকে আমার বায়েশিয়ান উপায়ে তৈরি করতে সহায়তা করে। এটি অনলাইনে উদাহরণগুলি সন্ধান করতে অনেক সাহায্য করবে যা আমি এটি বাস্তবায়নের জন্য ব্যবহার করতে পারি।

হালনাগাদ:

সাড়া দেওয়ার জন্য অনেক ধন্যবাদ। আমি আমার সমস্যা সম্পর্কে আরও কম বেশি বিট বুঝতে শুরু করেছি। ধন্যবাদ! আমি এখন কিছুটা সমস্যা বুঝতে পারছি কিনা তা দেখতে আমাকে কয়েকটি প্রশ্ন জিজ্ঞাসা করুন:

সুতরাং আমি ধরে নিই যে রূপান্তরগুলি বিটা-বিতরণ হিসাবে বিতরণ করা হয়েছে, এবং একটি বিটা বিতরণের দুটি পরামিতি রয়েছে, এবং ।ab

তাই তারা পূর্বে পরামিতি হয় প্যারামিটার, hyperparameters হয়? সুতরাং শেষ পর্যন্ত আমি আমার বিটা বিতরণের প্যারামিটার হিসাবে রূপান্তর সংখ্যা এবং ক্লিকের সংখ্যা সেট করে রেখেছি?12 12

এক পর্যায়ে আমি যখন বিভিন্ন বিজ্ঞাপনের তুলনা করতে চাই, তখন আমি গণনা করব । আমি কীভাবে সেই সূত্রের প্রতিটি অংশ গণনা করব?P(conversion|ad=X)=P(ad=X|conversion)P(conversion)P(ad=X)

  • আমি মনে করি কে বিটা বিতরণের সম্ভাবনা বা "মোড" বলা হয়। সুতরাং এটি , এবং আমার বিতরণের পরামিতি। তবে এখানে নির্দিষ্ট এবং কেবল বিজ্ঞাপন জন্য বিতরণের প্যারামিটারগুলি আছে ? সেক্ষেত্রে, এটি কি এই বিজ্ঞাপনটি দেখেছে কেবল ক্লিক এবং রূপান্তর সংখ্যা? বা সমস্ত বিজ্ঞাপন কতগুলি ক্লিক / রূপান্তর দেখেছে?P(ad=X|conversion)α1α+β2αβαβX

  • তারপরে আমি পূর্বের সাথে গুণ করি, যা পি (রূপান্তর), যা আমার ক্ষেত্রে কেবল জেফরির পূর্বে, যা তথ্যহীন। আমি আরও ডেটা পাওয়ার মতো পূর্বেররা কি একই থাকবে?

  • আমি দ্বারা ভাগ করি , যা প্রান্তিক সম্ভাবনা, তাই আমি গণনা করি যে এই বিজ্ঞাপনটি কতবার ক্লিক করা হয়েছে?P(ad)

জেফরির পূর্বে ব্যবহার করার সময়, আমি ধরে নিচ্ছি যে আমি শূন্য থেকে শুরু করছি এবং আমার ডেটা সম্পর্কে কিছুই জানি না। সেই পূর্বেটিকে "অ-তথ্যমূলক" বলা হয়। আমি আমার ডেটা সম্পর্কে শিখতে থাকায় আমি কি পূর্বেরটি আপডেট করব?

ক্লিকগুলি এবং রূপান্তরগুলি আসার সাথে সাথে আমি পড়েছি যে আমার বিতরণটি "আপডেট" করতে হবে। এর অর্থ কি, আমার বিতরণের প্যারামিটারগুলি পরিবর্তন হয় বা পূর্বের পরিবর্তনগুলি হয়? আমি যখন বিজ্ঞাপন এক্স এর জন্য ক্লিক পেয়েছি, আমি কি একের বেশি বিতরণ আপডেট করব? একের বেশি আগে?

উত্তর:


9

আপনি উদ্বুদ্ধ হিসাবে, আপনার প্রশ্নে সম্বোধনের একটি খুব সাধারণ উপায় হায়ারার্কিকাল (মাল্টিলেভেল) বায়েশিয়ান মডেল তৈরি করা। নীচে চিত্রিত হিসাবে মডেলটির তিনটি অংশ রয়েছে।

মডেল

বিজ্ঞাপন রূপান্তর হারের জন্য হায়ারার্কিকাল বায়েশিয়ান মডেল

  1. জনসংখ্যা স্তরে, আমরা বিজ্ঞাপনের জনসংখ্যার রূপান্তর সম্ভাবনার মডেল করি যা থেকে আপনার নির্দিষ্ট বিজ্ঞাপনের পরীক্ষিত বিজ্ঞাপনগুলির নমুনা তৈরি করা হয়। কেউ জনসংখ্যার পরামিতিগুলি ঠিক করতে পারে এবং দ্বিতীয় স্তরের আগে হিসাবে তাদের ব্যবহার করতে পারে, যেমনটি নীল আগে উল্লেখ করেছিল। বিকল্পভাবে, আমরা জনসংখ্যার পরামিতিগুলিতে নিজেরাই আগে রেখে দিতে পারি, যা অতিরিক্ত সুবিধা দেয় যা আমরা এখন তথ্যের আলোকে জনসংখ্যার পরামিতিগুলি সম্পর্কে আমাদের অনিশ্চয়তা প্রকাশ করতে পারি। আসুন এই রুটটি অনুসরণ করুন এবং জনসংখ্যার উপরে জনসংখ্যার উপর একটি পূর্ববর্তী অর্থ এবং রাখুন ( অর্থাত্, বিপরীত প্রকরণ) iance ব্যবহার করে একটি পূর্ব প্রাপ্ত হতে পারেN(μμ0,η0)μGa(λa0,b0)μ0=0,η0=0.1,a0=1,b0=1যা আমাদের পূর্ববর্তী তথ্যগুলি ডেটা দ্বারা প্রাধান্য পাবে তা নিশ্চিত করে।

  2. পৃথক বিজ্ঞাপনের স্তরে, আমরা কোনও প্রদত্ত বিজ্ঞাপন রূপান্তর সম্ভাবনা - মডেল করতে পারি -সাধারণত বিতরণ হিসাবে। সুতরাং, প্রতিটি বিজ্ঞাপন জন্য , logit রূপান্তর সম্ভাব্যতা হিসাবে স্থাপিত হয় ।πjjjρj:=logit(πj)N(ρjμ,λ)

  3. অবশেষে, পর্যবেক্ষিত তথ্য পর্যায়ে, আমরা ধর্মান্তর সংখ্যা মডেল বিজ্ঞাপনের জন্য হিসাবে , যেখানে রুপান্তর সিগমা ব্যবহার একটি সম্ভাব্যতা মধ্যে একটি logit হার ফিরে অনুবাদ করতে, এবং যেখানে বিজ্ঞাপনটিতে ক্লিকের সংখ্যা ।kjjBin(kjσ(ρj),nj)σ(ρj)njj

উপাত্ত

উদাহরণস্বরূপ, আসুন আপনার আসল প্রশ্নটিতে আপনি যে ডেটা পোস্ট করেছেন তা নেওয়া যাক,

বিজ্ঞাপন এ: 352 টি ক্লিক, 5 টি কেনাকাটা

বিজ্ঞাপন বি: 15 টি ক্লিক, 0 টি কেনাকাটা

বিজ্ঞাপন সি: 3519 ক্লিক, 130 কেনাকাটা

যা আমরা অনুবাদ করি:n1=352,k1=5,n2=15,k2=0,

অনুমান

এই মডেলটি উল্টানো মানে আমাদের মডেল পরামিতিগুলির জন্য উত্তর বিতরণগুলি পাওয়া। এখানে, আমি মডেল ইনভার্সনের জন্য একটি বৈকল্পিক বেইস পদ্ধতির ব্যবহার করেছি, যা এমসিএমসির মতো স্টোকাস্টিক স্যাম্পলিং স্কিমগুলির চেয়ে কমপিটেশনালভাবে আরও দক্ষ। আমি নীচের ফলাফল চক্রান্ত করেছি।

ডেটা এবং ফলাফল পোস্টারিয়র

চিত্রটি তিনটি প্যানেল দেখায়। (ক) আপনার দেওয়া উদাহরণের ডেটাগুলির একটি সাধারণ দৃশ্যায়ন। ধূসর বারগুলি ক্লিকের সংখ্যা উপস্থাপন করে, কালো বারগুলি রূপান্তর সংখ্যা দেখায়। (খ) জনসংখ্যার উপরের পরিণতি পরবর্তী বিতরণ মানে রূপান্তর হার। আমরা আরও ডেটা পর্যবেক্ষণ করার সাথে সাথে এটি আরও এবং আরও সুনির্দিষ্ট হয়ে উঠবে। (গ) বিজ্ঞাপন-নির্দিষ্ট উত্তরীয় রূপান্তর হারের কেন্দ্রীয় 95% উত্তরীয় সম্ভাবনার অন্তর (বা বিশ্বাসযোগ্য ব্যবধান)।

শেষ প্যানেল হায়ারারিকাল মডেলিংয়ের জন্য বায়সীয় পদ্ধতির দুটি মূল বৈশিষ্ট্য তুলে ধরে। প্রথমত, পোস্টারগুলির যথার্থতা অন্তর্নিহিত ডেটা পয়েন্টগুলির সংখ্যা প্রতিফলিত করে। উদাহরণস্বরূপ, আমাদের বিজ্ঞাপন সি এর জন্য তুলনামূলকভাবে অনেকগুলি ডেটা পয়েন্ট রয়েছে; সুতরাং, এর বিজ্ঞাপন অন্যান্য বিজ্ঞাপনের পোস্টারিয়রগুলির তুলনায় অনেক বেশি সুনির্দিষ্ট।

দ্বিতীয়ত, বিজ্ঞাপন-সম্পর্কিত তথ্যগুলি জনসংখ্যা সম্পর্কে জ্ঞান দ্বারা অবহিত করা হয়। অন্য কথায়, বিজ্ঞাপন-সম্পর্কিত পোস্টারিয়রগুলি পুরো গোষ্ঠীর ডেটা ভিত্তিতে তৈরি হয়, এটি একটি প্রভাবকে সংকুচিত হিসাবে পরিচিত । উদাহরণস্বরূপ, বিজ্ঞাপন A এর উত্তরোত্তর মোড (কালো বৃত্ত) এর অভিজ্ঞতাগত রূপান্তর হারের (নীল) তুলনায় অনেক বেশি। এটি কারণ অন্যান্য সমস্ত বিজ্ঞাপনের উত্তরোত্তর মোডগুলি বেশি থাকে এবং এইভাবে আমরা গোষ্ঠীগতভাবে আমাদের বিজ্ঞাপন-নির্দিষ্ট প্রাক্কলনকে অবহিত করে গ্রাউন্ড সত্যের আরও ভাল অনুমান পেতে পারি। একটি নির্দিষ্ট বিজ্ঞাপন সম্পর্কে আমাদের যত কম তথ্য থাকবে, অন্যান্য বিজ্ঞাপনগুলির ডেটা দ্বারা এর উত্তরোত্তর তত বেশি প্রভাবিত হবে।

আপনার আসল প্রশ্নে বর্ণিত সমস্ত ধারণাগুলি পুরোপুরি বায়েশিয়ান সেটিংয়ের ব্যবহারিক ইউটিলিটি চিত্রিত করে উপরের মডেলটিতে প্রাকৃতিকভাবে সম্পন্ন হয়েছে।


কে, আপনার বিস্তারিত উত্তরের জন্য আপনাকে ধন্যবাদ। আমি উত্তরটি কিছুটা তারিখের সাথে বুঝতে পেরেছি তবে আপনি যদি তা রাখেন তবে আপনি কি সংলগ্ন কোডটি ভাগ করে নিতে আপত্তি করবেন? আমি হায়ারারিকিকাল বায়েশিয়ান মডেলিং শিখার চেষ্টা করছি তবে আর। এর মধ্যে অন্তর্নিহিত উদাহরণগুলি খুঁজে পেতে সংগ্রাম করছি
ঝুবার্ব

@ কে, আকর্ষণীয় উত্তরের জন্য ধন্যবাদ, আপনি কি অনুক্রমিক বায়েসিয়ান মডেলগুলির জন্য কিছু রেফারেন্স যুক্ত করতে পারেন? ধন্যবাদ!
ব্যবহারকারীর 1111005

1
: হাই @Zhubarb, user511005, এখানে উপরে মডেল বর্ণনা কাগজ একটি লিঙ্ক sciencedirect.com/science/article/pii/S1053811913002371 আমি করেছি একসঙ্গে ভেরিয়েশনাল অনুমান করার জন্য একটি সংক্ষিপ্ত ভূমিকা এখানে রাখুন: people.inf.ethz.ch/ বিকে / টকস / ব্রোডারসন_2013_03_22.pdf
কে ব্রোডারসেন

2

আপনার প্রতিটি বিজ্ঞাপনের জন্য ক্লিক করে একটি "রূপান্তর" (ক্রয়) এর সম্ভাব্যতা অনুমান করতে হবে । (মনে হচ্ছে আপনি ধরে নিচ্ছেন যে পরিবর্তনের সম্ভাবনা প্রতিটি ক্লিকের জন্য একই, যা যুক্তিসঙ্গত)p

এই কাজ করতে Bayesian পথ ধরে বন্টন অনুমান হয় , যা বিটা এবং আকৃতি প্যারামিটার আছে ধর্মান্তর সংখ্যা প্লাস সমান , এবং ক্লিকের সংখ্যা একটি রূপান্তর প্লাস স্থাপিত হয়নি সমান ।paabb

a এবং আপনার পূর্বের প্রতিনিধিত্ব করে। ব্যবহারের একটি জেফ্রিস 'পূর্বে জন্য। বৈশ্বিক গড় "পিছিয়ে" পড়ার জন্য, সমস্ত ডেটা অনুসারে সেট করার বিভিন্ন উপায় রয়েছে ।b(12,12)a,b

, , প্যারামিটারগুলির সাথে আপনার অনুমানের বাইরে এর অনুমান পেতে আপনি সর্বাধিক সম্ভাবনার মান, বিটা বিতরণের মোড বেছে নিতে পারেন।, pa,b


আপনার সম্পাদনার উত্তরে:

রূপান্তরগুলি বিটা-বিতরিত নয়, তবে বার্নোল্লি-সম্ভাব্যতার সাথে বিতরণ । আপনি কী লিখেছেন তা অনুগ্রহ করে কীভাবে আমি অনুচ্ছেদ 2 তে এবং সেট করছি । নোট করুন যে আপনার প্রতিটি বিজ্ঞাপনের জন্য এবং এইভাবে প্রতিটি বিজ্ঞাপনের জন্য উপর একটি বিশ্বাস রয়েছে এবং এই বিশ্বাসগুলির প্রত্যেকটির নিজস্ব এবং ।a b p p a bpabppab

বায়েশিয়ান আপডেটটি হ'ল

P(px)P(p)P(xp)

যেখানে হল পর্যবেক্ষণ (রূপান্তর বা কোনও রূপান্তর নয়) এবং উপযুক্ত বিজ্ঞাপনের জন্য নির্বাচিত। এই সূত্র ইতিমধ্যে জন্য আপডেট মধ্যে কাজ করা হয় এবং , যা কাজ করে একটি রূপান্তর ক্ষেত্রে আপনাকে 1 যোগ , অন্যথায় আপনি যোগ 1 - এই আপডেট করছে বিশ্বাস এর ।পি বি বি পিxpababp

জেফরিজ এর পূর্বের তথ্যহীন পূর্বের মত একই জিনিস নয়, তবে আমি বিশ্বাস করি যে এটি ব্যবহার করার উপযুক্ত কারণ না থাকলে আপনি এটি আরও ভাল। আপনি যদি সে সম্পর্কে কোনও আলোচনা শুরু করতে চান তবে নির্দ্বিধায় অন্য একটি প্রশ্ন জিজ্ঞাসা করুন।


সাড়া দেওয়ার জন্য ধন্যবাদ! আমি আমার মূল প্রশ্নটি আপডেট করেছি কারণ এই মন্তব্য বাক্সে আমার অক্ষর নেই। আপনি আপডেটে আমি যে বিবরণ লিখেছি সেগুলির জন্য কিছু প্রতিক্রিয়া জানাতে পারলে দুর্দান্ত হবে।
মিকা টিহোনেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.