আমি কিভাবে ডেটা এলোমেলো নমুনা থেকে অনন্য ঘটনা গণনা অনুমান করতে পারি?

15

ধরা যাক আমার কাছে মানগুলির একটি বড় সেট রয়েছে যা কখনও কখনও পুনরাবৃত্তি হয়। আমি বড় সেটে অনন্য মানের মোট সংখ্যা অনুমান করতে চাই । $S$

যদি আমি মানগুলির একটি এলোমেলো নমুনা গ্রহণ করি এবং এটিতে স্বতন্ত্র মান রয়েছে তা নির্ধারণ করি , তবে কি আমি বড় সংখ্যায় অনন্য মানের সংখ্যা অনুমান করতে এটি ব্যবহার করতে পারি? $T$ $T_u$

estimation sampling

— সদ্বিবেচনা
সূত্র

1

আপনি কি নমুনায় প্রতিটি অনন্য মানের অনুলিপি গণনা রাখতে পারেন? আমাকে আঘাত করে যে সাহায্য করতে পারে।

— onestop

অনাস্টপ, হ্যাঁ আমি এটি করতে পারলাম

— স্যানিটি

11

বিভিন্ন পদ্ধতির সংক্ষিপ্তসার সহ সমস্যা সম্পর্কে একটি সম্পূর্ণ কাগজ এখানে। একে বলা হয় সাহিত্যে স্বতন্ত্র মূল্য নির্ধারণ ।

অভিনব কাগজপত্র না পড়ে যদি আমি নিজেই এটি করতে হত তবে আমি এটি করতাম। ভাষার মডেলগুলি তৈরির ক্ষেত্রে, প্রায়শই একটি অজানা শব্দের পর্যবেক্ষণের সম্ভাব্যতাটি প্রায়শই অনুমান করতে হয়, একগুচ্ছ পাঠ্য দেওয়ার পরে। বিশেষত ভাষা মডেলগুলির জন্য এই সমস্যাটি সমাধান করার ক্ষেত্রে খুব ভাল দৃষ্টিভঙ্গি হ'ল টোকেনের মোট সংখ্যায় বিভক্ত হয়ে একবারে ঘটে যাওয়া শব্দের সংখ্যাটি ব্যবহার করা। একে গুড টুরিং প্রাক্কলন বলা হয় ।

U1 টি আই আইনের নমুনায় হুবহু একবার সংঘটিত মানগুলির সংখ্যা হতে দিন।

P[new item next] ~= u1 / m.

আপনার আকারের মিঃ নমুনায় আপনাকে অনন্য আইটেমের সংখ্যা হতে দিন।

আপনি যদি ভুল করে ধরে নেন যে আরও তথ্য পাওয়ার সাথে সাথে 'নতুন আইটেম নেক্সট' হার হ্রাস পাচ্ছে না, তবে গুড টিউরিং ব্যবহার করে আপনার কাছে

total uniq set of size s ~= u + u1 / m * (s - m)

ইউ 1 সত্যিই ছোট হয়ে যাওয়ার সাথে এর কিছু বাজে আচরণ রয়েছে তবে বাস্তবে এটি আপনার পক্ষে সমস্যা নাও হতে পারে।

— rrenaud
সূত্র

কি sএই ক্ষেত্রে? 'শব্দ' মোট সংখ্যা?

— নাথান

আসলে, sএই দুটি বার বাম এবং ডান হাতের আকারে ঘটে?

— পাসক্যালভিকুটেন

1

সিমুলেশন কৌশল

সংগ্রহ আছি আকারের র্যান্ডম নমুনার এন সেট থেকে এস । প্রত্যেকের জন্য মি নমুনা, সংখ্যা গণনা তোমার দর্শন লগ করা দ্বারা অনন্য মূল্যবোধ ও ডিভাইড এর এন স্বাভাবিক করবে। নরমালাইজড ইউ এর সিমুলেটেড বিতরণ থেকে সুদের গণনা সারাংশের পরিসংখ্যান (যেমন, গড়, বৈচিত্র, আন্তঃখণ্ডের পরিসর)। অনন্য মানের সংখ্যার অনুমানের জন্য এস এর কার্ডিনালিয়ালি দ্বারা স্বাভাবিকীকরণ করা u এর সিমুলেটেড গড়কে গুণ করুন ।

বৃহত্তর হয় মি এবং এন , আরো ঘনিষ্ঠভাবে আপনার কৃত্রিম গড় স্বতন্ত্র মান রয়েছে তা সত্য সংখ্যা ম্যাচ হবে।

— ব্রাশ ভারসাম্য
সূত্র

1

এই সমাধান কি খোঁড়া ধরনের নয়? এটি মোটেই স্যাচুরেশনের প্রভাবগুলিতে বিবেচনা করে না।

— রেনাড

@ রেনাড আপনার সমাধানের তুলনায়, আমি সম্মত হই যে খনিটি নিম্নমানের বলে মনে হচ্ছে।

— ব্রাশ ভারসাম্য

@ রেনাড আমি এখনও একটি সিমুলেশন কৌশলটি সমর্থন করি যার মাধ্যমে আপনি অনন্য আইটেমগুলির সম্ভাব্যতার জন্য নমুনা ত্রুটির কিছুটা বোধ পেতে GTFE হিসাবে অনেকগুলি-সম্ভাব্য সম্ভাব্য বৃহত্তর হিসাবে সম্ভাব্য নমুনায় ব্যবহার করে অনন্য আইটেমগুলির সম্ভাবনা গণনা করে। বা সমস্ত মুহুর্ত গণনা করার জন্য একটি সুস্পষ্ট সূত্র আছে? উইকিপিডিয়া রেফারেন্স অনুসারে দ্বি-দ্বি বিতরণটি অনন্য আইটেমের সংখ্যার বিতরণকে চিহ্নিত করে না বলে আমি এটি নেতিবাচক দ্বিপদী হিসাবে ভাবি না। তবে দুর্দান্ত! আমি এটি পরে ফাইল করব।

— ব্রাশ ভারসাম্য

0

পান্ডাদের জন্য এখানে একটি বাস্তবায়ন রয়েছে:

import math
import numpy as np
from collections import Counter

def estimate_uniqueness(df, col, r=10000, n=None):
    """ Draws a sample of size r from column col from dataframe df and 
        returns an estimate for the number of unique values given a
        population size of n """
    n = n or df.shape[0]
    sample = df[col][np.random.randint(0, n, r)]
    counts = sample.value_counts()
    fis = Counter(counts)
    estimate = math.sqrt(n / r) * fis[1] + sum([fis[x] for x in fis if x > 1])
    return estimate

এই কাগজের 2 এবং 4 ধারার উপর নির্ভর করে: http://ftp.cse.buffalo.edu/users/azhang/disc/disc01/cd1/out/papers/pods/towardsestimatimosur.pdf

— PascalVKooten
সূত্র