বিন্দুর দুটি মানের মধ্যে পরিসংখ্যানগতভাবে অর্থপূর্ণ বৃহত আউটলেট অনুপাত রয়েছে এমন নমুনা পয়েন্টগুলি কীভাবে সন্ধান করবেন?


12

উদাহরণস্বরূপ অ্যাপ্লিকেশন হিসাবে, স্ট্যাক ওভারফ্লো ব্যবহারকারীদের নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন: খ্যাতি এবং প্রোফাইল ভিউ গণনা

এটি প্রত্যাশিত যে বেশিরভাগ ব্যবহারকারীর জন্য এই দুটি মান সমানুপাতিক হবে: উচ্চ প্রতিনিধি ব্যবহারকারীরা বেশি মনোযোগ আকর্ষণ করেন এবং তাই আরও প্রোফাইল ভিউ পান।

অতএব, তাদের মোট সুনামের তুলনায় অনেক বেশি প্রোফাইল ভিউ রয়েছে এমন ব্যবহারকারীদের সন্ধান করা আকর্ষণীয়।

এটি ইঙ্গিত করতে পারে যে ব্যবহারকারীর খ্যাতির একটি বাহ্যিক উত্স রয়েছে। অথবা কেবলমাত্র তাদের কাছে মজাদার কৌতূহলপূর্ণ প্রোফাইল ছবি এবং নাম রয়েছে।

আরও গাণিতিকভাবে, প্রতিটি দ্বি-মাত্রিক নমুনা বিন্দু একজন ব্যবহারকারী এবং প্রতিটি ব্যবহারকারীর 0 থেকে + অসীমের দুটি অবিচ্ছেদ্য মান থাকে:

  • খ্যাতি
  • প্রোফাইল দর্শন সংখ্যা

এই দুটি প্যারামিটারগুলি লাইনগতভাবে নির্ভরশীল বলে আশা করা হচ্ছে এবং আমরা সেই নমুনা পয়েন্টগুলি খুঁজতে চাই যা অনুমানের সবচেয়ে বড় বহিরাগত হয়।

নিষ্পাপ সমাধান অবশ্যই প্রোফাইল ভিউ গ্রহণ করা, খ্যাতি অনুসারে ভাগ করা এবং বাছাই করা।

তবে এটি ফলাফল দেয় যা পরিসংখ্যানগতভাবে অর্থবহ নয়। উদাহরণস্বরূপ, যদি কোনও ব্যবহারকারীর প্রশ্নের উত্তর দেওয়া হয়, 1 টি উত্সাহ পেয়েছে এবং কোনও কারণে 10 প্রোফাইল ভিউ রয়েছে, যা জাল করা সহজ, তবে সেই ব্যবহারকারী আরও 1000 টি উপসংহার এবং 5000 টি প্রোফাইল ভিউযুক্ত আরও আকর্ষণীয় প্রার্থীর সামনে উপস্থিত হবেন ।

আরও "বাস্তব বিশ্বের" ব্যবহারের ক্ষেত্রে আমরা উদাহরণস্বরূপ উত্তর দেওয়ার চেষ্টা করতে পারি "কোন স্টার্টআপগুলি সবচেয়ে অর্থপূর্ণ ইউনিকর্ন?"। উদাহরণস্বরূপ, যদি আপনি ক্ষুদ্র ইক্যুইটি সহ 1 ডলার বিনিয়োগ করেন তবে আপনি একটি ইউনিকর্ন তৈরি করুন: https://www.linkedin.com/feed/update/urn:li:activity : 6362648516858310656

কংক্রিট পরিষ্কার ব্যবহারযোগ্য ব্যবহারের আসল ওয়ার্ল্ড ডেটা

এই সমস্যার সমাধানটি পরীক্ষা করার জন্য, আপনি কেবল এই ছোটটি ব্যবহার করতে পারেন (75 এম সংক্ষেপিত , ~ 10 এম ব্যবহারকারী) 2019-03 স্ট্যাক ওভারফ্লো ডেটা ডাম্প থেকে আহৃত প্রিপ্রসেসড ফাইল :

wget https://github.com/cirosantilli/media/raw/master/stack-overflow-data-dump/2019-03/users_rep_view.dat.7z
7z x users_rep_view.dat.7z

যা ইউটিএফ -8 এনকোডযুক্ত ফাইল তৈরি করে users_rep_view.datযার খুব সাধারণ সরল পাঠ্য জায়গার পৃথক ফর্ম্যাট রয়েছে:

Id Reputation Views DisplayName
-1 1 649 Community
1 45742 454747 Jeff_Atwood
2 3582 24787 Geoff_Dalgas
3 13591 24985 Jarrod_Dixon
4 29230 75102 Joel_Spolsky
5 39973 12147 Jon_Galloway
8 942 6661 Eggs_McLaren
9 15163 5215 Kevin_Dente
10 101 3862 Sneakers_O'Toole

লগ স্কেলে ডেটা দেখতে কেমন লাগে:

এখানে চিত্র বর্ণনা লিখুন

gnuplot লিপি

তখন এটি দেখতে আকর্ষণীয় হবে যে আপনার সমাধানটি আসলে আমাদের অজানা নতুন অদ্ভুত ব্যবহারকারীদের আবিষ্কার করতে সহায়তা করে কিনা!

প্রাথমিক তথ্যটি 2019-03 ডেটা ডাম্প থেকে নিম্নলিখিত হিসাবে পাওয়া গেছে:

wget https://archive.org/download/stackexchange/stackoverflow.com-Users.7z

# Produces Users.xml
7z x stackoverflow.com-Users.7z

# Preprocess data to minimize it.
./users_xml_to_rep_view_dat.py Users.xml > users_rep_view.dat
7z a users_rep_view.dat.7z users_rep_view.dat

sha256sum stackoverflow.com-Users.7z users_rep_view.dat.7z > checksums

জন্য উত্সusers_xml_to_rep_view_dat.py

পুনরায় অর্ডার করে আপনার আউটলিয়ারদের বাছাই করার পরে users_rep_view.dat, হাইপারলিংক সহ দ্রুত এইচটিএমএল তালিকা পেতে শীর্ষস্থানীয় পিকগুলি দ্রুত তা দেখতে পেতে পারেন:

./users_rep_view_dat_to_html.py users_rep_view.dat | head -n 1000 > users_rep_view.html
xdg-open users_rep_view.html

জন্য উত্সusers_rep_view_dat_to_html.py

এই স্ক্রিপ্টটি পাইথনে ডেটা কীভাবে পড়তে হয় তার দ্রুত রেফারেন্স হিসাবে কাজ করতে পারে।

ম্যানুয়াল ডেটা বিশ্লেষণ

অবিলম্বে gnuplot গ্রাফটি দেখে আমরা দেখতে পাই প্রত্যাশিত হিসাবে:

  • ডেটা আনুমানিক আনুপাতিক, কম প্রতিনিধিত্বকারী বা লো ভিউ গণনা ব্যবহারকারীদের বৃহত্তর বৈচিত্র সহ with
  • নিম্ন প্রতিনিধি বা লো ভিউ গণনা ব্যবহারকারীগণ আরও স্পষ্ট, যার অর্থ তাদের উচ্চতর অ্যাকাউন্ট আইডি রয়েছে যার অর্থ তাদের অ্যাকাউন্টগুলি আরও নতুন

ডেটা সম্পর্কে কিছুটা অন্তর্দৃষ্টি পেতে, আমি কিছু ইন্টারেক্টিভ প্লটিং সফ্টওয়্যারটিতে কিছু দূর পর্যন্ত পয়েন্টগুলি ড্রিল করতে চেয়েছিলাম।

Gnuplot এবং Matplotlib এত বড় ডেটাसेट পরিচালনা করতে পারেনি, তাই আমি ভিসিটকে প্রথমবারের জন্য একটি শট দিয়েছি এবং এটি কার্যকর হয়েছে। আমি যে সকল প্লট করা সফ্টওয়্যারটি চেষ্টা করেছি তার একটি বিশদ ওভারভিউ এখানে দেওয়া হয়েছে: https://stackoverflow.com

ওএমজি চালানো কঠিন ছিল। আমি বাধ্য ছিলাম:

  • এক্সিকিউটেবল ম্যানুয়ালি ডাউনলোড করুন, কোনও উবুন্টু প্যাকেজ নেই
  • users_xml_to_rep_view_dat.pyদ্রুত হ্যাক করে ডেটা সিএসভিতে রূপান্তর করুন কারণ আমি কীভাবে সহজে এটি স্পেস বিভাজিত ফাইলগুলি খাওয়াতে পারি তা আবিষ্কার করতে পারি না (পাঠ শিখেছি, পরের বার আমি সরাসরি সিএসভিতে যাব)
  • ইউআই এর সাথে 3 ঘন্টা লড়াই করুন
    • ডিফল্ট পয়েন্টের আকারটি একটি পিক্সেল, যা আমার স্ক্রিনের ধূলিকণায় বিভ্রান্ত হয়। 10 পিক্সেল গোলক এ যান
    • 0 জন প্রোফাইল ভিউ সহ একজন ব্যবহারকারী ছিলেন এবং এটি লোগারিদম প্লটটি করতে সঠিকভাবে প্রত্যাখ্যান করেছিল, তাই আমি এই পয়েন্টটি থেকে মুক্তি পেতে ডেটা সীমা ব্যবহার করেছি। এটি আমাকে স্মরণ করিয়ে দিয়েছিল যে gnuplot খুব অনুমতিপ্রাপ্ত, এবং আপনি খুশি যে কোনও কিছু এতে নিক্ষেপ করবেন।
    • অক্ষর শিরোনাম যুক্ত করুন, "নিয়ন্ত্রণ"> "টিকাশ" এর অধীনে ব্যবহারকারীর নাম এবং অন্যান্য জিনিসগুলি সরিয়ে দিন

আমি এই ম্যানুয়াল কাজের ক্লান্ত হয়ে যাওয়ার পরে আমার ভিজিট উইন্ডোটি কেমন দেখাচ্ছে তা এখানে:

এখানে চিত্র বর্ণনা লিখুন

চিঠিগুলি হ'ল পয়েন্টগুলি যা আমি নিজেই দুর্দান্ত পিক্স বৈশিষ্ট্যটির সাথে নির্বাচিত করেছি:

  • আপনি পিক্স উইন্ডোতে> "ফ্লোট ফর্ম্যাট" থেকে ভাসমান পয়েন্ট যথার্থতা বাড়িয়ে প্রতিটি পয়েন্টের জন্য সঠিক আইডি দেখতে পারেন %.10g
  • তারপরে আপনি সমস্ত বাছাই করা পয়েন্টগুলি "সংরক্ষণাগার হিসাবে সংরক্ষণ করুন" দিয়ে একটি টেক্সট ফাইলের কাছে ফেলে দিতে পারেন। এটি আমাদের কয়েকটি বেসিক পাঠ্য প্রক্রিয়াকরণ সহ আকর্ষণীয় প্রোফাইল ইউআরএলগুলির একটি ক্লিকযোগ্য তালিকা তৈরি করতে সহায়তা করে

TODOs, কীভাবে তা শিখুন:

  • প্রোফাইল নামের স্ট্রিংগুলি দেখুন, তারা ডিফল্টরূপে 0 তে রূপান্তরিত হয়। আমি স্রেফ ব্রাউজারে প্রোফাইল আইডিগুলি আটকালাম
  • একবারে আয়তক্ষেত্রের সমস্ত পয়েন্ট বাছাই করুন

এবং তাই শেষ অবধি, এখানে এমন কয়েকজন ব্যবহারকারী রয়েছেন যা সম্ভবত আপনার অর্ডারটি উচ্চ করে দেবে:

সম্ভাব্য সমাধান

আমি https://www.evanmiller.org/how-not-to-sort-by-average-rating.html থেকে উইলসনের স্কোর আত্মবিশ্বাসের ব্যবধান সম্পর্কে শুনেছি যা অনিশ্চয়তার সাথে ধনাত্মক রেটিংয়ের অনুপাতকে "ভারসাম্য [[]] রাখে অল্প সংখ্যক পর্যবেক্ষণ ", তবে আমি কীভাবে এই সমস্যায় ম্যাপ করব তা নিশ্চিত নই।

সেই ব্লগ পোস্টে লেখক সুপারিশ করেছেন যে ডাউনভোটের তুলনায় অনেক বেশি উপাখ্যান রয়েছে এমন আইটেমগুলি সন্ধান করার জন্য অ্যালগরিদমকে সুপারিশ করা হয়েছে, তবে আমি নিশ্চিত নই যে একই ধারণাটি আপভোট / প্রোফাইল ভিউ সমস্যার ক্ষেত্রে প্রযোজ্য কিনা। আমি নেওয়ার কথা ভাবছিলাম:

  • প্রোফাইল ভিউ == সেখানে upvotes
  • upvotes এখানে == সেখানে ডাউনভোটস (উভয় "খারাপ")

তবে আমি নিশ্চিত না যে এটি বোধগম্য হয়েছে কারণ আপ / ডাউনভোট সমস্যাটি অনুসারে, সাজানো প্রতিটি আইটেমটিতে এন 0/1 ভোটের ইভেন্ট রয়েছে। তবে আমার সমস্যাটিতে, প্রতিটি আইটেম এর সাথে দুটি ইভেন্ট যুক্ত থাকে: উত্সাহ পাওয়া এবং প্রোফাইল ভিউ পাওয়া।

এমন কোনও অ্যালগরিদম আছে যা এই ধরণের সমস্যার জন্য ভাল ফলাফল দেয়? এমনকি সমস্যাটির সঠিক নামটি জানা আমার বিদ্যমান সাহিত্য খুঁজে পেতে সহায়তা করবে।

গ্রন্থ-পঁজী

উবুন্টু 18.10, ভিজিট 2.13.3 এ পরীক্ষিত।


1
আমি এটিতে নতুন, সুতরাং পরিভাষা আরও সঠিক করতে দয়া করে বিনা দ্বিধায় শিরোনাম / প্রশ্ন সম্পাদনা করুন। ধন্যবাদ।
সিরো সান্তিলি 冠状 病毒 审查 六四 事件 法轮功

দেখে মনে হচ্ছে আপনি বিদেশিদের সন্ধান করছেন। আমি এই স্থানটিতে একটি কৌশল ব্যবহার করব
সম্ভাব্যতা ব্লগ 2

1
@ প্রব্যাবিলিসিস্লোগিক বিটিডব্লিউ, আমি প্রশ্নটি ব্যবহারের সহজ কিছু কংক্রিট দিয়ে আপডেট করেছি।
সিরো সান্তিলি 冠状 病毒 审查 六四 事件

1
আমি কেবল এটি বলতে চাই এটি কেবল একটি আকর্ষণীয় প্রশ্নই নয়, এটি খুব কংক্রিট এবং ভাল ফর্ম্যাটেড। দেখার জন্য একটি উদাহরণ। ভাল কাজ @ সিরো!
জুলিও সেজার সিলভা

1
@ জুলিও সিজারসিলভা ধন্যবাদ !! আমি এবার উচ্চ পারফেক্ট ইন্টারেক্টিভ প্লটিং সম্পর্কে শিখতে আশা করছিলাম না, তবে আমি তা করেছিলাম। ক্লাসিক।
সিরো সান্তিলি 法轮功 病毒 审查 六四 事件

উত্তর:


4

আমি মনে করি উইলসন স্কোরের আত্মবিশ্বাসের ব্যবধানটি সরাসরি আপনার সমস্যার জন্য প্রয়োগ করা যেতে পারে। ব্লগে ব্যবহৃত স্কোরটি একটি প্রত্যাশিত মানের পরিবর্তে আত্মবিশ্বাসের ব্যবধানের একটি নিম্ন সীমা ছিল।

এই জাতীয় সমস্যার জন্য আরেকটি পদ্ধতি হ'ল আমাদের কিছু পূর্ববর্তী জ্ঞানের দিকে আমাদের অনুমানকে সংশোধন (পক্ষপাত) করা, উদাহরণস্বরূপ সামগ্রিক ভিউ / রেপ অনুপাত।

বনাম~এন(μ,σ)μ

μপি(μ)

অনুশীলনে, এটি মূলত সামগ্রিক ভিউ / রেপ অনুপাতের ওজনযুক্ত গড় এবং ব্যবহারকারীর ভিউ / রেপ অনুপাত,

μএমএকজনপি=এনμএমএল+ +μ0এন+ +
যেখানেএনμএমএলμ0


দুটি পদ্ধতির তুলনা করতে (উইলসন স্কোর আত্মবিশ্বাসের ব্যবধান নিম্নতর গণ্ডি এবং এমএপি), যখন উভয় পর্যায়ে ডেটা (রেপস) থাকে তখন যথাযথ অনুমান দেয়, যখন রেপের সংখ্যা কম হয়, উইলসন নিম্ন বদ্ধ পদ্ধতিটি শূন্যের দিকে পক্ষপাত করবে এবং এমএপি গড় দিকে পক্ষপাত।


1
আপনার উত্তর দেওয়ার জন্য ধন্যবাদ! আমি কিছু কংক্রিট এবং সহজেই ব্যবহারযোগ্য ডেটা দিয়ে প্রশ্নটি আপডেট করেছি, আসুন দেখে নেওয়া যাক যে কেউ কিছু মজাদার অনুসন্ধান করতে পরিচালিত করে।
সিরো সান্তিলি 冠状 病毒 审查 六四 事件

1
@CiroSantilli job 改造 中心 996ICU 事件 job ভাল কাজ!
দন্তলু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.