উদাহরণস্বরূপ অ্যাপ্লিকেশন হিসাবে, স্ট্যাক ওভারফ্লো ব্যবহারকারীদের নিম্নলিখিত দুটি বৈশিষ্ট্য বিবেচনা করুন: খ্যাতি এবং প্রোফাইল ভিউ গণনা ।
এটি প্রত্যাশিত যে বেশিরভাগ ব্যবহারকারীর জন্য এই দুটি মান সমানুপাতিক হবে: উচ্চ প্রতিনিধি ব্যবহারকারীরা বেশি মনোযোগ আকর্ষণ করেন এবং তাই আরও প্রোফাইল ভিউ পান।
অতএব, তাদের মোট সুনামের তুলনায় অনেক বেশি প্রোফাইল ভিউ রয়েছে এমন ব্যবহারকারীদের সন্ধান করা আকর্ষণীয়।
এটি ইঙ্গিত করতে পারে যে ব্যবহারকারীর খ্যাতির একটি বাহ্যিক উত্স রয়েছে। অথবা কেবলমাত্র তাদের কাছে মজাদার কৌতূহলপূর্ণ প্রোফাইল ছবি এবং নাম রয়েছে।
আরও গাণিতিকভাবে, প্রতিটি দ্বি-মাত্রিক নমুনা বিন্দু একজন ব্যবহারকারী এবং প্রতিটি ব্যবহারকারীর 0 থেকে + অসীমের দুটি অবিচ্ছেদ্য মান থাকে:
- খ্যাতি
- প্রোফাইল দর্শন সংখ্যা
এই দুটি প্যারামিটারগুলি লাইনগতভাবে নির্ভরশীল বলে আশা করা হচ্ছে এবং আমরা সেই নমুনা পয়েন্টগুলি খুঁজতে চাই যা অনুমানের সবচেয়ে বড় বহিরাগত হয়।
নিষ্পাপ সমাধান অবশ্যই প্রোফাইল ভিউ গ্রহণ করা, খ্যাতি অনুসারে ভাগ করা এবং বাছাই করা।
তবে এটি ফলাফল দেয় যা পরিসংখ্যানগতভাবে অর্থবহ নয়। উদাহরণস্বরূপ, যদি কোনও ব্যবহারকারীর প্রশ্নের উত্তর দেওয়া হয়, 1 টি উত্সাহ পেয়েছে এবং কোনও কারণে 10 প্রোফাইল ভিউ রয়েছে, যা জাল করা সহজ, তবে সেই ব্যবহারকারী আরও 1000 টি উপসংহার এবং 5000 টি প্রোফাইল ভিউযুক্ত আরও আকর্ষণীয় প্রার্থীর সামনে উপস্থিত হবেন ।
আরও "বাস্তব বিশ্বের" ব্যবহারের ক্ষেত্রে আমরা উদাহরণস্বরূপ উত্তর দেওয়ার চেষ্টা করতে পারি "কোন স্টার্টআপগুলি সবচেয়ে অর্থপূর্ণ ইউনিকর্ন?"। উদাহরণস্বরূপ, যদি আপনি ক্ষুদ্র ইক্যুইটি সহ 1 ডলার বিনিয়োগ করেন তবে আপনি একটি ইউনিকর্ন তৈরি করুন: https://www.linkedin.com/feed/update/urn:li:activity : 6362648516858310656
কংক্রিট পরিষ্কার ব্যবহারযোগ্য ব্যবহারের আসল ওয়ার্ল্ড ডেটা
এই সমস্যার সমাধানটি পরীক্ষা করার জন্য, আপনি কেবল এই ছোটটি ব্যবহার করতে পারেন (75 এম সংক্ষেপিত , ~ 10 এম ব্যবহারকারী) 2019-03 স্ট্যাক ওভারফ্লো ডেটা ডাম্প থেকে আহৃত প্রিপ্রসেসড ফাইল :
wget https://github.com/cirosantilli/media/raw/master/stack-overflow-data-dump/2019-03/users_rep_view.dat.7z
7z x users_rep_view.dat.7z
যা ইউটিএফ -8 এনকোডযুক্ত ফাইল তৈরি করে users_rep_view.dat
যার খুব সাধারণ সরল পাঠ্য জায়গার পৃথক ফর্ম্যাট রয়েছে:
Id Reputation Views DisplayName
-1 1 649 Community
1 45742 454747 Jeff_Atwood
2 3582 24787 Geoff_Dalgas
3 13591 24985 Jarrod_Dixon
4 29230 75102 Joel_Spolsky
5 39973 12147 Jon_Galloway
8 942 6661 Eggs_McLaren
9 15163 5215 Kevin_Dente
10 101 3862 Sneakers_O'Toole
লগ স্কেলে ডেটা দেখতে কেমন লাগে:
তখন এটি দেখতে আকর্ষণীয় হবে যে আপনার সমাধানটি আসলে আমাদের অজানা নতুন অদ্ভুত ব্যবহারকারীদের আবিষ্কার করতে সহায়তা করে কিনা!
প্রাথমিক তথ্যটি 2019-03 ডেটা ডাম্প থেকে নিম্নলিখিত হিসাবে পাওয়া গেছে:
wget https://archive.org/download/stackexchange/stackoverflow.com-Users.7z
# Produces Users.xml
7z x stackoverflow.com-Users.7z
# Preprocess data to minimize it.
./users_xml_to_rep_view_dat.py Users.xml > users_rep_view.dat
7z a users_rep_view.dat.7z users_rep_view.dat
sha256sum stackoverflow.com-Users.7z users_rep_view.dat.7z > checksums
জন্য উত্সusers_xml_to_rep_view_dat.py
।
পুনরায় অর্ডার করে আপনার আউটলিয়ারদের বাছাই করার পরে users_rep_view.dat
, হাইপারলিংক সহ দ্রুত এইচটিএমএল তালিকা পেতে শীর্ষস্থানীয় পিকগুলি দ্রুত তা দেখতে পেতে পারেন:
./users_rep_view_dat_to_html.py users_rep_view.dat | head -n 1000 > users_rep_view.html
xdg-open users_rep_view.html
জন্য উত্সusers_rep_view_dat_to_html.py
।
এই স্ক্রিপ্টটি পাইথনে ডেটা কীভাবে পড়তে হয় তার দ্রুত রেফারেন্স হিসাবে কাজ করতে পারে।
ম্যানুয়াল ডেটা বিশ্লেষণ
অবিলম্বে gnuplot গ্রাফটি দেখে আমরা দেখতে পাই প্রত্যাশিত হিসাবে:
- ডেটা আনুমানিক আনুপাতিক, কম প্রতিনিধিত্বকারী বা লো ভিউ গণনা ব্যবহারকারীদের বৃহত্তর বৈচিত্র সহ with
- নিম্ন প্রতিনিধি বা লো ভিউ গণনা ব্যবহারকারীগণ আরও স্পষ্ট, যার অর্থ তাদের উচ্চতর অ্যাকাউন্ট আইডি রয়েছে যার অর্থ তাদের অ্যাকাউন্টগুলি আরও নতুন
ডেটা সম্পর্কে কিছুটা অন্তর্দৃষ্টি পেতে, আমি কিছু ইন্টারেক্টিভ প্লটিং সফ্টওয়্যারটিতে কিছু দূর পর্যন্ত পয়েন্টগুলি ড্রিল করতে চেয়েছিলাম।
Gnuplot এবং Matplotlib এত বড় ডেটাसेट পরিচালনা করতে পারেনি, তাই আমি ভিসিটকে প্রথমবারের জন্য একটি শট দিয়েছি এবং এটি কার্যকর হয়েছে। আমি যে সকল প্লট করা সফ্টওয়্যারটি চেষ্টা করেছি তার একটি বিশদ ওভারভিউ এখানে দেওয়া হয়েছে: https://stackoverflow.com
ওএমজি চালানো কঠিন ছিল। আমি বাধ্য ছিলাম:
- এক্সিকিউটেবল ম্যানুয়ালি ডাউনলোড করুন, কোনও উবুন্টু প্যাকেজ নেই
users_xml_to_rep_view_dat.py
দ্রুত হ্যাক করে ডেটা সিএসভিতে রূপান্তর করুন কারণ আমি কীভাবে সহজে এটি স্পেস বিভাজিত ফাইলগুলি খাওয়াতে পারি তা আবিষ্কার করতে পারি না (পাঠ শিখেছি, পরের বার আমি সরাসরি সিএসভিতে যাব)- ইউআই এর সাথে 3 ঘন্টা লড়াই করুন
- ডিফল্ট পয়েন্টের আকারটি একটি পিক্সেল, যা আমার স্ক্রিনের ধূলিকণায় বিভ্রান্ত হয়। 10 পিক্সেল গোলক এ যান
- 0 জন প্রোফাইল ভিউ সহ একজন ব্যবহারকারী ছিলেন এবং এটি লোগারিদম প্লটটি করতে সঠিকভাবে প্রত্যাখ্যান করেছিল, তাই আমি এই পয়েন্টটি থেকে মুক্তি পেতে ডেটা সীমা ব্যবহার করেছি। এটি আমাকে স্মরণ করিয়ে দিয়েছিল যে gnuplot খুব অনুমতিপ্রাপ্ত, এবং আপনি খুশি যে কোনও কিছু এতে নিক্ষেপ করবেন।
- অক্ষর শিরোনাম যুক্ত করুন, "নিয়ন্ত্রণ"> "টিকাশ" এর অধীনে ব্যবহারকারীর নাম এবং অন্যান্য জিনিসগুলি সরিয়ে দিন
আমি এই ম্যানুয়াল কাজের ক্লান্ত হয়ে যাওয়ার পরে আমার ভিজিট উইন্ডোটি কেমন দেখাচ্ছে তা এখানে:
চিঠিগুলি হ'ল পয়েন্টগুলি যা আমি নিজেই দুর্দান্ত পিক্স বৈশিষ্ট্যটির সাথে নির্বাচিত করেছি:
- আপনি পিক্স উইন্ডোতে> "ফ্লোট ফর্ম্যাট" থেকে ভাসমান পয়েন্ট যথার্থতা বাড়িয়ে প্রতিটি পয়েন্টের জন্য সঠিক আইডি দেখতে পারেন
%.10g
- তারপরে আপনি সমস্ত বাছাই করা পয়েন্টগুলি "সংরক্ষণাগার হিসাবে সংরক্ষণ করুন" দিয়ে একটি টেক্সট ফাইলের কাছে ফেলে দিতে পারেন। এটি আমাদের কয়েকটি বেসিক পাঠ্য প্রক্রিয়াকরণ সহ আকর্ষণীয় প্রোফাইল ইউআরএলগুলির একটি ক্লিকযোগ্য তালিকা তৈরি করতে সহায়তা করে
TODOs, কীভাবে তা শিখুন:
- প্রোফাইল নামের স্ট্রিংগুলি দেখুন, তারা ডিফল্টরূপে 0 তে রূপান্তরিত হয়। আমি স্রেফ ব্রাউজারে প্রোফাইল আইডিগুলি আটকালাম
- একবারে আয়তক্ষেত্রের সমস্ত পয়েন্ট বাছাই করুন
এবং তাই শেষ অবধি, এখানে এমন কয়েকজন ব্যবহারকারী রয়েছেন যা সম্ভবত আপনার অর্ডারটি উচ্চ করে দেবে:
বিশাল ভিউ গণনা এবং কম তথ্য প্রোফাইল সহ খুব কম রেপ ব্যবহারকারীরা।
এই ব্যবহারকারীরা সম্ভবত কোথাও কোথাও থেকে ট্র্যাফিক পুনর্নির্দেশ করছেন।
সম্পর্কিত: কোনও ব্যবহারকারীর দ্বারা বিখ্যাত প্রশ্ন সোনার ব্যাজ কারসাজির জন্য একটি মেটা থ্রেড ছিল , তবে আমি এখন এটি খুঁজে পাচ্ছি না।
যদি এই জাতীয় ব্যবহারকারীর সংখ্যা অনেক বেশি থাকে তবে আমাদের বিশ্লেষণ কঠিন হবে এবং এই জাতীয় "জালিয়াতি" এড়াতে আমাদের অন্যান্য পরামিতিগুলি বিবেচনা করার চেষ্টা করতে হবে:
- এ 1 143100 2445750 https://stackoverflow.com/users/2445750/mu Muhammad-mahtab-saleem
- ডি 60 51111 2139869 https://stackoverflow.com/users/2139869/xxn
- ই 40 23067 5740196 https://stackoverflow.com/users/5740196/listcrawler
- এফ 11 7738 3313079 https://stackoverflow.com/users/3313079/rikitikitaco
- জি 136 11123 4102129 https://stackoverflow.com/users/4102129/abhishek-despande
- কে 377 24453 1012351 https://stackoverflow.com/users/1012351/overstack
- এল 1489 57515 1249338 https://stackoverflow.com/users/1249338/frosty
- এম 1767 40986 2578799 https://stackoverflow.com/users/2578799/naresh-walia
- আমি গ্রাফের এত কাছাকাছি ব্যবহারকারীর এই ক্লাস্টারটিকে আকর্ষণীয় মনে করি:
- এইচ 58 4331 1818755 https://stackoverflow.com/users/1818755/eerongal
- আমি 103 4366 1816274 https://stackoverflow.com/users/1816274/angelov
- জ 157 4688 688552 https://stackoverflow.com/users/688552/oylex
বাহ্যিক খ্যাতি:
- ও 29799 170854 2274694 https://stackoverflow.com/users/2274694/lyndsey-scottex ভিক্টোরিয়ার গোপন মডেল: https://en.wikedia.org/wiki/Lyndsey_Scott
- পি 45742 454747 1 https://stackoverflow.com/users/1/jeff-atwood এসও সহ-প্রতিষ্ঠাতা
- Y 29230 75102 4 https://stackoverflow.com/users/4/joel-spolsky এসও সহ-প্রতিষ্ঠাতা
- সর্বোচ্চ খ্যাতি ব্যবহারকারীরা আরও প্রোফাইল ভিউ পেতে ঝোঁকেন কারণ তারা "সর্বোচ্চ খ্যাতিযুক্ত ব্যবহারকারীদের" গুগল কোয়েরি / তালিকাতে উপস্থিত হয়:
- ইউ 542861 401220 88656 https://stackoverflow.com/users/88656/eric-lippert সি # ডিজাইনে জড়িত
- ভি 852319 396830 157882 https://stackoverflow.com/users/157882/balusc শীর্ষ # 2 ব্যবহারকারী, উত্তরের পাগল পরিমাণ
উদ্দীপনাযুক্ত প্রোফাইল:
- এন 13690 108073 63550 https://stackoverflow.com/users/63550/peter-mortensen যে নিজের ছবি! আমিও মনে করি তিনি আগে একজন মডারেটর ছিলেন।
- আর 143904 144287 895245 https://stackoverflow.com/users/895245/ciro-santilli-%e6 %96 %b0%e7 %96 %86%e6%94%b9%e9%80%a0%e4%b8%ad % E5% প্রেমিক% 83996icu% E5% 85% বিজ্ঞাপন% E5% 9b% 9b% E4% BA% 8B% E4% BB% B6
- টি 291742 161929 560648 https://stackoverflow.com/users/560648/lightness-races-in-orbit
উচ্চ প্রতিনিধি ব্যবহারকারীরা যে সময় স্থগিত ছিল। আহ, নির্বোধ আপনার প্রতিনিধি 1 নিয়মে যায়:
- বি 1 77456 285587 https://stackoverflow.com/users/285587/your-common-sense
নিশ্চিত নয়, আমি হেরফের দেখার জন্য লোভিত করছি:
- প্রশ্ন 65788 126085 50776 https://stackoverflow.com/users/50776/casperone
- এস 15655 81541 293594 https://stackoverflow.com/users/293594/xnx
- ডাব্লু 12019 37047 2227834 https://stackoverflow.com/users/2227834/unheilig
- এক্স 1421 27963 1255427 https://stackoverflow.com/users/1255427/jack-nicholson
সম্ভাব্য সমাধান
আমি https://www.evanmiller.org/how-not-to-sort-by-average-rating.html থেকে উইলসনের স্কোর আত্মবিশ্বাসের ব্যবধান সম্পর্কে শুনেছি যা অনিশ্চয়তার সাথে ধনাত্মক রেটিংয়ের অনুপাতকে "ভারসাম্য [[]] রাখে অল্প সংখ্যক পর্যবেক্ষণ ", তবে আমি কীভাবে এই সমস্যায় ম্যাপ করব তা নিশ্চিত নই।
সেই ব্লগ পোস্টে লেখক সুপারিশ করেছেন যে ডাউনভোটের তুলনায় অনেক বেশি উপাখ্যান রয়েছে এমন আইটেমগুলি সন্ধান করার জন্য অ্যালগরিদমকে সুপারিশ করা হয়েছে, তবে আমি নিশ্চিত নই যে একই ধারণাটি আপভোট / প্রোফাইল ভিউ সমস্যার ক্ষেত্রে প্রযোজ্য কিনা। আমি নেওয়ার কথা ভাবছিলাম:
- প্রোফাইল ভিউ == সেখানে upvotes
- upvotes এখানে == সেখানে ডাউনভোটস (উভয় "খারাপ")
তবে আমি নিশ্চিত না যে এটি বোধগম্য হয়েছে কারণ আপ / ডাউনভোট সমস্যাটি অনুসারে, সাজানো প্রতিটি আইটেমটিতে এন 0/1 ভোটের ইভেন্ট রয়েছে। তবে আমার সমস্যাটিতে, প্রতিটি আইটেম এর সাথে দুটি ইভেন্ট যুক্ত থাকে: উত্সাহ পাওয়া এবং প্রোফাইল ভিউ পাওয়া।
এমন কোনও অ্যালগরিদম আছে যা এই ধরণের সমস্যার জন্য ভাল ফলাফল দেয়? এমনকি সমস্যাটির সঠিক নামটি জানা আমার বিদ্যমান সাহিত্য খুঁজে পেতে সহায়তা করবে।
গ্রন্থ-পঁজী
- https://meta.stackoverflow.com/questions/307117/are-profile-views-on-stack-overflow-positively-correlated-to-the-level-of-reputa
- দ্বিমুখী outliers জন্য পরীক্ষা
- /programming/41462073/multivariate-outlier-detection-using-r-with-probability
- বিদেশিদের সনাক্ত করার কোনও সহজ উপায় আছে?
- লিনিয়ার রিগ্রেশন বিশ্লেষণে কীভাবে বহিরাগতদের মোকাবেলা করা উচিত?
- https://math.meta.stackexchange.com/questions/26137/who-maximizes-the-ratio-of-people-reached-to-questions-answered
উবুন্টু 18.10, ভিজিট 2.13.3 এ পরীক্ষিত।