ব্যবহারকারীরা তাদের পছন্দ মত ফেসবুক সাইটের উপর নির্ভর করে বয়স নির্ধারণের জন্য মেশিন লার্নিং কৌশলগুলি


25

আমার ফেসবুক অ্যাপ্লিকেশন থেকে আমার একটি ডাটাবেস রয়েছে এবং আমি তাদের ফেসবুকের সাইটগুলি কী পছন্দ করে তার ভিত্তিতে ব্যবহারকারীদের বয়সের অনুমান করতে মেশিন লার্নিং ব্যবহার করার চেষ্টা করছি।

আমার ডাটাবেসের তিনটি গুরুত্বপূর্ণ বৈশিষ্ট্য রয়েছে:

  • আমার প্রশিক্ষণ সেটে বয়সের বিতরণ (সমুদ্রের 12 কেজি ব্যবহারকারী) তরুণ ব্যবহারকারীদের দিকে ঝুঁকছে (যেমন আমার 277 বছর বয়সী 1157 ব্যবহারকারী এবং 65 বছরের বয়সের 23 জন ব্যবহারকারী);

  • অনেক সাইটের 5 টিরও বেশি পছন্দ নেই (আমি 5 টিরও কম সংখ্যক এফবি সাইটগুলি ফিল্টার আউট করেছি)।

  • নমুনার চেয়ে আরও অনেক বৈশিষ্ট্য রয়েছে।

সুতরাং, আমার প্রশ্নগুলি হ'ল: আরও বিশ্লেষণের জন্য আপনি কী কৌশলটি ডেটা প্রস্তুত করার পরামর্শ দিবেন? আমি কি কিছু ধরণের মাত্রা হ্রাস করা উচিত? এই ক্ষেত্রে কোন এমএল পদ্ধতি ব্যবহার করা সবচেয়ে উপযুক্ত হবে?

আমি সাধারণত পাইথন ব্যবহার করি, তাই পাইথন-নির্দিষ্ট ইঙ্গিতগুলি প্রশংসিত হবে।


1
আপনি যখন "নমুনার চেয়ে আরও অনেকগুলি বৈশিষ্ট্য" বলছেন তখন আমি ধরে নিয়েছি আপনি পছন্দ করেছেন এমন অনন্য সংখ্যার সাইটের নাম >> নাম ব্যবহারকারী। সাইটগুলির রুট ডোমেনের ক্ষেত্রেও কি এটি? উদাহরণস্বরূপ তারা সাইটগুলিতে ইউটিউব ডটকম বা সিএনএন ডটকমের বেশ কয়েকটি ইউআরএল বা তারা ইতিমধ্যে ডোমেনে স্টেমেড রয়েছে? আমি যদি সম্ভব হয় তবে নির্দিষ্ট পৃষ্ঠাগুলির চেয়ে ডোমেন শিকড়গুলিতে ইউআরএলগুলি ভেঙে দিয়ে মাত্রিকতা হ্রাসের দিকে ঝুঁকছি।
cwharland

উত্তরের জন্য ধন্যবাদ. বৈশিষ্ট্যের সংখ্যা (অনন্য পছন্দসই সাইটগুলি) 32 কে, যখন নমুনার সংখ্যা (ব্যবহারকারী) 12 কে। বৈশিষ্ট্যগুলি হচ্ছে ফেসবুক পৃষ্ঠাগুলি, তাই ইউআরএলগুলি স্টেম করার দরকার নেই। কোনও ব্যবহারকারী ফেসবুক.com/cnn পছন্দ করতে পারেন বা নাও পছন্দ করতে পারেন। ব্যবহারকারীরা ভাগ করেছেন এমন লিঙ্কগুলির উপর ভিত্তি করে ব্যবহারকারীদের বয়স অনুমান করার চেষ্টা করার ধারণাটি আমি পছন্দ করি, যদিও :)
ওয়াজাইচ ওয়ালকজাক

আহ, আমি পছন্দ করা সাইটগুলির বিবরণ ভুলভাবে পড়েছি। স্পষ্টির জন্য ধন্যবাদ।
cwharland

উত্তর:


16

শুরু করার জন্য একটি জিনিস হবে কে-এনএন। এখানে ধারণাটি হ'ল আপনার একটি ব্যবহারকারী / আইটেম ম্যাট্রিক্স এবং আপনার বয়সের কিছু ব্যবহারকারীদের জন্য। ব্যবহারকারীর আইটেম ম্যাট্রিক্সের কোনও ব্যক্তির বয়স আইটেমের স্পেসে নিকটবর্তী কিছু প্রতিবেশীর গড় বা মধ্যযুগীয় কিছু দ্বারা নির্ধারিত হতে পারে।

সুতরাং আপনি প্রতিটি ব্যবহারকারী আইটেম স্পেসে ভেক্টর হিসাবে প্রকাশ করেছেন, কে কাছের প্রতিবেশী সন্ধান করুন এবং ভেক্টর প্রশ্নে নিকটতম প্রতিবেশী বয়সের কিছু সংক্ষিপ্ত বিবরণ জিজ্ঞাসা করুন। আপনি দূরত্বের কাট অফে বা আরও বাস্তবের মাধ্যমে পুনরুত্থিতভাবে ট্রেনের জন্য বয়সীদের বরাদ্দ করে এবং সেই কার্যক্রমে ত্রুটি হ্রাস করে এমন কে বেছে নিতে বেছে নিতে পারেন।

যদি মাত্রিক সমস্যা হয় তবে আপনি সহজেই গোষ্ঠীগুলির মধ্যে সবচেয়ে বৈকল্পিকতা ক্যাপচারকারী এম ভেক্টরগুলি নির্বাচন করে একক মান পচন দ্বারা এই সেটআপটিতে সহজেই হ্রাস করতে পারবেন।

সমস্ত ক্ষেত্রে যেহেতু প্রতিটি বৈশিষ্ট্য বাইনারি তাই মনে হয় কোজিনের মিল আপনার দূরত্বের মেট্রিকে যেতে পারে।

আপনার বৈশিষ্ট্য স্পেসের সংকীর্ণ দৃষ্টি নিবদ্ধ করে (একই ক্রমের সমস্ত রূপ, পছন্দ) আমার অন্যান্য পদ্ধতির (রিগ্রেশন, আরএফ, ইত্যাদি ...) সম্পর্কে আরও কিছুটা ভাবতে হবে বলে আমি মনে করি যে ব্যবহারকারী / আইটেমের পদ্ধতির সেরা হতে পারে।

সাবধানতার একটি নোট, যদি আপনার ট্রেনের জন্য বয়সগুলি স্ব-প্রতিবেদন করা হয় তবে আপনার সেগুলির কয়েকটি সংশোধন করার প্রয়োজন হতে পারে। ফেসবুকে লোকেদের জন্মের দশকে বয়সের প্রতিবেদন করার প্রবণতা রয়েছে। জন্মের তারিখগুলির একটি হিস্টোগ্রাম প্লট করুন (যুগ যুগ থেকে প্রাপ্ত) এবং দেখুন আপনার 70s, 80, 90 এর দশকের মতো দশকে স্পাইক রয়েছে কিনা।


হাই, আপনার উত্তরটি আমার বাস্তব কৌশলের সাথে বেশ মিল। আমি sklearn.neighbors.KNeighborsRegressorএসভিডি-হ্রাস স্থানে কোসাইন মেট্রিক ব্যবহার করেছি (এসভিডি প্রয়োগের পরে গড় অনুমানের ত্রুটি ~ 6 বছর থেকে কমিয়ে ~ 4 এ চলে গেছে)। আমার ডাটাবেসের ব্যবহারকারীরা 18-65 বছর বয়সী (বয়স্ক ব্যবহারকারীদের ফিল্টার আউট করা হয়েছিল), তাই এখানে 48 টি সম্ভাব্য ক্লাস রয়েছে। আমি আশ্চর্য হয়েছি এটি কেএনএন-এর জন্য খুব বেশি ক্লাস নয়, এবং আমাকে এটিকে রিগ্রেশন বা শ্রেণিবিন্যাসের সমস্যা হিসাবে বিবেচনা করা উচিত কিনা (আমি মনে করি উভয় প্রযোজ্য)।
ওয়াজচিয়াচ ওয়ালকজাক

আমি বলতে পারি, উপাখ্যানিকভাবে, আমি পৃথক পৃথকভাবে কয়েকটি ক্লাস ফিট করতে ক্লাস র্যান্ডম ফরেস্ট ব্যবহার করেছি তবে সেই মডেলের প্রত্যেকটির ফলাফলকে বিভিন্ন উপায়ে একত্রিত করেছি। এই ক্ষেত্রে আপনি এমনকি কেএনএন-এর সাথে প্রতিটি ব্যবহারকারীর বয়সের পূর্বের সম্ভাব্যতাগুলি নির্ধারণের বিষয়ে চিন্তা করতে পারেন, তারপরে প্রতিটি শ্রেণিভিত্তিক মডেলটি চালিয়ে যান, প্রতিটি শ্রেণীর জন্য পূর্বের সম্ভাব্যতাগুলি আপডেট করার জন্য এই স্কোরগুলি ব্যবহার করুন এবং সেই পোস্টারিয়ারগুলির মধ্যে সবচেয়ে সম্ভাব্য শ্রেণি চয়ন করুন। এটি কিছুটা জটিল করার মতো শোনাচ্ছে তবে সবচেয়ে খারাপ আপনার কেএনএন নির্ভুলতা থাকবে।
cwharland

7

আমি সম্প্রতি পাইথনে একটি অনুরূপ প্রকল্প করেছি (ডেটাগুলির মতো এফবি ব্যবহার করে মতামতের পূর্বাভাস দেওয়া) এবং নিম্নলিখিত মৌলিক প্রক্রিয়াটির সাথে ভাল ফলাফল পেয়েছি:

  1. রেকর্ডস লাইন বাই লাইনের মতো কমা-বিস্মৃতের উপরে পুনরাবৃত্তি করে প্রশিক্ষণ সেটে পড়ুন (এন = এন) এবং সর্বাধিক জনপ্রিয় পৃষ্ঠাগুলি সনাক্ত করতে একটি কাউন্টার ব্যবহার করুন
  2. কে সর্বাধিক জনপ্রিয় পৃষ্ঠাগুলির জন্য (আমি প্রায় 5000 ব্যবহার করেছিলাম তবে আপনি বিভিন্ন মানের সাথে খেলতে পারেন), প্রশিক্ষণ সেটের প্রতিটি ব্যক্তি প্রতিটি পৃষ্ঠা পছন্দ করে কিনা তা পরীক্ষা করতে পান্ডাস.ডাটাফ্রেম.আইসিন ব্যবহার করুন, তারপরে একটি এন এক্স কে ডাটাফ্রেম তৈরি করুন ফলাফলের (আমি এটি xdata_train কল করব)
  3. Xdata_train হিসাবে একই সূচী সহ ফলাফলের সমস্ত ভেরিয়েবল (আমার ক্ষেত্রে মতামত, আপনার বয়সের) সমন্বিত একটি সিরিজ তৈরি করুন (আমি এটিকে ydata_train বলব)
  4. Xdata_train এর উপর ভিত্তি করে ydata_train এর পূর্বাভাস দিতে শিখিয়ে-শিখার মাধ্যমে একটি এলোমেলোভাবে বন শ্রেণীবদ্ধকারী সেট আপ করুন
  5. প্যারামিটারগুলি চিহ্নিত করতে এবং নির্ভুলতা সংশোধন করতে (বিজ্ঞানের জনপ্রিয় পৃষ্ঠাগুলির সংখ্যা, গাছের সংখ্যা, সর্বনিম্ন পাতার আকার ইত্যাদি) বিজ্ঞান-শিখার ক্রস-বৈধতা পরীক্ষা করুন
  6. আউটপুট এলোমেলো বনের শ্রেণিবদ্ধ এবং আচার সহ সর্বাধিক জনপ্রিয় পৃষ্ঠাগুলির তালিকা (বা আপনি যদি একবারে সব কিছু করে থাকেন তবে স্মৃতিতে রাখুন)
  7. আপনার বাকী ডেটা লোড করুন, জনপ্রিয় পৃষ্ঠাগুলির তালিকা লোড করুন (যদি প্রয়োজন হয়), এবং এক্সডাটা_নিউ উত্পাদন করতে দ্বিতীয় ধাপটি পুনরাবৃত্তি করুন
  8. এলোমেলো বন শ্রেণীবদ্ধকারী লোড করুন (যদি প্রয়োজন হয়) এবং xdata_ নতুন ডেটার জন্য মানগুলি পূর্বাভাস দেওয়ার জন্য এটি ব্যবহার করুন
  9. ভবিষ্যদ্বাণী করা স্কোরগুলি একটি নতুন সিএসভি বা আপনার পছন্দের অন্যান্য আউটপুট ফর্ম্যাটে আউটপুট করুন

আপনার ক্ষেত্রে, আপনাকে কোনও রেজিস্ট্রারের জন্য শ্রেণিবদ্ধের পরিবর্তন করতে হবে (সুতরাং এখানে দেখুন: http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html ) তবে অন্যথায় একই প্রক্রিয়া অনেক ঝামেলা ছাড়াই কাজ করা উচিত।

এছাড়াও, আপনি পাইথনের এলোমেলো বনের সবচেয়ে আশ্চর্য বৈশিষ্ট্য সম্পর্কে অবগত হওয়া উচিত: তাত্ক্ষণিক সমান্তরালকরণ! আমরা যারা আর-এ এই কাজটি শুরু করেছি এবং তারপরে চলে এসেছি তারা সর্বদা অবাক হয়ে যায়, বিশেষত আপনি যখন কয়েক ডজন কোর দিয়ে কোনও মেশিনে কাজ করতে চান (এখানে দেখুন: http://blog.yhathq.com/posts/compering- পাইথন-এবং-r.html এ র্যান্ডম-অরণ্যসমূহ

পরিশেষে, দ্রষ্টব্য যে আপনার যদি বন্ধুদের এবং পাশাপাশি ব্যক্তিদের মধ্যে ডেটা থাকে তবে নেটওয়ার্ক বিশ্লেষণের জন্য এটি একটি নিখুঁত অ্যাপ্লিকেশন। আপনি যদি কোনও ব্যবহারকারীর বন্ধুদের বয়সগুলি বিশ্লেষণ করতে পারেন তবে ব্যবহারকারীর বয়স অবশ্যই তার বা তার বন্ধুদের মধ্যে মধ্যম দু'বছরের মধ্যে হবে, বিশেষত যদি ব্যবহারকারীরা তাদের বন্ধু নেটওয়ার্কগুলি তৈরি করার পক্ষে যথেষ্ট কম বয়সী হন স্কুল (যেহেতু বেশিরভাগ সহপাঠী হবে) সেই ভবিষ্যদ্বাণীটি সম্ভবত মডেলিং থেকে আপনি যে কোনওটিকেই পেতে পারেন --- এটি একটি সমস্যার পাঠ্যপুস্তকের উদাহরণ যেখানে সঠিক তথ্য> প্রতিবার সঠিক মডেল।

শুভকামনা!


2
শীর্ষ 5000 টি সাইট ব্যবহার করার একটি আকর্ষণীয় দিক হ'ল সত্য যে তারা বয়সে ব্যবহারকারীদের ভাগ করার ক্ষেত্রে ভাল নাও হতে পারে। নির্মাণের মাধ্যমে শীর্ষস্থানীয় সাইটগুলি এমন যে প্রত্যেকে দেখার জন্য। সুতরাং আপনার সমস্ত ব্যবহারকারীকে বিভাগ করার ক্ষেত্রে এগুলি খুব ভাল নয় কারণ সমস্ত সম্ভাব্য শ্রেণিবদ্ধতা (বয়সগুলি) সেই সাইটগুলির সাথে নিযুক্ত রয়েছে। এটি টিএফ-আইডিএফ এর আইডিএফ অংশের অনুরূপ ধারণা। আইডিএফ "প্রত্যেকের এই বৈশিষ্ট্য আছে" শব্দটি ফিল্টার করতে সহায়তা করে। সর্বাধিক পরিদর্শন করা সাইটগুলি কীভাবে আপনার আরএফের সাথে আপনার পরিবর্তনশীল গুরুত্বের প্লটগুলির বৈশিষ্ট্য হিসাবে স্থান করে?
cwharland

1
ভাল যুক্তি. এর সহজ সমাধান হ'ল ট্রেনিং ডেটাসেটকে জে বয়সের বিন্যাসে (যেমন, 13-16, 17-20, 21-24, ইত্যাদি) বিভক্ত করা এবং প্রতিটি গ্রুপের শীর্ষ (কে / জে) পৃষ্ঠা নেওয়া। এটি নিশ্চিত করবে যে প্রতিটি গ্রুপের জন্য আপনার উল্লেখযোগ্য উপস্থাপনা রয়েছে। গ্রুপগুলিতে অবশ্যই কিছুটা ওভারল্যাপ থাকবে, সুতরাং আপনি যদি সত্যই পিক হন তবে আপনি প্রতিটি গ্রুপের জন্য শীর্ষ (কে / জে) অনন্য পৃষ্ঠাগুলি নিতে চাইতে পারেন, তবে আমি মনে করি এটি ওভারকিল হতে পারে।
থেরিয়াল্ট

5

আরেকটি পরামর্শ হল লজিস্টিক রিগ্রেশন পরীক্ষা করা । একটি অতিরিক্ত বোনাস হিসাবে, মডেলের ওজন (সহগ) আপনাকে কোন সাইটগুলি বয়স-বিভ্রান্তিকর তা ধারণা দেবে।

স্ক্লেয়ারন sklearn.linear_model.LogisticRegression প্যাকেজ সরবরাহ করে যা স্পার্স ডেটা হ্যান্ডেল করার জন্যও ডিজাইন করা হয়েছে।

মন্তব্যে উল্লিখিত হিসাবে, বর্তমান ক্ষেত্রে, নমুনাগুলির চেয়ে বেশি ইনপুট ভেরিয়েবলগুলির সাথে আপনাকে মডেলটি নিয়মিত করতে হবে ( sklearn.linear_model.LogisticRegressionpenalty='l1' যুক্তি ব্যবহার করে )।


1
আমার মনে হয় এলআর দিয়ে আপনাকে একাধিক মডেল তৈরি করতে হবে। কোনও ব্যবহারকারীর অন্তর্ভুক্তির ক্ষেত্রে একই বোধের পূর্বাভাস দেয় এমন বিভিন্ন বয়সের জন্য দুটি মডেল কীভাবে তুলনা করবেন?
cwharland

1
নোট করুন যে যখন পর্যবেক্ষণের চেয়ে বেশি পরিবর্তনশীল থাকে তখন এলআর ব্যর্থ হয় এবং মডেলের অনুমানগুলি পূরণ না হলে খারাপ অভিনয় করে। এটি ব্যবহার করতে, মাত্রিকতা হ্রাস অবশ্যই প্রথম পদক্ষেপ হতে হবে।
ক্রিস্টোফার লডেন

1
@cwharland আপনার প্রতিক্রিয়া পরিবর্তনশীলটিকে শ্রেণিবদ্ধ হিসাবে বিবেচনা করা উচিত নয় কারণ এটি প্রকৃতির দ্বারা ক্রমাগত এবং সমস্যা সংজ্ঞা দ্বারা পৃথক করা হয়। এটিকে শ্রেণিবদ্ধভাবে বিবেচনা করার অর্থ অ্যালগরিদমকে বোঝানো হবে যে 16 বছর বয়স যখন সত্যই 17 হয় তখন 30 এর পূর্বাভাস দেওয়ার মতো গুরুতর ত্রুটি হয় যখন এটি আসলে 17 হয়। 30 বনাম 17) বড় হিসাবে বিবেচিত হয়। এই ক্ষেত্রে লজিস্টিক রিগ্রেশন ব্যবহার করা হয় অবিচ্ছিন্ন মানটির পূর্বাভাস দেওয়ার জন্য এবং উত্তরোত্তর সম্ভাবনাগুলি অনুমান করার জন্য নয়।
ড্যামিয়েনফ্রানকোইস

@ ক্রিস্টোফার লাউডেন আপনি ঠিক বলেছেন যে লজিস্টিক রিগ্রেশন-এর ভ্যানিলা সংস্করণ 'লার্জ পি ছোট এন' মামলার জন্য উপযুক্ত নয়, আমার উল্লেখ করা উচিত ছিল যে বর্তমান ক্ষেত্রে নিয়মিতকরণ জরুরি important আমি আমার উত্তর আপডেট। তবে এল 1-নিয়মিত এলআর হ'ল এক ধরণের বৈশিষ্ট্য নির্বাচন যা আমি প্রারম্ভিক এফএস পদক্ষেপের প্রয়োজন মনে করি না।
ড্যামিয়েনফ্রানকোইস

@ ডিডিয়েনফ্রানকোইস: আমি অবশ্যই একমত আমি কেবল একটু উদ্বিগ্ন যে এই ক্ষেত্রে এলআর মাঝারি মানেরগুলিকে খুব কঠোরভাবে শাস্তি দেবে। আপনি চূড়ান্ত বয়সের মানগুলিতে বিশেষভাবে আগ্রহী নন বলে এই বক্ররেখার মতো সিগময়েডালকে মানচিত্রের অনুপ্রেরণা বলে মনে হচ্ছে না। যদিও আমি ব্যবহারটির ভুল ব্যাখ্যা দিচ্ছি।
cwharland

4

ডি এনগুইন এট আল এর কিছু গবেষণা তাদের টুইটারের ভিত্তিতে টুইটার ব্যবহারকারীর বয়স সম্পর্কে ভবিষ্যদ্বাণী করার চেষ্টা করুন। আপনি তাদের দরকারী মনে হতে পারে। তারা লজিস্টিক এবং লিনিয়ার রিগ্রেশন ব্যবহার করে।


3

ফ্যানসিয়ার পদ্ধতিগুলি ছাড়াও আপনি বেয়েস সূত্র চেষ্টা করতে পারেন

P (I | p1 ... pn) = P (p1 ... pn | I) P (I) / Sum_i (P (p1 ... pn | i) P (i))

পি (আই | পি 1 ... পিএন) হ'ল যদি কোনও ব্যবহারকারী প 1, .., পিএন পছন্দ করেন তবে আমি প্রথম বয়সের সাথে সম্পর্কিত সম্ভবত!

পি (i) হ'ল সম্ভাবনা যা কোনও ব্যবহারকারীর বয়সের সাথে সম্পর্কিত হয় i

পি (পি 1 .. পিএন | i) হ'ল সম্ভাবনা যা কোনও ব্যবহারকারী পি 1, .., পিএন পছন্দ করেছেন যদি তিনি বয়সের গ্রুপের হন।

  • আপনার ডেটা থেকে আপনার কাছে ইতিমধ্যে পি (i) এর জন্য অনুমান রয়েছে: এটি কেবল আই-গ্রুপের ব্যবহারকারীদের অনুপাত is
  • পি (পি 1 ... পিএন | আই) অনুমান করার জন্য, প্রতিটি বয়সের জন্য আমি পি_আইজেজে একটি পৃষ্ঠা পছন্দ করার সম্ভাবনা (ফ্রিকোয়েন্সি) অনুমান করি। সমস্ত j এর জন্য পি_আইজে শূন্য নয়, আপনি একটি সামান্য ওজন সহ পুরো জনসংখ্যার ফ্রিকোয়েন্সিতে মিশ্রিত করতে পারেন।

  • তারপরে লগ ইন করুন পি (পি 1 ... পিএন | i) = যোগফল (লগ পি_আইজি, আই = পি 1, .., পিএন), একটি নতুন ব্যবহারকারীর পছন্দসই সমস্ত পৃষ্ঠার উপরে যোগফল। এই সূত্রটি আনুমানিক সত্যই ধরে নেওয়া হবে যে কোনও ব্যবহারকারী তার বয়সের পৃষ্ঠাগুলি স্বাধীনভাবে পছন্দ করে।

  • তাত্ত্বিকভাবে, আপনার পছন্দ না হওয়া সমস্তগুলির জন্য আপনার লগ (1-পি_আইজি) যুক্ত করা উচিত, তবে অনুশীলনে আপনার খুঁজে পাওয়া উচিত যে লগের যোগ (1-পি_আইজি) অপ্রাসঙ্গিকভাবে ছোট হবে, সুতরাং আপনার খুব বেশি প্রয়োজন হবে না অনেক স্মৃতি।

আপনি বা অন্য কেউ যদি চেষ্টা করে থাকেন তবে ফলাফল সম্পর্কে মন্তব্য করুন।


2

এটি একটি খুব আকর্ষণীয় সমস্যা।

ব্যবহারকারীরা সামাজিক নেটওয়ার্কে আপলোড করা ছবি বিশ্লেষণ করে আমি একইরকম মুখোমুখি হয়েছি। আমি নিম্নলিখিত পদ্ধতিটি করেছি:

  • যুগের সাথে ডেটা যুক্ত করার পরিবর্তে (15 yo, 27 yo, ...) আমি যা করেছি তা হ'ল বয়সের বিভিন্ন গোষ্ঠী প্রতিষ্ঠা করা: 18 থেকে কম, 18 থেকে 30 এবং 30 এরও বেশি (এটি আমাদের যে নির্দিষ্ট সমস্যার কারণে হয়েছিল মুখোমুখি, তবে আপনি যা চান অন্তর বেছে নিতে পারেন)। এই বিভাগটি সমস্যা সমাধানে অনেক সহায়তা করে।
  • এরপরে, আমি একটি শ্রেণিবিন্যাসিক ক্লাস্টারিং তৈরি করেছি (বিভাজক বা সমষ্টিগত)। তারপরে আমি সেই শাখাগুলি বেছে নিয়েছি যেখানে আমার পরিচিত বয়সীদের (বা গ্রুপ বয়স) ব্যবহারকারী ছিল এবং তারপরে সেই শাখার জন্য আমি সেই গ্রুপে একই বয়স বাড়িয়েছি।

এই পদ্ধতির আধা-তত্ত্বাবধানে পড়াশোনা করা হয় এবং আপনার যদি কেবলমাত্র কিছু ডেটা লেবেল থাকে তবে আমি এটিকে সুপারিশ করি।

দয়া করে লক্ষ্য করুন যে কোনও সোশ্যাল নেটওয়ার্কে লোকেরা সাধারণত বয়স সম্পর্কে মিথ্যা বলে থাকে (কেবল মজা করার জন্য, বা কখনও কখনও কারণ তারা নিজেরাই সোশ্যাল নেটতে ছদ্মবেশ করতে চায়)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.