স্ট্যাক এক্সচেঞ্জ ওয়েবসাইটে মেশিন লার্নিং পদ্ধতির প্রয়োগ


37

আমার এই সেমিস্টারে একটি মেশিন লার্নিং কোর্স রয়েছে এবং অধ্যাপক আমাদের ক্লাসে চালু করা একটি মেশিন লার্নিং পদ্ধতির মাধ্যমে একটি বাস্তব-বিশ্ব সমস্যা খুঁজে পেতে এবং এটি সমাধান করতে বলেছিলেন :

আমি স্ট্যাকওভারফ্লো এবং স্ট্যাকএক্সচেঞ্জের অন্যতম অনুরাগী এবং এই ওয়েবসাইটগুলির ডেটাবেস ডাম্পগুলি জনসাধারণকে সরবরাহ করা হয় কারণ তারা দুর্দান্ত! আমি আশা করি আমি এই ডাটাবেসগুলি সম্পর্কে একটি ভাল মেশিন লার্নিং চ্যালেঞ্জ খুঁজে পেতে এবং এটি সমাধান করতে পারতাম।

আমার ধারণা

আমার মনে একটি ধারণা এসেছিল প্রশ্নোত্তর দেহে প্রবেশ করা শব্দের উপর ভিত্তি করে প্রশ্নের জন্য ট্যাগগুলির পূর্বাভাস। আমি মনে করি যে কোনও প্রশ্নের জন্য ট্যাগগুলি শেখার জন্য বায়েশিয়ান নেটওয়ার্কটি সঠিক সরঞ্জাম তবে আরও গবেষণা দরকার need যাইহোক, শেখার পর্ব শেখার পরে যখন ব্যবহারকারী প্রশ্নটি প্রবেশ করে শেষ করেন তখন তার জন্য কিছু ট্যাগ প্রস্তাব দেওয়া উচিত।

আমাকে বলুন :

আমি পরিসংখ্যান সম্প্রদায়কে এমএল দুটি প্রশ্ন সম্পর্কে অভিজ্ঞ ব্যক্তি হিসাবে জিজ্ঞাসা করতে চাই:

  1. আপনি কি মনে করেন ট্যাগ পরামর্শ অন্তত একটি সমস্যা যা সমাধান করার কোনও সুযোগ আছে? এটি সম্পর্কে আপনার কোনও পরামর্শ আছে? আমি কিছুটা চিন্তিত কারণ স্ট্যাকেক্সচেঞ্জ এধরণের বৈশিষ্ট্যটি এখনও প্রয়োগ করে না।

  2. স্ট্যাকেক্সচেঞ্জের ডাটাবেসের ভিত্তিতে এমএল প্রকল্পের জন্য আপনার কাছে অন্য কোনও / আরও ভাল ধারণা আছে? স্ট্যাকেক্সচেঞ্জের ডেটাবেসগুলি থেকে কিছু শেখার জন্য আমার পক্ষে সত্যিই খুব কঠিন find


ডাটাবেস ত্রুটি সম্পর্কে বিবেচনা: আমি উল্লেখ করতে চাই যে যদিও ডাটাবেসগুলি বিশাল এবং অনেকগুলি উদাহরণ রয়েছে তবে সেগুলি নিখুঁত নয় এবং ত্রুটির শিকার হয়। সুস্পষ্ট একটি হ'ল ব্যবহারকারীদের বয়স যা অবিশ্বাস্য। এমনকি প্রশ্নের জন্য নির্বাচিত ট্যাগগুলিও 100% সঠিক নয়। যাইহোক, কোনও সমস্যা বাছাই করার ক্ষেত্রে আমাদের ডেটার নির্ভুলতার শতাংশ বিবেচনা করা উচিত।

সমস্যাটি নিজেই বিবেচনা করা: আমার প্রকল্পটি data-miningএমন বা এর মতো কিছু হওয়া উচিত নয় । এটি কেবল বাস্তব-বিশ্বে এমএল পদ্ধতিগুলির প্রয়োগ হওয়া উচিত।

উত্তর:


28

হ্যাঁ , আমি মনে করি ট্যাগ পূর্বাভাস একটি আকর্ষণীয় এবং এটির জন্য আপনার "সাফল্য" এ খুব ভাল শট রয়েছে।

নীচে এই বিষয়টির বুদ্ধিমান এবং আরও অনুসন্ধানে সম্ভাব্যভাবে সহায়তা করার উদ্দেশ্যে কয়েকটি চিন্তাভাবনা দেওয়া হল। আমি মনে করি এমন অনেকগুলি সম্ভাব্য আকর্ষণীয় দিক রয়েছে যা এই জাতীয় প্রকল্প নিতে পারে। আমি অনুমান করব যে নীচের মাত্র দু'একটিতে একটি গুরুতর প্রচেষ্টা পর্যাপ্ত প্রকল্পের চেয়ে আরও বেশি কিছু করতে পারে এবং আপনি যে প্রশ্নগুলি উত্থাপন করেছেন তার চেয়ে আপনার আরও আকর্ষণীয় প্রশ্ন আসার সম্ভাবনা রয়েছে।

যাকে মেশিন লার্নিং হিসাবে বিবেচনা করা হয় সে সম্পর্কে আমি একটি বিস্তৃত দর্শন নিতে যাচ্ছি । নিঃসন্দেহে আমার পরামর্শগুলির কয়েকটি অনুসন্ধানের ডেটা বিশ্লেষণ এবং আরও প্রচলিত পরিসংখ্যান বিশ্লেষণ হিসাবে ভাল শ্রেণিবদ্ধ করা হবে । তবে, সম্ভবত, আপনি নিজের আকর্ষণীয় প্রশ্নগুলি তৈরি করার সময় এটি কিছুটা ছোট উপায়ে সহায়তা করবে। আপনি নোট করবেন, আমি সাইটের কার্যকারিতা বাড়ানোর ক্ষেত্রে যে প্রশ্নগুলিকে আকর্ষণীয় বলে মনে করি সেগুলি আমি সম্বোধনের চেষ্টা করব। অবশ্যই, আরও অনেক আকর্ষণীয় প্রশ্ন রয়েছে যা সাইট বন্ধুত্বের সাথে সম্পর্কিত নাও হতে পারে।

  1. ব্যবহারকারীর আচরণের মূল বর্ণনামূলক বিশ্লেষণ : আমি অনুমান করছি যে এই সাইটে ব্যবহারকারীর অংশগ্রহণের জন্য একটি খুব স্পষ্ট চক্রীয় সাপ্তাহিক প্যাটার্ন রয়েছে। সাইটটি কখন সর্বাধিক ট্র্যাফিক পাবে? সাইটে ব্যবহারকারীদের অংশগ্রহনের গ্রাফটি কি দেখতে বলে, সপ্তাহে ঘন্টাখানেক ধরে স্তরে স্তরে স্তরে থাকে? আপনি সময়ের সাথে সাথে সাইটের সামগ্রিক জনপ্রিয়তায় সম্ভাব্য পরিবর্তনের জন্য সামঞ্জস্য করতে চাই। এটি প্রশ্নটির দিকে নিয়ে যায়, শুরু থেকেই সাইটের জনপ্রিয়তা কীভাবে পরিবর্তিত হয়েছে? যোগদানের পর থেকে "আদর্শ" ব্যবহারকারীর অংশগ্রহণ কীভাবে সময়ের সাথে পরিবর্তিত হয়? আমি অনুমান করছি এটি শুরুতে খুব দ্রুত র‍্যাম্পে উঠবে, তারপরে মালভূমি এবং যোগদানের কয়েক সপ্তাহ বা তার পরে সম্ভবত দক্ষিণে চলে যাবে।
  2. প্রশ্নোত্তর সর্বোত্তম জমা : প্রথম প্রশ্নের উপর অন্তর্দৃষ্টি পাওয়া স্বাভাবিকভাবেই আরও কিছু আকর্ষণীয় (এমএল অর্থে) প্রশ্নের দিকে নিয়ে যায় বলে মনে হয়। বলুন আমার একটি প্রশ্ন আছে যার উত্তর আমার দরকার। আমি যদি আমার সাড়া পাওয়ার সম্ভাবনা সর্বাধিক করতে চাই তবে কখন তা জমা দেব? আমি যদি কোনও প্রশ্নের জবাব দিচ্ছি এবং আমি আমার ভোট গণনাটি সর্বোচ্চ করতে চাই, আমি কখন আমার উত্তর জমা দেব? এই দুজনের উত্তর খুব আলাদা। এটি কীভাবে প্রশ্নের শীর্ষে পৃথক হয় (যেমন, যেমন ট্যাগগুলি সম্পর্কিত ট্যাগগুলি দ্বারা সংজ্ঞায়িত করা হয়)?
  3. ব্যবহারকারী এবং বিষয়গুলির দ্বিখণ্ডিতকরণ : কোন ব্যবহারকারীরা তাদের স্বার্থের দিক থেকে সর্বাধিক একরকম, সম্ভবত ট্যাগ দ্বারা পরিমাপ করা হয়? কোন বিষয়গুলি ব্যবহারকারীরা অংশ নেয় সে অনুযায়ী সাদৃশ্যপূর্ণ? আপনি কি এই সম্পর্কের একটি সুন্দর দর্শন নিয়ে আসতে পারেন? এর অফশুটগুলি ভবিষ্যদ্বাণী করার চেষ্টা করা হবে যে কোন ব্যবহারকারী (গুলি) সম্ভবত কোনও নির্দিষ্ট প্রশ্নের উত্তর জমা দিতে পারে। (এসই তেমন প্রযুক্তি সরবরাহ করার কথা কল্পনা করুন যাতে ব্যবহারকারীরা কেবল ট্যাগের উপর ভিত্তি না করেই সম্ভাব্য আকর্ষণীয় প্রশ্ন সম্পর্কে অবহিত হতে পারেন))
  4. আচরণের দ্বারা উত্তরদাতাদের গুচ্ছকরণ : দেখে মনে হচ্ছে যে উত্তরদাতারা এই সাইটটি কীভাবে ব্যবহার করে সে সম্পর্কে কয়েকটি পৃথক মৌলিক আচরণগত নিদর্শন রয়েছে। আপনি কি ক্লাস্টার উত্তরদাতাদের আচরণ অনুসারে বৈশিষ্ট্য এবং একটি ক্লাস্টারিং অ্যালগরিদম নিয়ে আসতে পারেন? গুচ্ছগুলি কি ব্যাখ্যাযোগ্য?
  5. নতুন ট্যাগগুলির প্রস্তাবনা : আপনি বর্তমানে ডাটাবেসে থাকা প্রশ্নাবলী এবং উত্তরগুলি থেকে অনুমানকারী বিষয়ের উপর ভিত্তি করে নতুন ট্যাগগুলির জন্য পরামর্শ নিয়ে আসতে পারেন । উদাহরণস্বরূপ, আমি বিশ্বাস করি যে ট্যাগটি [মিশ্রণ-মডেল] সম্প্রতি যুক্ত হয়েছিল কারণ কেউ লক্ষ্য করেছে যে আমরা সম্পর্কিত প্রশ্নগুলির একটি গুচ্ছ পাচ্ছি। তবে, মনে হচ্ছে একটি তথ্য-পুনরুদ্ধারের পদ্ধতির মাধ্যমে এ জাতীয় বিষয়গুলি সরাসরি বের করতে সক্ষম হওয়া উচিত এবং সম্ভাব্যভাবে তাদের মডারেটরের কাছে প্রস্তাব দেওয়া উচিত।
  6. ভৌগলিক অবস্থানগুলির Semisupervised শেখা : ( এটি একটি গোপনীয়তার দৃষ্টিকোণ থেকে কিছুটা স্পর্শকাতর হতে পারে )) কিছু ব্যবহারকারী যেখানে তারা অবস্থিত সেখানে তালিকাবদ্ধ করে । অন্যরা না। ব্যবহারের নিদর্শন এবং সম্ভাব্য শব্দভাণ্ডার ইত্যাদি ব্যবহার করে আপনি কি প্রতিটি ব্যবহারকারীর অবস্থানের উপর কোনও ভৌগলিক আত্মবিশ্বাসের অঞ্চল রাখতে পারেন? স্বজ্ঞাতভাবে মনে হয়, অক্ষাংশের চেয়ে দ্রাঘিমাংশের দিক থেকে এটি (অনেক বেশি) সঠিক হবে accurate
  7. সম্ভাব্য নকল এবং অত্যন্ত সম্পর্কিত প্রশ্নগুলির স্বয়ংক্রিয় পতাকাঙ্কণ : সাইটের ইতিমধ্যে ডান প্রান্তরে সম্পর্কিত বারের সাথে একই ধরণের বৈশিষ্ট্য রয়েছে । প্রায় সঠিক নকল সন্ধান করা এবং তাদের পরামর্শ দেওয়া মডারেটরের পক্ষে কার্যকর হতে পারে। এটি করলে জুড়ে দঃপূঃ কমিউনিটি সাইট নতুন হতে মনে হবে।
  8. মন্থন পূর্বাভাস এবং ব্যবহারকারীর প্রতিরোধ : প্রতিটি ব্যবহারকারীর ইতিহাসের বৈশিষ্ট্যগুলি ব্যবহার করে আপনি পরবর্তী বারেরটি দেখার প্রত্যাশা করতে পারেন? তারা কীভাবে অনুপস্থিত ছিলেন এবং তাদের অতীত আচরণের বৈশিষ্ট্যগুলি কতক্ষণ ধরে তারা শর্তাধীন সাইটে ফিরে আসার সম্ভাবনাটি অনুমান করতে পারেন? এটি ব্যবহার করা যেতে পারে, উদাহরণস্বরূপ, ব্যবহারকারীরা যখন "মন্থন" করার ঝুঁকি নিয়ে থাকে এবং তাদের ধরে রাখার প্রয়াসে তাদের (জড়িত ইমেলের মাধ্যমে বলুন) ঝুঁকিপূর্ণ হওয়ার বিষয়টি লক্ষ্য করার চেষ্টা করার জন্য। একটি সাধারণ পদ্ধতির নিষ্ক্রিয়তার কিছু নির্দিষ্ট সময় পরে একটি ইমেল শুট হবে। তবে, প্রতিটি ব্যবহারকারীর অবস্থান খুব আলাদা এবং প্রচুর ব্যবহারকারীর সম্পর্কে প্রচুর তথ্য রয়েছে, সুতরাং আরও একটি উপযুক্ত পদ্ধতির বিকাশ করা যেতে পারে।

1
@ কার্ডিনাল একটি দুর্দান্ত উত্তর দেয়, এবং এই সমস্ত ডেটার উপলব্ধতা দেওয়া, এটি একটি আকর্ষণীয় প্রকল্প করবে।
richiemorrisroe

1
আপনার বেশিরভাগ পরামর্শ আমার কাছে ব্যবহারিক এবং এমএল সম্পর্কিত বলে মনে হচ্ছে। যাইহোক, তাদের কারও কারও ভুল এবং অসম্পূর্ণ ডেটা নিয়ে কাজ করা উচিত। দুঃখজনকভাবে আমার কাছে ডেটা মাইনিং এবং ক্লিনিংয়ের গভীর জ্ঞান নেই এবং এটি শেখার জন্য পর্যাপ্ত সময় নেই। আমি আশা করি পরিসংখ্যানের অন্যান্য সদস্যরা এই ধারণাগুলি সম্পর্কে কিছু কাজ করবেন এবং এসই সম্প্রদায়ে অবদান রাখবেন এবং তাদের মুগ্ধ করবেন :)
আইজাক

2
@ ইসহাক, আমি যে তালিকা সরবরাহ করেছি তা অভিভূত হওয়ার উদ্দেশ্যে নয়। এটি উদ্দেশ্যমূলকভাবে মস্তিষ্কে উত্তোলনে সহায়তা করার উদ্দেশ্যে তৈরি হয়েছিল। প্রকল্পের প্রকৃতির উপর নির্ভর করে আমি ভাবব যে এর মধ্যে 1-2 টি পরিচালনা করা সবচেয়ে বেশি প্রত্যাশিত হতে পারে। চিয়ার্স।
কার্ডিনাল

1
সমস্ত ধারণা ভাল বা দুর্দান্ত, তবে আমি "ব্যবহারকারী এবং বিষয়গুলির বিক্লাস্টারিং" পছন্দ করি ... সেরা ... সম্ভাব্য আকর্ষণীয় প্রশ্নগুলির জন্য একটি সুপারিশকারী সিস্টেমটি দুর্দান্ত হবে।
স্টিফেন

9

আমি ট্যাগ পূর্বাভাস সম্পর্কেও ভাবছিলাম, আমি ধারণাটি পছন্দ করি। আমার অনুভূতি আছে যে এটি সম্ভব, তবে আপনার চূড়ান্ত ডেটাসেটে পৌঁছানোর আগে আপনাকে অনেকগুলি সমস্যা কাটিয়ে উঠতে হবে। তাই আমি অনুমান করি ট্যাগ পূর্বাভাসে অনেক সময় প্রয়োজন হতে পারে। ভুল ট্যাগ ছাড়াও সর্বাধিক 5 টি ট্যাগের সীমাও ভূমিকা নিতে পারে। এছাড়াও কিছু ট্যাগগুলি অন্যের উপশ্রেণীশ্রেণীতে থাকে (যেমন "একাধিক তুলনা" "তাত্পর্যপূর্ণ পরীক্ষার" উপশ্রেণী হিসাবে দেখা যেতে পারে)।

আমি ডাউনলোডের উপাত্তের মধ্যে ভোটের সময় অন্তর্ভুক্ত করা হয়েছে কিনা তা পরীক্ষা করে দেখিনি, তবে আরও সহজ এবং এখনও মজাদার প্রকল্পটি প্রাথমিক ভোটের উপর নির্ভর করে একটি প্রশ্নের উপর "চূড়ান্ত" ভোটের (সম্ভবত 5 মাস পরে) পূর্বাভাস দিতে পারে, এবং একটি উত্তর গ্রহণের সময়।


আমি মনে করি যা থেকে মনে হয়, প্রতিটি ব্যবহারকারীর জন্য আপনার তারিখ + প্রশ্ন আইডির সাথে তার ভোট রয়েছে।
chl

(+1) ভোট পূর্বাভাসের জন্য। ভালো বুদ্ধি!
স্টিফেন

1
এই প্রকল্পটি দুর্দান্ত বলে মনে হচ্ছে, বিশেষত যদি আমরা ব্যবহারকারীর জন্য খুব শীঘ্রই ভিপিভোট গণনাটির পূর্বাভাস দিই। আরও কাজ হ'ল ব্যবহারকারীকে তার প্রশ্নটি কীভাবে ধরে রাখছে এবং কোনটি উন্নতি করতে পারে তা তার প্রশ্নকে জনপ্রিয় করে তুলতে পারে tell যাইহোক, সর্বদা হিসাবে বৈশিষ্ট্য পছন্দ সত্যিই একটি গুরুত্বপূর্ণ এবং চ্যালেঞ্জিং কাজ এবং যেমন পূর্বাভাসের কর্মক্ষমতা এই নির্বাচনের উপর অত্যন্ত নির্ভর করে। টিএল; ডিআর আমি আপনার ধারণা পছন্দ করি
আইজাক

2

এটা একটা ভালো প্রশ্ন। আমিও ভেবে দেখেছি যে সর্বজনীনভাবে উপলভ্য স্ট্যাকএক্সচেঞ্জ ডেটাসেটগুলি বিশ্লেষণের জন্য ভাল বিষয় তৈরি করবে। এগুলি যথেষ্ট অস্বাভাবিক যে তারা নতুন পরিসংখ্যানগত পদ্ধতির জন্য ভাল টেস্টবেডও হতে পারে। এত বড় পরিমাণে সুগঠিত ডেটা থাকা কোনও হারেই অস্বাভাবিক।

কার্ডিনাল এমন একগুচ্ছ জিনিসের পরামর্শ দেয় যা আসলে স্ট্যাকএক্সচেঞ্জের জন্য দরকারী। আমি নিজেকে এই সীমাবদ্ধ করব না।

বিশ্লেষণের জন্য এখানে একটি সুস্পষ্ট প্রার্থী, যদিও এর কোনও স্পষ্ট ব্যবহার নেই যা মনে আসে। এটি একটি লক্ষণীয় প্রভাব যা উচ্চ প্রতিনিধিরা ব্যবহারকারীদের আপভোট পাওয়ার সম্ভাবনা বেশি থাকে, অন্যান্য জিনিস সমান হয়। যাইহোক, এই প্রভাবটি সম্ভবত মডেলটির কাছে অপ্রয়োজনীয়। যেহেতু আমরা ব্যবহারকারীর কাছে খুব সহজেই ব্যবহারকারীর তুলনা করতে পারি না, তাই একটি স্পষ্ট পদ্ধতির ধারণা হ'ল ব্যবহারকারীদের উত্তরগুলি সর্বদা সমানভাবে কার্যকর ছিল (সাধারণভাবে সত্য নয় তবে কোথাও শুরু করতে হবে) এবং তারপরে তার ক্রমবর্ধমান খ্যাতির জন্য অ্যাকাউন্টে মুদ্রাস্ফীতি শব্দ যুক্ত করা উচিত to । তারপরে কেউ (আমি মনে করি) এমন কিছু পদ যুক্ত করতে পারি যা তার উত্তরগুলির বর্ধমান অভিজ্ঞতার সাথে আরও ভাল হওয়ার জন্য অ্যাকাউন্ট করে। হয়তো এটি কোনও এককালের টাইম সিরিজ দ্বারা পরিচালিত হতে পারে। আমি নিশ্চিত নই যে ডেটা অন্তরাল হওয়ায় এটি কীভাবে প্রভাব ফেলবে। এটি একটি আকর্ষণীয় অনুশীলন হতে পারে।

আমি / যখন আমি সেগুলি সম্পর্কে চিন্তা করি আমি আরও উদাহরণ যুক্ত করব।

এসই তথ্যের ভিত্তিতে কেউ কি পরিসংখ্যান সংক্রান্ত গবেষণামূলক কাগজপত্র সম্পর্কে সচেতন? এছাড়াও, আইজাক উল্লেখ করেছেন যে ডেটাতে ত্রুটি রয়েছে। কেউ কি এই সম্পর্কে আরও কিছু জানেন?


এটি প্রকৃতপক্ষে একটি আকর্ষণীয় প্রশ্ন এবং আমি বিশ্বাস করি যে অ্যান্ডি কিছুক্ষণ আগে একটি ব্লগ পোস্ট এবং প্রশ্নে বিশ্লেষণ শুরু করেছিল a আমি আপনার বক্তব্যটি কৌতূহলজনক বলে মনে করি যে এখানে একটি "লক্ষণযোগ্য" প্রভাব রয়েছে, যা আমি পুরোপুরি নিশ্চিত নই যে আসলেই রয়েছে। তারপরে আপনি এটির মডেল করার একটি উপায় প্রস্তাব করতে চলেছেন, তবে এর মধ্যে ইতিমধ্যে আপনার ইতিমধ্যে একটি ইতিবাচক উত্তর আছে বলে সঠিক প্রশ্নের উত্তর দেওয়ার চেষ্টা করা অন্তর্ভুক্ত নয়?
কার্ডিনাল

@ কার্ডিনাল: আপনার কি ব্লগ পোস্টের লিঙ্ক আছে? আমি নিশ্চিত না যে আমি আপনার শেষ বাক্যটি বুঝতে পেরেছি। টেস, আমি মনে করি যে প্রভাবটি আসল এবং লক্ষণীয়, কমপক্ষে ব্যবহারকারীর নাম স্কিট থাকলেও এই মুহুর্তে এটি কেবল একটি দৃec় ধারণা, যদিও এটি শক্তিশালী। সুতরাং, আপনি যদি পছন্দ করেন তবে আপনি অনুমানের সাথে "লক্ষণীয় প্রভাব" প্রতিস্থাপন করতে পারেন। বিশ্লেষণ অবশ্যই এটি নিশ্চিত বা অস্বীকার করার চেষ্টা করবে, পাশাপাশি এটি বিদ্যমান থাকলে প্রভাবের শক্তিও পরিমাপ করবে।
ফাহিম মিঠা

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.