টিফ-আইডিএফ এবং কোসিন সাদৃশ্যগুলির বিকল্পগুলি যখন ভিন্ন ভিন্ন ফর্ম্যাটের ডকুমেন্টগুলির সাথে তুলনা করে


12

আমি একটি ছোট, ব্যক্তিগত প্রকল্পে কাজ করছি যা ব্যবহারকারীর কাজের দক্ষতা গ্রহণ করে এবং সেই দক্ষতার উপর ভিত্তি করে তাদের জন্য সবচেয়ে আদর্শ ক্যারিয়ারের পরামর্শ দেয়। আমি এটি অর্জনের জন্য কাজের তালিকার একটি ডাটাবেস ব্যবহার করি। এই মুহুর্তে কোডটি নিম্নলিখিতভাবে কাজ করে:

1) তালিকায় উল্লেখ করা দক্ষতাগুলি নিষ্ক্রিয় করতে প্রতিটি কাজের তালিকার পাঠ্য প্রক্রিয়া করুন

২) প্রতিটি কেরিয়ারের জন্য (যেমন "ডেটা অ্যানালিস্ট"), সেই কেরিয়ারের জন্য কাজের তালিকার প্রসেসড টেক্সটকে একটি ডকুমেন্টে একত্রিত করুন

৩) ক্যারিয়ারের নথির মধ্যে প্রতিটি দক্ষতার টিএফ-আইডিএফ গণনা করুন

এর পরে, আমি নিশ্চিত নই যে ব্যবহারকারীর দক্ষতার তালিকার ভিত্তিতে কেরিয়ারকে র‌্যাঙ্ক করতে আমার কোন পদ্ধতিটি ব্যবহার করা উচিত। আমি যে সর্বাধিক জনপ্রিয় পদ্ধতিটি দেখেছি তা হ'ল ব্যবহারকারীর দক্ষতাগুলিকে একটি নথি হিসাবেও গণ্য করা, তারপরে দক্ষতার নথির জন্য টিএফ-আইডিএফ গণনা করা এবং দক্ষতা নথির এবং প্রতিটিটির মধ্যে মিলের জন্য গণমাধ্যমে কোসাইন মিলের মতো কিছু ব্যবহার করা to কেরিয়ারের নথি

এটি আমার কাছে আদর্শ সমাধানের মতো বলে মনে হচ্ছে না, কারণ একই ফর্ম্যাটের দুটি ডকুমেন্টের সাথে তুলনা করার সময় কোসাইন মিলটি সবচেয়ে ভাল ব্যবহৃত হয়। এই বিষয়টির জন্য, টিএফ-আইডিএফ মোটামুটি ব্যবহারকারীর দক্ষতার তালিকায় প্রয়োগ করার জন্য উপযুক্ত মেট্রিকের মতো বলে মনে হচ্ছে না। উদাহরণস্বরূপ, যদি কোনও ব্যবহারকারী তাদের তালিকায় অতিরিক্ত দক্ষতা যুক্ত করে, তবে প্রতিটি দক্ষতার জন্য টিএফ নামবে। বাস্তবে, ব্যবহারকারীর দক্ষতার তালিকায় দক্ষতার ফ্রিকোয়েন্সিটি কী তা আমি পাত্তা দিই না - আমি কেবল যত্ন নিই যে তাদের those দক্ষতা রয়েছে (এবং তারা সম্ভবত এই দক্ষতাগুলি কতটা ভাল জানেন)।

দেখে মনে হচ্ছে আরও ভাল মেট্রিক নিম্নলিখিত কাজগুলি করা:

1) ব্যবহারকারীর প্রতিটি দক্ষতার জন্য, ক্যারিয়ারের নথিতে সেই দক্ষতার টিএফ-আইডিএফ গণনা করুন

2) প্রতিটি কেরিয়ারের জন্য, ব্যবহারকারীর সমস্ত দক্ষতার জন্য টিএফ-আইডিএফ ফলাফলগুলি যোগ করুন

3) উপরের যোগফলের ভিত্তিতে র‌্যাঙ্ক ক্যারিয়ার

আমি কি এখানে সঠিক লাইন বরাবর চিন্তা করছি? যদি তা হয় তবে এই লাইনগুলি ধরে কাজ করে এমন কোনও অ্যালগোরিদম রয়েছে তবে সাধারণ অঙ্কের চেয়ে আরও পরিশীলিত? সাহায্যের জন্য ধন্যবাদ!


3
ডকুভেক দেখুন, জেনসিমের বাস্তবায়ন রয়েছে
ব্লু 482

উত্তর:


1

কিছু দক্ষতার মধ্যে দূরত্বকে আরও ভালভাবে উপস্থাপন করতে আপনি শব্দ এম্বেডিং ব্যবহার করতে পারেন। উদাহরণস্বরূপ, "পাইথন" এবং "আর" এক সাথে "পাইথন" এবং "টাইম ম্যানেজমেন্ট" এর চেয়ে বেশি হওয়া উচিত কারণ এটি উভয়ই প্রোগ্রামিং ভাষা।

পুরো ধারণাটি হ'ল একই প্রসঙ্গে উপস্থিত শব্দগুলি আরও কাছাকাছি হওয়া উচিত।

আপনার এই এমবেডিংগুলি একবার হয়ে গেলে, আপনার প্রার্থীর জন্য দক্ষতার একটি সেট এবং কাজের জন্য বিভিন্ন আকারের দক্ষতার সেট থাকবে। তারপরে আপনি সেটগুলির মধ্যে দূরত্ব গণনা করতে আর্থ মুভারের দূরত্ব ব্যবহার করতে পারেন । এই দূরত্বের পরিমাপটি বরং ধীর (চতুষ্কোণ সময়) তাই আপনার যদি অনেক কাজ করার সুযোগ থাকে তবে এটি ভাল স্কেল করতে পারে না।

স্কেল্যাবিলিটি ইস্যু মোকাবেলা করার জন্য, প্রার্থী প্রথম স্থানে প্রচলিত দক্ষতার উপর ভিত্তি করে আপনি সম্ভবত চাকরিগুলি র‌্যাঙ্ক করতে পারেন এবং এই কাজের পক্ষে থাকতে পারেন।


1

"ডকুমেন্টস" মেলানোর একটি সাধারণ এবং সাধারণ পদ্ধতি হ'ল টিএফ-আইডিএফ ওজন ব্যবহার করা, যেমনটি আপনি বর্ণনা করেছেন। তবে, আমি যেমন আপনার প্রশ্নটি বুঝতে পারি, আপনি ব্যবহারকারীর দক্ষতার একটি সেট উপর ভিত্তি করে প্রতিটি কেরিয়ার (-ডকুমেন্ট) র‌্যাঙ্ক করতে চান।

যদি আপনি দক্ষতা থেকে একটি "ক্যোয়ারী ভেক্টর" তৈরি করেন, আপনি ভ্যাক্টরটিকে আপনার শব্দ-কেরিয়ার ম্যাট্রিক্সের সাথে (সমস্ত টিএফ-আইডিএফ ওজনকে মান হিসাবে) দিয়ে গুণ করতে পারেন। ফলস্বরূপ ভেক্টর আপনাকে ক্যারিয়ার-নথি হিসাবে একটি র‌্যাঙ্কিং স্কোর দেয় যা আপনি "ক্যোয়ারী দক্ষতা" সেট করার জন্য শীর্ষ-কে ক্যারিয়ার চয়ন করতে ব্যবহার করতে পারেন।

উদাহরণস্বরূপ, যদি আপনার ক্যোয়ারী ভেক্টর শূন্য এবং একগুলি নিয়ে থাকে এবং আকারটি, এবং আপনার শব্দ-নথি ম্যাট্রিক্স আকারের, তারপরে মাপের ভেক্টরেরক্যারিয়ারের নথিতে প্রতিটি ক্যোয়ারির পদটির টিএফ-আইডিএফ ওজনের যোগফলের সমান উপাদানগুলি। 1×| terms| এম| terms| ×| dসিইউএমএনটিএস| ˉ v এম1×| dসিইউএমএনটিএস|q¯1×|terms|M|terms|×|documents|v¯M1×|documents|

র্যাঙ্কিংয়ের এই পদ্ধতিটি সহজতমগুলির মধ্যে একটি এবং অনেকগুলি বৈচিত্র্য বিদ্যমান। উইকিপিডিয়ায় টিএফ-আইডিএফ এন্ট্রিও এই র‌্যাঙ্কিং পদ্ধতিটি সংক্ষেপে বর্ণনা করে। ম্যাচিং ডকুমেন্ট সম্পর্কে এসওতে আমি এই প্রশ্নোত্তরও পেয়েছি ।


আশ্চর্যের বিষয়, শব্দের এমবেডিংয়ের একটি সাধারণ গড় প্রায়শই টিএফ-আইডিএফ ওজনের সাহায্যে এম্বেডিংয়ের ওজনযুক্ত গড় হিসাবে ভাল হয়।
ওয়াকাক্স ২


0

আপনি "জেনসিম" ব্যবহার করে দেখতে পারেন। আমি অরক্ষিত ডেটা সহ একই প্রকল্প করেছি। Gensim স্ট্যান্ডার্ড TFIDF এর চেয়ে ভাল স্কোর দিয়েছে। এটিও দ্রুত দৌড়ায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.