ডক 2ভেক - অনুচ্ছেদগুলি কীভাবে লেবেল করবেন (জেনসিম)


17

আমি ভাবছি কীভাবে জেনসিম-এ ডকুমেন্টের সাথে বাক্য / অনুচ্ছেদ / দস্তাবেজগুলি লেবেল করতে হবে - ব্যবহারিক দৃষ্টিকোণ থেকে।

আপনার কি প্রতিটি বাক্য / অনুচ্ছেদ / ডকুমেন্টের নিজস্ব অনন্য লেবেল (যেমন "প্রেরণ করা হয়েছে 23") থাকা দরকার? আপনি যদি "সেন্টেন্ট_২৩" লেবেলযুক্ত একটি নির্দিষ্ট বাক্যটির সাথে কী শব্দ বা বাক্যগুলির সাদৃশ্যপূর্ণ তা বলতে চান তবে এটি দরকারী বলে মনে হচ্ছে।

আপনি কি লেবেলগুলি সামগ্রীর উপর ভিত্তি করে পুনরাবৃত্তি করতে পারেন? উদাহরণস্বরূপ, যদি প্রতিটি বাক্য / অনুচ্ছেদ / নথি কোনও নির্দিষ্ট পণ্য আইটেম সম্পর্কে থাকে (এবং প্রদত্ত পণ্য আইটেমটির জন্য একাধিক বাক্য / অনুচ্ছেদ / নথি থাকে) আপনি আইটেমের উপর ভিত্তি করে বাক্যগুলি লেবেল করতে পারেন এবং তারপরে একটি শব্দ বা একটির মধ্যে সাদৃশ্য গণনা করতে পারেন বাক্য এবং এই লেবেল (যা আমি অনুমান করি যে পণ্যের আইটেমটির সাথে করা সমস্ত বাক্যগুলির গড়ের মতো হবে)?

উত্তর:


10

দুটোই সম্ভব। আপনি প্রতিটি দস্তাবেজকে ডক্ট্যাগ হিসাবে একটি অনন্য আইডি (যেমন একটি অনুক্রমিক সিরিয়াল নম্বর), বা একটি শেয়ার্ড স্ট্রিং ডক্ট্যাগ যা অন্য কোনও কিছু উপস্থাপন করতে পারেন বা একই সাথে উভয়ই দিতে পারেন।

ট্যাগডডকুমেন্ট নির্মাণকারী ট্যাগগুলির একটি তালিকা নিয়ে থাকে। (আপনি যদি 0 থেকে ওঠার সমতলে অন্তর্নিহিত হয়ে নিজেকে সীমাবদ্ধ করে রাখেন তবে ডক 2 ভেক মডেলগুলি সেগুলি তার ব্যাকিং অ্যারেটিতে সরাসরি সূচক হিসাবে ব্যবহার করবে এবং আপনি প্রচুর স্মৃতি সংরক্ষণ করবেন যা অন্যথায় স্ট্রিং -> সূচী অনুসন্ধানে উত্সর্গীকৃত হবে) , যা বড় ডেটাসেটের জন্য গুরুত্বপূর্ণ হতে পারে But

আপনার প্রয়োজনের জন্য সবচেয়ে ভাল কাজ করে এমনটি আপনাকে পরীক্ষা করতে হবে।

কিছু শ্রেণিবদ্ধকরণের কাজের জন্য, এমন একটি পদ্ধতির যা আমার প্রত্যাশার চেয়ে মাঝে মাঝে আরও ভাল কাজ করে তা হ'ল পুরো পাঠ্য আইডিগুলি পুরোপুরি এড়িয়ে যাওয়া এবং ডক্ট্যাগগুলি পছন্দসই ক্লাসগুলির সাথে পরিচিত-শ্রেণীর উদাহরণ সহ ডক 2ভেক মডেলকে প্রশিক্ষণ দেয়। তারপরে আপনি কেবল ক্লাস ডক্ট্যাগের জন্য 'ডক ভেক্টর' পান - প্রতিটি নথি নয় - একটি সম্ভাব্য পরিমাণে আরও ছোট মডেল। পরে নতুন পাঠ্যের জন্য ভেক্টরকে অনুমান করা ফলাফলগুলি ভেক্টরগুলিকে অর্থপূর্ণভাবে সম্পর্কিত শ্রেণীর ডক ভেক্টরগুলির নিকটবর্তী করে।


এটা অনেক ধন্যবাদ! একদিকে যেমন আমি জেনিমের সাথে খেলা শুরু করছি - আমি আগ্রহী যদি কোনও ডক (যে অনন্য বা ভাগযুক্ত ট্যাগ ব্যবহার করা হয় নির্বিশেষে) এবং একটি শব্দের মধ্যে সাদৃশ্য গণনা করা সম্ভব হয় - আপনার অভিজ্ঞতাতে কি এটি করা যেতে পারে?
বি_মিনার

1
কিছু প্রশিক্ষণ পদ্ধতি 'একই স্থানের ভিতরে শব্দ এবং নথি ভেক্টর তৈরি করে এবং তাই মিলগুলি অর্থবহ হতে পারে। উদাহরণস্বরূপ এই কাগজটি দেখুন - arxiv.org/abs/1507.07998 - এমনকি ডক-ভেক্টর (উইকিপিডিয়া নিবন্ধ) এবং শব্দ-ভেক্টরগুলিকে জড়িত এক ধরণের 'উপমা গাণিতিক' করে। যে কাগজে প্রশিক্ষণ সমবর্তী Skip-গ্রাম শব্দ-প্রশিক্ষণ gensim এর DBOW মোড মত হল: dm=0, dbow_words=1
gojomo

ধন্যবাদ @ লোগোমো! জেনসিম তালিকায় এটি কীভাবে করা যায় সে সম্পর্কে আমি একটি ক্যোয়ারী যুক্ত করেছি: groups.google.com/forum/#!topic/gensim/RLRfY6k3ulw
B_Miner

আমি ভুল হলে আমাকে সংশোধন করুন। আপনার শেষ অনুচ্ছেদে, আপনি প্রস্তাব দিচ্ছেন যে প্রতিটি দস্তাবেজকে ট্যাগ করা উচিত যেমন আমরা এই সাইটে প্রশ্ন ট্যাগ করি। এবং প্রশিক্ষণের পরে, আমরা প্রতিটি ট্যাগের ভেক্টর উপস্থাপনা পাবেন। যখন কোনও নতুন দস্তাবেজ আসে, আমরা কেবলমাত্র নতুন নথির জন্য ট্যাগগুলি সাজানোর জন্য সাদৃশ্য মেট্রিক ব্যবহার করতে পারি।
ব্যবহারকারীর

@ ব্যবহারকারী - হ্যাঁ, এটি করা সম্ভব এবং কখনও কখনও এটি উপকারী তবে এটি প্রয়োজনীয় নয়।
গুজোমো

9

doc2vecমডেল থেকে এর অ্যালগরিদম পায় word2vec

ইন word2vecকারণ প্রতিটি শব্দ শব্দভান্ডার নিজেদের শব্দার্থিক অর্থ, শব্দ লেবেল করার কোন প্রয়োজন নেই। তবে এর ক্ষেত্রে doc2vec, নির্দিষ্ট করার দরকার আছে যে কতগুলি শব্দ বা বাক্য একটি অর্থপূর্ণ অর্থ প্রকাশ করে, যাতে অ্যালগরিদম এটিকে একটি একক সত্তা হিসাবে চিহ্নিত করতে পারে। এই কারণে, আমরা নির্দিষ্ট শব্দার্থ অর্থের স্তরের উপর নির্ভর করে বাক্য বা অনুচ্ছেদ নির্দিষ্ট করছি labelsortags

যদি আমরা অনুচ্ছেদে একাধিক বাক্যে একক লেবেল নির্দিষ্ট করি, তবে এর অর্থ হ'ল অনুচ্ছেদে সমস্ত বাক্যটির অর্থ বোঝাতে হবে। অন্যদিকে, আমরা যদি অনুচ্ছেদে সমস্ত বাক্যে পরিবর্তনশীল লেবেল নির্দিষ্ট করে থাকি তবে এর অর্থ হ'ল প্রত্যেকটি অর্থবোধক অর্থ দেয় এবং তাদের মধ্যে মিল থাকতে পারে বা নাও থাকতে পারে।

সহজ কথায় labelবলতে গেলে কোনও কিছুর অর্থ বোঝায়।


If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.আমি নিশ্চিত না যে আমি এটি সঠিকভাবে বুঝতে পেরেছি। অ্যালগরিদম পিওভি থেকে, এটি কি একই ট্যাগ সহ সমস্ত বাক্যই অর্থবোধ সংজ্ঞা বা একই ট্যাগ সহ সমস্ত বাক্য একই জিনিস বর্ণনা করে? প্রথম ক্ষেত্রে কোনও বাক্যই স্বয়ংসম্পূর্ণ হয় না, দ্বিতীয় ক্ষেত্রে একটি বাক্যই স্বয়ংসম্পূর্ণ-
ব্যবহারকারীর

@ ব্যবহারকারী: এটি দ্বিতীয় ঘটনা, অ্যালগরিদম পিওভি থেকে একটি ট্যাগকে একটি সত্তা হিসাবে সংজ্ঞায়িত করা হয় যা যখন একটি বাক্যে ব্যবহৃত হয়, তখন এটি সমস্ত শব্দের অর্থ ধারণ করে। একইভাবে যখন একাধিক বাক্যে ব্যবহৃত হয় তখন এটি বাকী সমস্ত বাক্যে শব্দও ধারণ করে।
ইয়াজি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.