নথির মধ্যে দূরত্ব গণনার কয়েকটি মানক উপায় কী?


34

আমি যখন "ডকুমেন্ট" বলি তখন আমার উইকিপিডিয়া নিবন্ধ এবং নিউজ স্টোরিগুলির মতো ওয়েব পৃষ্ঠাগুলি মনে থাকে। আমি উত্তরগুলি পছন্দ করি ভ্যানিলা লেজিকাল দূরত্বের মেট্রিকগুলি বা অত্যাধুনিক সিমেটিক দূরত্বের মেট্রিকগুলি উত্তরগুলির জন্য আরও দৃference় পছন্দ সহ giving

উত্তর:


48

আপনি কতটা অর্থপূর্ণ তথ্য ধরে রাখতে চান এবং আপনার ডকুমেন্টগুলি টোকনাইজ করতে কতটা সহজ on তার উপর নির্ভর করে এটি করার বিভিন্ন ধরণের উপায় রয়েছে (এইচটিএমএল নথি সম্ভবত টোকনাইজ করা বেশ কঠিন হবে, তবে আপনি সম্ভবত ট্যাগ এবং প্রসঙ্গে কিছু করতে পারেন) ।)

তাদের মধ্যে কিছু বন্ধু দ্বারা উল্লেখ করা হয়েছে, এবং ব্যবহারকারী ১১৩৩০২৯ দ্বারা অনুচ্ছেদে ভেক্টরগুলি সত্যই দৃ solid়, তবে আমি কেবল অনুধাবন করেছি যে আমি বিভিন্ন পদ্ধতির অনুপাত এবং বিয়োগ সম্পর্কে আরও কিছু গভীরতায় যেতে চাই।

  • কোসাইন দূরত্ব - চেষ্টা একটি সত্য, কোসাইন দূরত্ব সম্ভবত সবচেয়ে সাধারণ দূরত্ব মেট্রিক একাধিক ডোমেন জুড়ে জেনেরিক ব্যবহার করা হয়। এই বলে যে, কোসাইন দূরত্বের খুব সামান্য তথ্য রয়েছে যা বাস্তবে অর্থপূর্ণ যেকোন কিছুতে ম্যাপ করা যায়, যা এই পরিস্থিতির জন্য আদর্শ নয় বলে মনে হয়।
  • লেভেনস্টেইন দূরত্ব - এটি হিসাবে পরিচিত edit distance, এটি সাধারণত স্বতন্ত্র টোকেন স্তরে (শব্দ, বিগ্রামগুলি ইত্যাদি) ব্যবহৃত হয়। সাধারণভাবে আমি এই মেট্রিকটি সুপারিশ করবো না কারণ এটি কেবল কোনও শব্দার্থক তথ্যই বাদ দেয় না, তবে খুব আলাদা শব্দ শব্দের পরিবর্তনকেও একইভাবে আচরণ করার ঝোঁক দেয়, তবে এই ধরণের জিনিসটির জন্য এটি একটি অত্যন্ত সাধারণ মেট্রিক is
  • LSA - কৌশল বৃহৎ সহায় একটি অংশ যখন এটি ডকুমেন্ট আদল নামক মূল্যায়নের আসে topic modeling। এলএসএ সাম্প্রতিককালে ফ্যাশন থেকে দূরে চলে গেছে, এবং আমার অভিজ্ঞতায় এটি মডেলিংয়ের পক্ষে সবচেয়ে শক্তিশালী বিষয় নয়, তবে এটি বাস্তবায়নের জন্য তুলনামূলকভাবে সহজ এবং কয়েকটি মুক্ত উত্স বাস্তবায়ন রয়েছে
  • এলডিএ - এটিও একটি কৌশল যা এর জন্য ব্যবহৃত হয় topic modeling, তবে এটির চেয়ে আলাদা LSAএটি এটি অভ্যন্তরীণ উপস্থাপনাগুলি আরও বেশি মসৃণ এবং স্বজ্ঞাগত বলে প্রবণতা শেখে। সাধারণভাবে, আপনি যে ফলাফলগুলি পেয়েছেন LDAতা নথির অনুরূপতার তুলনায় মডেলিংয়ের চেয়ে LSAভাল তবে বিষয়গুলির মধ্যে কীভাবে দৃ strongly়ভাবে বৈষম্য করা যায় তা শেখার পক্ষে যথেষ্ট ভাল নয়।
  • পাচিনকো বরাদ্দ - এলডিএর শীর্ষে একটি ঝরঝরে এক্সটেনশন। সাধারণভাবে, এটি কেবলমাত্র একটি উন্নত সংস্করণ LDA, এর একমাত্র অবনতি হ'ল প্রশিক্ষণ পেতে একটু বেশি সময় নেয় এবং ওপেন-সোর্স বাস্তবায়নগুলি আসতে একটু কঠিন হয়
  • ওয়ার্ড টুভেক - গুগল বুদ্ধিমানভাবে শব্দ এবং ডকুমেন্টগুলিকে বুদ্ধিমানভাবে হ্রাস করার জন্য আরও কিছু যুক্তিসঙ্গত ভেক্টরগুলিতে Count Vectorizersএবং যেমন প্রযুক্তি দ্বারা উত্পাদিত স্পার্স ভেক্টরগুলির তুলনায় আরও কয়েকটি কৌশলতে কাজ করছে TF-IDF। ওয়ার্ড 2vec দুর্দান্ত কারণ এটিতে বেশ কয়েকটি ওপেন সোর্স বাস্তবায়ন রয়েছে। একবার আপনার ভেক্টর হয়ে গেলে এর উপরে অন্য কোনও সাদৃশ্য মেট্রিক (কোসাইন দূরত্বের মতো) উল্লেখযোগ্যভাবে আরও কার্যকারিতা সহ ব্যবহার করা যেতে পারে।
  • doc2vec - এটি হিসাবে পরিচিত paragraph vectors, এটি নথিগুলির ঘন ভেক্টর উপস্থাপনা অনুসন্ধান করে গুগলের একাধিক কাগজপত্রের সর্বশেষতম এবং সর্বশ্রেষ্ঠ। gensimপাইথন মধ্যে লাইব্রেরির একটি বাস্তবায়ন হয়েছে word2vecযে সহজবোধ্য যথেষ্ট যে এটা প্রশংসনীয় যুক্তিসঙ্গতভাবে নির্মাণের leveraged করা যেতে পারে doc2vec, কিন্তু আপনি যদি এই রুট নিচে যেতে চাই মনের মধ্যে লাইসেন্স রাখা নিশ্চিত করতে

আশা করি এটি সহায়তা করে, আপনার যদি কোনও প্রশ্ন থাকে তবে আমাকে জানান।


6

এখানে প্রচুর শব্দাবলীর দূরত্বের ব্যবস্থাগুলি রয়েছে যার প্রতিটি তার উপকারিতা এবং বিপরীতে রয়েছে। এখানে তাদের কয়েকটি দেওয়া হল:

  • কোসাইন দূরত্ব , নথি বৈশিষ্ট্য ভেক্টরগুলির মধ্যে অভ্যন্তরীণ পণ্য;
  • এলএসএ , অন্য ভেক্টর-ভিত্তিক মডেল, তবে ডি-নয়েজিং মূল টার্ম-ডকুমেন্ট ম্যাট্রিক্সের জন্য এসভিডি ব্যবহার;
  • ওয়ার্ডনেট- ভিত্তিক, মানব যাচাইযোগ্য, যদিও খুব কমই এক্সটেনসিবল।

একটি সহজ পদ্ধতির সাথে শুরু করুন এবং তারপরে আপনার নির্দিষ্ট ক্ষেত্রে সম্পর্কিত সমস্যার ভিত্তিতে আরও সরান move


1
নোট করুন যে এলএসএ করার সময় সাধারণত আপনি মূল ডেটাসেটের এলএসএ অনুমানের উপর কোসাইন দূরত্ব ব্যবহার করেন। শুধু নির্মল.
সাইমন

6

উত্সর্গীয়ভাবে আমি এলএসএকে প্রতিবার এলডিএর চেয়ে অনেক বেশি উন্নত পেয়েছি এবং প্রতিটি ডেটাसेटে আমি এটি চেষ্টা করেছি। আমি অন্য লোকদের সাথে কথা বলেছি যারা একই কথা বলেছে। এটি নথির মধ্যে শব্দার্থক মিলটি পরিমাপ করার জন্য অনেকগুলি সেমিভাল প্রতিযোগিতা জিতে ব্যবহার করতে ব্যবহৃত হয়েছিল, প্রায়শই ওয়ার্ডনেট ভিত্তিক পরিমাপের সংমিশ্রণে, তাই আমি এটি বলব না যে এটি ফ্যাশনটি বাইরে চলেছে, বা অবশ্যই এলডিএর চেয়ে নিকৃষ্টতর, যা আরও ভাল টপিক মডেলিংয়ের জন্য এবং আমার অভিজ্ঞতার অর্থগত মিল নয়, কিছু প্রতিক্রিয়াকারীরা যা বলেছেন তার বিপরীতে।

আপনি যদি জিনসিম (একটি অজগর গ্রন্থাগার) ব্যবহার করেন তবে এটিতে এলএসএ, এলডিএ এবং ওয়ার্ড 2vec রয়েছে, তাই আপনি সহজেই 3. ডক্টুভেক তুলনা করতে পারেন একটি দুর্দান্ত ধারণা, তবে খুব ভালভাবে স্কেল করেন না এবং সম্ভবত আমি নিজেই এটি প্রয়োগ করতে হবে কোনও ওপেন সোর্স বাস্তবায়ন সম্পর্কে অসচেতন। এটি প্রতিটি নথির মতো স্কেল করে না, এসজিডি, একটি ধীর মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে একটি নতুন এবং পৃথক মডেল তৈরি করতে হবে। তবে এটি সম্ভবত আপনাকে সবচেয়ে সঠিক ফলাফল দেবে। এলএসএ এবং এলডিএও ভাল স্কেল করে না (ওয়ার্ড টুভেক তবে হয়), সাধারণভাবে এলডিএ স্কেলগুলি আরও খারাপ। Gensim এর প্রয়োগগুলি তবে খুব দ্রুত, কারণ এটি পুনরাবৃত্ত এসভিডি ব্যবহার করে।

অন্য একটি নোট, যদি আপনি word2vec ব্যবহার করেন তবে আপনাকে ডকুমেন্টগুলি থেকে ভেক্টর রচনা করার একটি উপায় নির্ধারণ করতে হবে, কারণ এটি আপনাকে প্রতি শব্দে আলাদা ভেক্টর দেয়। এটি করার সহজতম উপায় হ'ল প্রতিটি ভেক্টরকে সাধারণকরণ এবং নথিতে সমস্ত শব্দের ভেক্টরগুলির চেয়ে গড় গ্রহণ করা, বা প্রতিটি শব্দের আইডিএফ ওজন দ্বারা একটি ওজনযুক্ত গড় নেওয়া। সুতরাং এটি 'ওয়ার্ড টুভেক ব্যবহার করুন' এর মতো সহজ নয়, নথির সাদৃশ্য গণনা করার জন্য আপনাকে আরও কিছু করতে হবে।

আমি ব্যক্তিগতভাবে এলএসএর সাথে যাব, যেহেতু আমি দেখেছি এটি অভিজ্ঞতাবাদীভাবে ভাল কাজ করেছে এবং জিনসিমের লাইব্রেরিটি খুব ভালভাবে আঁকছে। যাইহোক, কোনও নিখরচায় দুপুরের খাবার নেই, তাই প্রতিটি পদ্ধতির পছন্দ করে নিন এবং দেখুন যা আপনার ডেটার জন্য আরও ভাল কাজ করে।


আপনি ঠিক কীভাবে এলএসএ ব্যবহার করেছেন? এটি লক্ষণীয় যে এলডিএ আসলে এলএসএর চারপাশে একটি সুন্দর পাতলা মোড়ক (এটি পূর্বে একটি ডাইরিচলেট সহ পিএলএসএ) রয়েছে যা সাধারণীকরণকে ব্যাপকভাবে বৃদ্ধি করার জন্য অনুপ্রেরণামূলকভাবে দেখানো হয়েছে। আপনি প্রায় অবশ্যই এলএসএর সাথে আরও ভাল অর্থ সংগ্রহ করতে পারবেন তবে এটি সাধারণত ওভারফিটিংয়ের ফলস্বরূপ, যা এলএসএর সাথে একটি খুব উল্লেখযোগ্য সমস্যা। এছাড়াও, এখানে স্কেলিং করে আপনি ঠিক কী বোঝাতে চাইছেন? doc2vec আসলে প্রতিটি নথির জন্য একটি নতুন মডেলের প্রয়োজন হয় না, এবং গণনার জন্য এলএসএ এবং এলডিএর মধ্যে কোনও উল্লেখযোগ্য পার্থক্য নেই, উভয়ই খুব স্কেলযোগ্য।
স্লেটার ভিক্টোরফ

আমি এলএসএর সাথে ফিট করার বিষয়ে লক্ষ্য রাখিনি, এবং যেমনটি বলেছিলাম, আমি অন্যান্য একাধিক ব্যক্তির সাথে দেখা করেছি যারা এলডিএর চেয়ে আরও ভাল পারফরম্যান্স দেখেছেন। এছাড়াও, আমি সেমিভাল প্রতিযোগিতায় অনেকগুলি বিজয়ী এন্ট্রিগুলিতে এলএসএ ব্যবহার করতে দেখেছি, আমি কখনও বিজয়ী প্রবেশে এলডিএ ব্যবহার করতে দেখিনি। এটি নথির মধ্যে শব্দার্থক মিলের সাথে তুলনা করার জন্য একাডেমিক সম্মেলন, সুতরাং আমি ধরে নিলাম তারা কী করছে তা তারা জানে। ডোক 2vec, আপনি যদি মিকোলভের অনুচ্ছেদে ভেক্টর বাস্তবায়নের কথা উল্লেখ করছেন, প্রতিটি নথিতে আলাদা করে এসজিডি করেন। সুতরাং এটি খুব ধীর।
সাইমন

@ স্লেটারভিক্টোরফ আমার মনে হয় যে এটি অত্যধিক উপযোগী বলে বলার চেয়ে বেশি। এলডিএ অনুসন্ধান / তথ্য পুনরুদ্ধার এবং সুপারিশের মামলার জন্য দরিদ্র হিসাবে পরিচিত, অনুভূতভাবে এলএসএকে আরও ভালভাবে কাজ করার জন্য দেখানো হয়েছে এবং এটি আমার নিজের অভিজ্ঞতার সাথেও মেলে কারণ আমি আমাদের নিজস্ব তথ্যের বিরুদ্ধে এই অনুসন্ধানগুলি বৈধ করতে চাই। ডক 2ভেকের সংস্করণগুলি নথিতে প্রতি গ্রেডিয়েন্ট বংশোদ্ভূত কাজ করে, এটি ডক 2 ভিচে ব্যবহৃত আলগোরিদিমের উপর নির্ভর করে, কারণ এটি সাধারণত বিভিন্ন অ্যালগরিদমকে বোঝায়।
সাইমন

3

শিল্পের রাজ্যটি সাম্প্রতিক একটি কাগজে প্রবর্তিত "অনুচ্ছেদ ভেক্টর" হিসাবে উপস্থিত বলে মনে হচ্ছে: http://cs.stanford.edu/~quocle/paragraph_vector.pdf । অনুচ্ছেদে ভেক্টরগুলির মধ্যে কোসিন / ইউক্লিডিয়ান দূরত্ব সম্ভবত অন্য যে কোনও পদ্ধতির চেয়ে ভাল কাজ করবে। ওপেন সোর্স বাস্তবায়নের অভাবে এটি সম্ভবত এখনও সম্ভব হয় না।

পরবর্তী সেরা জিনিসটি হ'ল এলএসএ ভেক্টরগুলির মধ্যে কোসাইন দূরত্ব বা কাঁচা BOW ভেক্টরগুলির মধ্যে কোসাইন দূরত্ব। কখনও কখনও টিএফ-আইডিএফ-এর মতো বিভিন্ন ওজন স্কীমগুলি বেছে নেওয়া আরও ভাল কাজ করে।


অনুচ্ছেদে ভেক্টর স্কেলিবিলিটি সম্পর্কে আমার মন্তব্যগুলি নীচে নোট করুন। এই কৌশলটি খুব আশাব্যঞ্জক দেখাচ্ছে, তবে এটি বাস্তবায়ন করা শক্ত এবং এগুলি মোটেও ভাল মাপেনি, কারণ আপনি প্রতিটি নথির জন্য পৃথক এসজিডি করছেন, যা খুব ব্যয়বহুল, যদি আমি কাগজটি সঠিকভাবে মনে করি
সাইমন

1

আপনার কাছে সরঞ্জামের ব্যাগ থাকা লোক সংবেদনশীল হ্যাশিং অ্যালগরিদমের পরিবার । এই পরিবারটি মোটেও শব্দার্থক নয়। আসলে পাঠ্যটিকে বিটের ক্রম হিসাবে বিবেচনা করা হয়। আমি একই নীতিটি সামান্য পার্থক্য সহ অনেকবার প্রদর্শিত হলে নোংরা ডেটা সেটগুলিতে এটি দরকারী মনে করি।

এই জাতীয় দস্তাবেজগুলি সনাক্ত করার জন্য আপনি এসএসডিপি (যা নীলসিমার হ্যাশের উপর ভিত্তি করে ) ব্যবহার করতে পারেন । এসএসদীপ মূলত স্প্যামের ডোমেনের জন্য পরিকল্পনা করা হয়েছিল। স্প্যামাররা প্রায়শই সঠিক স্বাক্ষর (যেমন, এমডি 5 ) দ্বারা সনাক্তকরণ রোধ করার জন্য বার্তায় ছোট স্থান পরিবর্তন করে (একটি স্থান যোগ করুন) do

যেহেতু একই ডেটা সেটে প্রায় একই ডকুমেন্টের অনেকগুলি সংস্করণ স্ট্যাটিস্টিকাল পদ্ধতিতে এটি প্রয়োগ করা হবে যা হুমকির কারণ হয়ে দাঁড়ায়, এই জাতীয় পরিচ্ছন্নতা করা খুব উপকারী হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.