ইউ-কোল্ডিয়ান দূরত্বের (এলএসএ) কোসাইন মিলের উপর কে-মানে


10

আমি নিম্ন মাত্রিক স্থানে নথিগুলির একটি কর্পাস উপস্থাপনের জন্য সুপ্ত শব্দার্থবিজ্ঞান ব্যবহার করছি। আমি এই দস্তাবেজগুলিকে কে-মাধ্যম ব্যবহার করে দুটি গ্রুপে গুচ্ছ করতে চাই।

বেশ কয়েক বছর আগে, আমি পাইথনের জিনসিম ব্যবহার করে এটি করেছি এবং আমার নিজের কে-মানে অ্যালগোরিদম লিখেছিলাম। আমি ইউক্যালিডিয়ান দূরত্ব ব্যবহার করে ক্লাস্টার সেন্ট্রয়েডগুলি নির্ধারণ করেছি, তবে তারপরে সেন্ট্রয়েডের কোসাইন মিলের উপর ভিত্তি করে প্রতিটি নথি ক্লাস্টার করেছি। দেখে মনে হচ্ছে এটি বেশ ভাল কাজ করেছে।

এখন আমি নথির অনেক বড় কর্পাসে এটি করার চেষ্টা করছি। কে-মানেগুলি রূপান্তরিত হচ্ছে না, এবং আমি ভাবছি যে এটি আমার কোডে কোনও বাগ। আমি সম্প্রতি পড়েছি যে আপনার কোসাইন সাদৃশ্য ব্যবহার করে গুচ্ছ হওয়া উচিত নয় , কারণ কে-মানে কেবল ইউক্লিডিয়ান দূরত্বের উপর কাজ করে। যদিও আমি যেমনটি উল্লেখ করেছি, এটি আমার ছোট পরীক্ষার ক্ষেত্রে ভাল কাজ করেছে বলে মনে হয়েছে।

এখন আমি এলএসএ উইকিপিডিয়া পৃষ্ঠায় এটি জুড়ে এসেছি :

নথি এবং শব্দ ভেক্টরের উপস্থাপনাগুলি কো-কোসিনের মতো মিলের ব্যবস্থা ব্যবহার করে -তিহ্যবাহী ক্লাস্টারিং অ্যালগরিদমগুলি ব্যবহার করে ক্লাস্টার করা যায়।

তাহলে এটি কোনটি? আমি কি কোসাইন মিল ব্যবহার করতে পারি না?


এই বিষয়টি প্রকৃতপক্ষে এই সাইটে দীর্ঘকাল স্থায়ী। সাম্প্রতিক প্রশ্ন: stats.stackexchange.com/q/120085/3277 (সেখানে আরও লিঙ্ক দেখুন)। কী ভয়ানক আকর্ষণীয় তা হ'ল আপনি কী -কে প্রয়োগ করেছেন যা কোসাইনগুলি প্রক্রিয়া করে। আপনি যদি আপনার প্রশ্নে আপনার অ্যালগরিদম বর্ণনা করেন এটি এটির উত্তর দেওয়ার লোকদের সহায়তা করবে।
ttnphns

@ttnphns আমি আসলে ইউক্লিডিয়ান দূরত্ব (প্রতিটি মাত্রার গড়) ব্যবহার করে ক্লাস্টার সেন্ট্রয়েড তৈরি করেছি। তবে আমি তখন প্রতিটি নথি ইউক্লিডিয়ান দূরত্বের পরিবর্তে কোসাইন মিলের উপর ভিত্তি করে একটি ক্লাস্টারে নির্ধারিত করেছি।
জেফ

I then assigned each document to a cluster based on cosine similarity- একটি ডক এবং সেন্ট্রয়েডের মধ্যে কোসিন? এবং সমস্ত দস্তাবেজ নির্ধারিত হওয়ার পরে আপনি একটি সাধারণ (ইউক্লিডিয়ান) উপায়ে সেন্ট্রয়েডগুলি আপডেট করেন কারণ স্থানটিতে ডক্সের স্থানাঙ্কগুলি পরিচিত। তাই নাকি?
ttnphns

1
আপনার ডেটাসেটের প্রতিটি নথির জন্য বর্গক্ষেত্রের মানগুলির সমান হলে , আপনার পদ্ধতির কাজ হবে এবং সর্বদা রূপান্তরিত হবে। কারণ সে ক্ষেত্রে (যে সব 'একই দৈর্ঘ্যের গুলি) centroids ও দস্তাবেজ মধ্যে cosines centroids ও দস্তাবেজ মধ্যে ইউক্লিডিয় দুরুত্ব সঙ্গে কঠোরভাবে monotonical হবে। তবে এর অর্থ হ'ল অ্যাসাইনমেন্টের জন্য কোসাইনগুলি ব্যবহার করা অযথা এবং আপনি ইউক্লিডিয়ান দূরত্বের উপর ভিত্তি করে স্ট্যান্ডার্ড কে-মানে অ্যালগরিদমের অ্যাসাইনমেন্টটি ব্যবহার করতে পারেন। h
ttnphns

1
আমি যা ভাবতে শুরু করি তা হ'ল আপনি সম্ভবত কোনও গোলকের উপর সঞ্চালিত কে-মাধ্যমের সন্ধান করছেন, মহাকাশে নয়। কৌণিক কে মানে, তাই কথা বলতে। আমি মনে করি এটি সম্ভব, তবে আমি এর আগে কখনও পড়ি বা ব্যবহার করি না।
ttnphns

উত্তর:


4

হ্যাঁ, আপনি এটি ব্যবহার করতে পারেন। সমস্যাটি হচ্ছে, কোজিনের মিলটি দূরত্ব নয়, এ কারণেই এটি সাদৃশ্য বলা হয়। তবুও, এখানে বর্ণিত হিসাবে এটি দূরত্বে রূপান্তরিত হতে পারে ।

আসলে, আপনি কেবল যে কোনও দূরত্ব ব্যবহার করতে পারেন। হাই ডাইমেনশনাল স্পেসে দূরত্ব ফাংশনগুলির বৈশিষ্ট্যগুলির একটি খুব সুন্দর অধ্যয়ন (এটি সাধারণত তথ্য পুনরুদ্ধারের ক্ষেত্রে সাধারণত হয়) হাই ডাইমেনশনাল স্পেসের দূরত্ব মেট্রিকগুলির অবাক করা আচরণের উপর রয়েছে । এটি ইউক্লিডিয়ান বনাম বনাম কোসিনের তুলনা করে না।

আমি এই সমীক্ষাটি পেরিয়ে এসেছি যেখানে তারা দাবি করে যে উচ্চ মাত্রার জায়গাগুলিতে উভয় দূরত্ব একই রকম আচরণ করে।


1
এই উত্তরটি ভালো যদি এটি বর্ণনা করে হতে পারে কিভাবে Yes, you can use it । (
কোসাইনকে

আমার কে-মাধ্যমের বোঝাপড়া আলাদা। এটি অগত্যা ইউক্লিডিয়ান দূরত্বের মধ্যেই সীমাবদ্ধ নয় ( স্ট্যাট.উনি- মেমেনচেনডে / লেইস্চ / পেপারস / লিজিচ-2006 . pdf )। এছাড়াও আমার দ্বিতীয় রেফারেন্স বা এই আর প্যাকেজটি দেখুন ( cran.r-project.org/web/packages/cclust/cclust.pdf )। আমি বোঝাতে চেয়েছিলাম এটি উইকিপিডিয়া সাইটে পছন্দ করে। একটি মাত্র একটি দূরত্ব ফাংশন প্রয়োজন। তারা এটিকে "কৌণিক মিল" হিসাবে উল্লেখ করে।
jpmuc

1
সম্ভবত (এবং কাগজ ভাগ করে নেওয়ার জন্য ধন্যবাদ!)। তবে তারপরে কে-মানেগুলির এই জাতীয় "পরিবর্তনগুলি" যা কে-মাধ্যমের চেয়ে পৃথক হয় সেগুলি সেন্ট্রয়েডকে ইউক্যালিডিয়ান স্পেসে পাটিগণিত গড় হিসাবে চিহ্নিত করে না, কে-মাধ্যম বলা উচিত নয়
ttnphns

1

ইউক্লিডিয়ান দূরত্ব নথি বা দস্তাবেজের ক্লাস্টারের তুলনায় উপযুক্ত নয়। নথিগুলির সাথে তুলনা করার সময়, একটি মূল সমস্যা হ'ল ডকুমেন্ট দৈর্ঘ্যের দ্বারা স্বাভাবিককরণ। কোসিনের সাদৃশ্য এই ধরণের সাধারণীকরণ অর্জন করে তবে ইউক্লিডিয়ান দূরত্ব এটি পায় না। আরও বেশি, ডকুমেন্টগুলি প্রায়শই বহু-জাতীয় সম্ভাব্যতা বিতরণ (কথিত শব্দের ব্যাগ) হিসাবে মডেল করা হয়। কোসিনের সাদৃশ্যটি জেএস-ডাইভারজেন্সের একটি অনুমান যা মিলের জন্য পরিসংখ্যানগতভাবে ন্যায়সঙ্গত পদ্ধতি। ডকুমেন্টস এবং কোসাইন সহ একটি মূল সমস্যাটি হ'ল গুনে সঠিক টিএফ-আইডিএফ স্বাভাবিককরণ প্রয়োগ করা উচিত। আপনি যদি এলএসএর উপস্থাপনা অর্জন করতে জেনসিম ব্যবহার করেন তবে জেনসিম ইতিমধ্যে তা করে।

আপনার 2 টি ক্লাস্টারের ব্যবহারের ক্ষেত্রে আরেকটি দরকারী পর্যবেক্ষণ হ'ল আপনি একটি ভাল নন-এলোমেলো সূচনা পেতে পারেন কারণ এলএসএ কেবল এসভিডি। আপনি নিম্নলিখিত পদ্ধতিতে এটি করুন:

  • প্রতিটি নথির প্রথম প্রথম উপাদানটি ধরুন (প্রথম উপাদানটি শীর্ষ একবাক্য ভেক্টর হিসাবে ধরে নিচ্ছেন)।
  • প্রতিটি মানের জন্য ডকুমেন্ট আইডির ট্র্যাক রেখে সেই মানগুলি বাছাই করুন।
  • ক্লাস্টার 1 = ডকুমেন্ট আইডস শীর্ষগুলি যেমন 1000 (বা আরও বেশি) এর সাথে সম্পর্কিত
  • ক্লাস্টার 2 = ডকুমেন্ট আইডিগুলি নীচে যেমন 1000 (বা আরও) মানগুলির সাথে সম্পর্কিত
  • প্রতিটি ক্লাস্টারের জন্য কেবল ভেক্টরকে গড়ে গড়ে নিন এবং ভেক্টরের দৈর্ঘ্য অনুসারে স্বাভাবিক করুন।
  • এখন এই আরম্ভের জন্য কে-মানে প্রয়োগ করুন। এর অর্থ হ'ল পুনরাবৃত্তি (1) বর্তমান নিকটতম সেন্ট্রয়েডে নথিগুলি নির্ধারণ এবং (2) পুনরায় নিয়োগের পরে নতুন সেন্ট্রয়েডের গড় এবং স্বাভাবিককরণ

1

হ্যাঁ, ভেক্টর গড় অনুসারে একই সেন্ট্রয়েড আপডেট।

এই পেপারের ২.২ ধারাতে এম = 1 কেস দেখুন । বেস কে-ইমেজ অ্যালগরিদমের জন্য ওজন এবং ওজন সবই 1 all

কাগজটি কচি-শোয়ার্জ অসমতার বৈশিষ্ট্যগুলি ব্যবহার করে এই অবস্থাটি প্রতিষ্ঠিত করতে কে-গড়র জন্য ব্যয়কে কমিয়ে দেয়।

এছাড়াও মনে রাখবেন যে কোজিনের সাদৃশ্য কোনও ভেক্টরের দূরত্ব নয়। কোসিনের অসম্মতি । (এটি একটি ভাল অনুসন্ধান শব্দ হওয়া উচিত Hence) সুতরাং আপনি যখন পার্টিশনটি আপডেট করবেন, আপনি তার arg maxবিপরীতে অনুসন্ধান করছেন arg min

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.