বিরল ভেক্টরগুলির সাথে খুব উচ্চ মাত্রিক স্থানে নিকটতম জোড়গুলি সন্ধান করুন

9

আমার আছে $N$ (এক মিলিয়ন ডলার) বৈশিষ্ট্যযুক্ত ভেক্টর। সেখানে $M$ (এক মিলিয়ন ডলার) বাইনারি বৈশিষ্ট্য, তবে কেবল প্রতিটি ভেক্টরে $K$ তাদের মধ্যে (thousand এক হাজার) হবে $1$ বাকিরা তো আছে $0$ । আমি কমপক্ষে ভেক্টরগুলির জোড়গুলি খুঁজছি $L$ (একশত) একসাথে বৈশিষ্ট্যগুলি ( $1$ প্রত্যেকে). এই জাতীয় জোড়গুলির সংখ্যার সাথে একই পরিমাণের পরিমাণ $N$ (এক মিলিয়ন ডলার)

আমি মনে করি এটি খুব উচ্চ মাত্রার জায়গাতে নিকট বিন্দু জোড় খুঁজছেন হিসাবে যোগাযোগ করা যেতে পারে। দূরত্বের ফাংশনটি এমন হতে পারে যে এটি দুটি ভেক্টরগুলির মধ্যে কমন বৈশিষ্ট্যগুলির মিল রয়েছে তার উপর ভিত্তি করে। তবে এটি সম্ভবত আরও প্রচলিত দূরত্বের মেট্রিক (যেমন ইউক্লিডিয়ান) এর সাথেও কার্যকর হবে।

কোন সুপরিচিত অ্যালগরিদম এই সমস্যাটির কাছে যাওয়ার জন্য দরকারী? চতুর্ভুজযুক্ত যে কোনও কিছু $N$ অথবা $M$ ব্যবহারিক হবে না।

সমস্যার উদাহরণস্বরূপ বিশ্ব গঠনের বিষয়টি বিবেচনা করা $N$ লোকেরা একটি অবস্থানের মধ্যে চলন্ত। যদি দু'জন ব্যক্তি একই সময়ে একই স্থানে থাকত তবে আমরা বলি যে তারা একে অপরের সাথে দেখা করেছিল। (উপস্থিত থাকা কমপক্ষে 1 জন ব্যক্তির সাথে অবস্থান-সময় সংমিশ্রণের সংখ্যা $M$ ।) আমরা বন্ধুদের খুঁজছি: এমন লোকেরা যারা কমপক্ষে মিলিত হয়েছিল $L$ বার।

algorithms high-dimensional

— ড্যানিয়েল দারাবস
সূত্র

1

ভেক্টর 1, বৈশিষ্ট্য 1 হয়

0

$0$ , এবং ভেক্টর 2, বৈশিষ্ট্য 1 এছাড়াও

0

$0$ , তাদের মধ্যে কি এই বৈশিষ্ট্যটি "সাধারণ" রয়েছে?

— গুং - মনিকা পুনরায়

@ ব্যবহারকারী 7777, আমি অনুমান করি না , সেক্ষেত্রে আপনার উত্তরটি নিখুঁত, তবে ওপি কর্তৃক এটি স্পষ্টভাবে বলা ভাল হবে।

— গুং - মনিকা পুনরায়

@ গুং, আপনি ঠিক ধরেছেন। আমি স্পষ্ট করার জন্য প্রশ্নটি সম্পাদনা করেছি। ধন্যবাদ!

— ড্যানিয়েল দারাবস

1

প্রায় কত জোড়া ভেক্টর রয়েছে> 100 বৈশিষ্ট্যগুলি সাধারণ - এলোমেলো নমুনা + ব্রেস্ট ফোর্সে? মাপগুলি 1M এক্স 1 এম কি আসল সমস্যা, বা তৈরি? স্ট্যাকওভারফ্লোতে বিট-স্ট্রিং-নিকটতম-প্রতিবেশী-অনুসন্ধানেও অ্যাপ্রোচ দেখুন ।

— ডেনিস

1

সম্ভবত একটি ক্রেজি পরামর্শ: আপনার 1 এমবিট দীর্ঘ বৈশিষ্ট্যযুক্ত ভেক্টরগুলিকে 1000 x 1000 পিক্সেলের চিত্র হিসাবে দেখুন এবং চিত্রের ক্লাস্টারিংয়ের জন্য পদ্ধতিগুলি দেখুন, যেমন স্ট্যাকওভারফ্লো / সন্ধান ? q = ছেডেমেজ ++ ক্লাস্টারিং । আফাইক আপনাকে কাজ করার জন্য ভাল বৈশিষ্ট্যগুলি (একক পিক্সেল নয়) সন্ধান করতে হবে, তবে আমি কোনও বিশেষজ্ঞ নই।

— ড্যানিস

6

দেখে মনে হচ্ছে আপনি যে পদ্ধতির সন্ধান করছেন তা মিনহাশ স্বাক্ষর এবং লোকালটি সেনসিটিভ হ্যাশিং (এলএসএইচ) এর সংমিশ্রণ; মাইনিং ম্যাসিভ ডেটাসেটের পিডিএফ (অবাধে উপলব্ধ) এই পদ্ধতির বর্ণনা দেয় (এবং অন্যান্য মিলের ব্যবস্থা) অধ্যায় 3 তে কিছু বিশদে, তবে সংক্ষেপে:

একটি মিনহশ স্বাক্ষর হ'ল আপনার আসল ম্যাট্রিক্সের একটি সংশ্লেষিত প্রতিনিধিত্ব যা বৈশিষ্ট্যগুলিতে কিছু সংখ্যা এন হ্যাশ ফাংশন প্রয়োগ করে নির্মিত হয়, যার ফলে প্রতি পর্যবেক্ষণের বৈশিষ্ট্যের সংখ্যা হ্রাস পায়। এটি আপনার ডেটার আকার হ্রাস করবে, তবে আপনি সম্ভবত লক্ষ্য করবেন যে এটি এখনও আপনাকে একটি এ রেখে দেয় $O(N^2)$ সমস্যা।

এটি সমাধানের জন্য, এমএমডিএস পরামর্শ দেয় যে আপনি যে সমস্ত সন্ধান করতে চান তা যদি মিলের নির্দিষ্ট প্রান্তের উপরে জুড়ে থাকে (যা আপনার ক্ষেত্রে প্রযোজ্য বলে মনে হয়) তবে আপনি কেবল সেই জোড়াগুলিতেই ফোকাস করতে পারেন যা সম্ভবত একই রকম হয় - এই পদ্ধতির এটিকে লোকেশন সেনসিটিভ হ্যাশিং বলা হয় এবং ৩.৪ বিভাগে তারা কীভাবে এলএসএইচের সাথে মিনহাশ স্বাক্ষর পদ্ধতির সমন্বয় করতে পারে তার একটি উদাহরণ দিয়ে যায়।

পাঠ্যের পাশাপাশি একই নামের কোর্সেরা কোর্সেও বক্তৃতা রয়েছে ।

— Tchotchke
সূত্র

7

আমি কমপক্ষে ভেক্টরগুলির জোড়গুলি খুঁজছি $L$ বৈশিষ্ট্যগুলি সাধারণ।

এটি বাইনারি বৈশিষ্ট্যযুক্ত ভেক্টরগুলির কেবলমাত্র একটি অভ্যন্তরীণ পণ্য। অভ্যন্তরীণ পণ্য যখন চেয়ে বেশি হয় $L-1$ , জোড় কমপক্ষে হবে $L$ সাধারণ উপাদান। এটি তুলনামূলকভাবে দ্রুত গণনা হওয়া উচিত - ইউক্লিডিয়ান দূরত্বের চেয়ে কমপক্ষে দ্রুত, যা এই ডেটার জন্য অপচয় এবং ধীর হবে। যেহেতু আপনি শর্ত দিয়েছেন যে আপনি জোড় খুঁজছেন, এর অন্তর্নিহিত অর্থ প্রতিটি ভেক্টরকে তুলনা করার জন্য আপনাকে গণনা করতে হবে। $\binom{N}{2}$

একসঙ্গে কাছাকাছি থাকা পয়েন্টগুলি খুঁজে পাওয়া আসলে একটি ক্লাস্টারিং সমস্যা। তবে আমি যে ক্লাস্টারিং অ্যালগরিদমগুলির সাথে পরিচিত তার প্রথম ধাপটি জুটিওয়ালা দূরত্ব বা মিলগুলি গণনা করা। আমি নিশ্চিত কেউ আরও দক্ষ বিকল্প তৈরি করেছে। পরিভাষা সম্পর্কে একটি বিষয়: কমপক্ষে সাধারণ প্রতিবেশী থাকার একটি দূরত্ব নয়, মিল হিসাবে চিহ্নিত করা হয় ! অভ্যন্তরীণ পণ্যগুলি এই ক্ষেত্রে, অস্বাভাবিক কোসাইন মিল রয়েছে। $L$

আপনি কেবলমাত্র অভ্যন্তরীণ পণ্য গণনা সম্পাদন করে এটি আরও ট্র্যাকটেবল করে তুলতে পারবেন যখন কোনও পর্যবেক্ষণের জন্য বৈশিষ্ট্য ভেক্টরের সমষ্টি (যা এই ক্ষেত্রে আদর্শ হিসাবে একই) চেয়ে বেশি হয় , যেহেতু বাইনারি বৈশিষ্ট্য ভেক্টরের পক্ষে এটি অসম্ভব অন্য বাইনারি বৈশিষ্ট্য ভেক্টরের সাথে অভ্যন্তরীণ পণ্য থাকতে যা এই মানটি চেয়ে কম হলে আমার মানদণ্ড পূরণ করবে । স্পষ্টতই, এই অঙ্কগুলি গণনা করা কেবল জটিলতা, সুতরাং আমি অভ্যন্তরীণ পণ্যের পদক্ষেপের প্রসারকে কমিয়ে আনার সস্তা উপায় way $L-1$ $L$ $O(N)$

তবে এই সমস্যার পরিধি হ্রাস করার সর্বোত্তম উপায় হ'ল অতিরিক্ত প্রাক-ফিল্টারিং। আপনি যখন বিশেষত আগ্রহী হন যখন কোনওটি, কিছুটা অস্বাভাবিক বৈশিষ্ট্যটি মান 1 নেয়? যদি তা হয় তবে কেবল সেই বৈশিষ্ট্যযুক্ত ভেক্টরগুলির জন্য গণনা সম্পাদন করুন।

অথবা আপনার সমস্যাটি পুনরায় ফ্রেম তৈরি করে আপনি উপকৃত হতে পারেন। উদাহরণস্বরূপ, স্যাম্পলিংয়ের দুর্দান্ত বৈশিষ্ট্য রয়েছে বলে জানা যায়; অনুমানমূলক পরিসংখ্যান এই ধারণাটির উপর কিছুটা গভীরতার বিকাশ করে। সুতরাং সম্ভবত পুরো ডেটা সেটটি বিশ্লেষণ করা অসম্ভব, তবে একটি ছোট নমুনা পরীক্ষা করা একেবারে সম্ভাব্য। আপনি কোন প্রশ্নের জবাব দিতে চাইছেন তা আমি জানি না, তবে আপনি যদি সাবধানে নিজের পরীক্ষাটি ডিজাইন করেন তবে বৈধতার জন্য যথেষ্ট পরিমাণ ডেটা রেখে কেবল কয়েক হাজার পর্যবেক্ষণ দেখে আপনি পালিয়ে যেতে পারেন।

কিছু অতিরিক্ত চিন্তাভাবনার পরে, আমার দৃ a় কুশলতা রয়েছে যে আপনি যে ডেটা নিয়ে কাজ করছেন তা হ'ল একরকমের গ্রাফ । এটা খুবই বিশ্বাসযোগ্য যে বিভিন্ন সংযুক্ত উপাদান, যে ক্ষেত্রে আপনি পচা করতে গঠিত হয় গ্রাফ একটি সেট অনুবাদ করে, এবং ডেটার মাত্রা কমানোর খুশি পার্শ্ব প্রতিক্রিয়া সঙ্গে। এমনকি গ্রাফটি মোটামুটি একই আকারের দুটি সংযুক্ত উপাদান হলেও এর অর্থ আপনার জুটিওয়ালা তুলনা মোট মোট ব্যয়! !! $G$ $G$ $G$ $O(N^2)$ $\frac{1}{4}$

যদি গ্রাফটি প্রতিসম হয় তবে নিম্নলিখিত পর্যবেক্ষণগুলি সহায়ক হতে পারে:

আপনার গ্রাফের ল্যাপ্লেসিয়ানকে হিসাবে সংজ্ঞায়িত করুন , যেখানে ডিগ্রির একটি তির্যক ম্যাট্রিক্স (প্রতিটি বৈশিষ্ট্য ভেক্টরের সমষ্টি) এবং সংলগ্ন ম্যাট্রিক্স (বৈশিষ্ট্য ভেক্টরের ম্যাট্রিক্সে স্ট্যাকিং)। $P=D-A$ $D$ $A$
ইগন্যালু হিসাবে বার প্রদর্শিত হয় এর সংযুক্ত উপাদানগুলির সংখ্যা । গ্রাফটিকে তার সংযুক্ত উপাদানগুলিতে সংশ্লেষ করা এবং সেই উপাদানগুলির সাথে সম্পূর্ণভাবে কাজ করা আপনার ডেটার মাত্রা হ্রাস করার পার্শ্ব-প্রতিক্রিয়াযুক্ত হবে; আপনার আগ্রহের পরিমাণ গণনা করা সহজ হবে। তবে ইগেনডিকোপজিশনটি গণনা করা এক মিলিয়ন উল্টোর জন্য ব্যয়বহুল হবে ... $0$ $P$ $G$
(ক পূর্ণ বিন্যাস পরে) এর সংযুক্ত উপাদান Laplacians একটি ব্লক তির্যক ম্যাট্রিক্স হয় । $P$ $G$
$P$ ধনাত্মক সেমিডেফিনাইট। এটি অবশ্যই কোনওভাবে কার্যকর।
বীজগণিত সংযোগ হ'ল -এর দ্বিতীয়-ক্ষুদ্রতম ইগেনালুয়ের মান । এটি আপনাকে জানায় যে কতটা সংযুক্ত রয়েছে। সম্ভবত এটি আপনার পুনরায় আগ্রহী এমন কয়েকটি প্রশ্নের উত্তর দেবে: ভেক্টরগুলির বৈশিষ্ট্যগুলি সাধারণ রয়েছে। বর্ণালী গ্রাফ তত্ত্ব এই ধারণাটি আরও কিছু বিশদে বিকাশ করে। $G$ $P$ $G$

"এটি কি কোনও এসএনএ সমস্যা?" আমি নিশ্চিত নই. একটি অ্যাপ্লিকেশনটিতে বৈশিষ্ট্যগুলি আচরণ বর্ণনা করে এবং আমরা একইরকম আচরণের সাথে লোকদের সংযুক্ত করতে চাইছি। এটি কি এটি একটি এসএনএ সমস্যা করে?

যদি আপনার কাছে দ্বিপক্ষীয় গ্রাফ থাকে যা লোকদের আচরণের সাথে সংযুক্ত করে, আপনি এটিকে একটি অধিবেশন নেটওয়ার্ক হিসাবে ভাবতে পারেন , কলাম হিসাবে সারি এবং আচরণ হিসাবে লোকদের সাথে। আপনি যদি লোকদের সাথে সাধারণ আচরণের মাধ্যমে লোকের সাথে সংযোগ স্থাপন করতে চান তবে আপনি গণনা করতে পারেন । হল জনগণের মধ্যে প্রচলিত আচরণের সংখ্যা। স্পষ্টতই, সেট যেখানে আপনার প্রশ্নের উত্তর দেয়। $B$ $BB^T=A$ $A_{ij}$ $A_{ij}\ge L$

— সাইকোরাক্স মনিকাকে রিইনস্টেট বলে
সূত্র

চমৎকার উত্তরের জন্য ধন্যবাদ! এটি আমাকে আরও তদন্ত করতে হবে of যদিও এই যুগের তুলনা অপরিহার্য, আমি নিশ্চিত নই। এটি কি ক্লাস্টারিং সমস্যা নয় যেখানে আমি> 1 আকারের ক্লাস্টারগুলি খুঁজছি? আমি প্রত্যাশা করছিলাম যে কয়েকটি স্পেসিয়াল পার্টিশন করার পদ্ধতিটি জোড়ের তুলনায় সংখ্যার পরিমাণকে হ্রাস করতে পারে।

— ড্যানিয়েল দারাবোস

দুঃখিত, আমি ডেটা বিজ্ঞান সম্পর্কে খুব বেশি জানি না। যখন আমরা একে অপরের নিকটে থাকা পয়েন্টগুলি একসাথে দেখছি তখন এটি কি ক্লাস্টারিং সমস্যা নয়? আমার সর্বাধিক দূরত্ব রয়েছে (এল) এবং একে অপরের সেই দূরত্বের মধ্যে থাকা পয়েন্টগুলির গোষ্ঠীগুলি (জোড়া) সন্ধান করতে চাই। এটি কি ক্লাস্টারিংয়ের সংজ্ঞাটি খুব বেশি প্রসারিত করে?

— ড্যানিয়েল দারাবস

1

এটি সত্যই একটি গ্রাফ সমস্যা হিসাবে চিহ্নিত করা যেতে পারে। সেক্ষেত্রে আমাদের কাছে এন পয়েন্ট এবং এম বৈশিষ্ট্যের দ্বিপক্ষীয় গ্রাফ রয়েছে এবং কমপক্ষে এল সাধারণ প্রতিবেশী দেশগুলির এমন বেশ কয়েকটি পয়েন্টের সন্ধান করতে চাই। আমি এখন বিশেষত ভেক্টর-ভিত্তিক ফ্রেসিংটি দেখছি, এই আশায় যে এখানে একটি ক্লাস্টারিং পদ্ধতি রয়েছে যা আমার কাজে লাগতে পারে। কে- এসভিডিকে একইভাবে stats.stackexchange.com/questions/93366/… তে একই সমস্যার পরামর্শ দেওয়া হয়েছিল , তাই আমি এই মুহুর্তে এটি পড়ছি। ধন্যবাদ!

— ড্যানিয়েল দারাবস

"এটি কি কোনও এসএনএ সমস্যা?" আমি নিশ্চিত নই. একটি অ্যাপ্লিকেশনটিতে বৈশিষ্ট্যগুলি আচরণ বর্ণনা করে এবং আমরা একইরকম আচরণের সাথে লোকদের সংযুক্ত করতে চাইছি। এটি কি এটি একটি এসএনএ সমস্যা করে? আমাকে পরিভাষার সাথে পরিচয় করিয়ে দেওয়ার জন্য ধন্যবাদ, এটি আমার অনুসন্ধানকে গাইড করতে খুব সহায়ক।

— ড্যানিয়েল দারাবোস

আমি আমার উত্তর সংশোধন করেছি। আপনার চূড়ান্ত লক্ষ্যটি কি অনেকগুলি আচরণের সাধারণ লোকদের গণনা করা, না এটি অন্য কিছু?

— সাইকোরাক্স মনিকাকে

2

স্পেস-টাইম ব্লকে লোকজনের সাক্ষাত
জন্য: ব্লকগুলিতে স্থান বিভক্ত করুন (সিটি ব্লক, বর্গ কিমি, যাই হোক না কেন), এবং ব্লকগুলিতে সময় দিন । একটি ভাল সুযোগ আছে যে লোকেরা যদি দেখা করে তবে তারা একই ব্লকের মধ্যে দেখা করবে। সুতরাং প্রতিটি ব্লকের মধ্যে এনএন চালান। রানটাইম এবং ত্রুটির হার অবশ্যই ব্লক আকার এবং আকারের উপর নির্ভর করবে (আপনি যেটি সমান্তরাল করতে পারবেন / ম্যাপ্রেইডুস করতে পারেন তার উপরও) তবে আপনার সাথে খেলতে পরামিতি রয়েছে - ইঞ্জিনিয়ারিং, ওয়াইড-ওপেন । $Nspace$ $Ntime$
$O( N^2 )$

আরও দেখুন: ডেটাসায়েন্স.স্ট্যাকেক্সেঞ্জচেজে
-খুব-উচ্চ-মাত্রিক-ডেটা নিকটতম-প্রতিবেশী-অনুসন্ধানে

পেয়ারওয়াই.পি :

টিএফ-আইডিএফ এবং কোসাইন দূরত্ব ব্যবহার করে এরিবিট্রিলি সংখ্যক ডকুমেন্টের মধ্যে বৃহত্তর দ্রুত এবং স্কেলযোগ্য জোড়ায়ু জুটির তুলনা করতে পাইথন জেনসিম লাইব্রেরি এবং হ্যাপক ব্যবহার করেন library

— ডেনিস
সূত্র

1

উল্টে আখ্যান! উপস্থাপন একটি বিন্দু যেমন , কি অ শূন্য মান সংশ্লিষ্ট (যেমন অতিরিক্ত বৈশিষ্ট্যগুলিও উপস্থিত রয়েছে সত্য অধিষ্ঠিত)। কোনও উপাদানের সঞ্চয়ের গড় আকার হবে । প্রকৃতপক্ষে, বৈশিষ্ট্যগুলি সঞ্চয় করতে আমার কেবল স্ট্রিং দরকার এবং মানগুলি ধরে রাখতে ভাসমান। $x$ $feat_1:value_1, feat_{101}:value_{101}$ $K$ $K$ $K$

প্রতিটি বৈশিষ্ট্যের জন্য, এই বৈশিষ্ট্যটি ভাগ করে নেওয়ার সূচকগুলিকে ধারণ করে একটি অভিধান তৈরি করুন। আশা করা যায়, এই সংখ্যাটি খুব বেশি বড় হবে না (যদি আপনার কোনও বৈশিষ্ট্য থাকে যা সমস্ত সূচকগুলির দ্বারা ভাগ করা হয়, তবে এই পদ্ধতিটি নষ্ট হয়ে গেছে, আপনি এখানে পড়া বন্ধ করতে পারেন)।

: মত এই অভিধান সৌন্দর্য । আমি যদি গতি অর্জন করতে এবং স্থান বাঁচাতে চাই তবে আমি এমনকি এমন বৈশিষ্ট্যগুলি ফেলে দিতে পারি যা কেবলমাত্র একটি উপাদান (এখানে: ) দিয়ে পাওয়া যায় কারণ তারা ঘনিষ্ঠ জোড়া তৈরি করতে পারে না। এই ক্রিয়াকলাপে নির্মিত। $feat_1 : \{1,101,202\}, feat_2 : \{7,202\},feat_3 : \{202\}...feat_M:\{3,45,6\}$ $feat_3$ $O(NK)$

এখন, আপনি যখন একটি উপাদান দূরত্ব নির্ণয় করতে চান অন্যদের সঙ্গে অন্তত একটি বৈশিষ্ট্য ভাগ ইনডেক্স তালিকা (অভিধান সহ) উৎপন্ন । আপনি জানেন যে অন্যান্য সমস্ত উপাদান থেকে অনেক দূরে (তারা এমনকি একটি বৈশিষ্ট্য ভাগ করে না!)। যদি প্রতিটি ফিচারের উপাদানগুলির গড় সংখ্যা কম হয় (এটিকে ), আপনাকে আর নেই। $x$ $x$ $x$ $P$ $O(N^2)$

এখন সেখানে যদি অন্য বড় উন্নতি এবং যেহেতু পাশাপাশি অভিধান হিসাবে প্রতিনিধিত্ব করা হয়, বা কি উপর iterating মূল্যায়ন করা যাবে এবং , এ অপারেশন। $x$ $y$ $d(x,y)$ $<x,y>$ $x$ $y$ $O(K)$

আপনার চূড়ান্ত জটিলতা হ'ল নিষ্পাপ প্রাথমিক পদ্ধতির পরিবর্তে । $O(NPK)$ $O(MN^2)$

আমি এই পদ্ধতিটি প্রয়োগ করেছি বড় টেক্সট সেটের উপরে কেএনএন প্রয়োগ করতে (ট্রেন: 2 000 000 লাইনের পরীক্ষা, 35 000 লাইন পরীক্ষা করে, বৈশিষ্ট্যের সংখ্যা: 10 000, উপাদান হিসাবে বৈশিষ্ট্যগুলির গড় সংখ্যা: 20), যা প্রায় এক ঘন্টার মধ্যে চলেছিল .. ।

— RUser4512
সূত্র

আমি এই পদ্ধতিকে পুরোপুরি বুঝতে পারি না - এটি আপনাকে অস্বীকার করার কারণে নয়, এটি সম্পূর্ণরূপে ডেটা উপস্থাপনের জন্য বিভিন্ন কৌশলগুলির সাথে আমার পরিচিতির অভাবের কারণে। প্রথম দুটি অনুচ্ছেদে আপনি যা আবশ্যক তা সম্ভবত আপনি আরও বিস্তারিতভাবে বর্ণনা করতে পারেন?

— সাইকোরাক্স মনিকাকে

1) "এই সংখ্যাটি খুব বেশি বড় হবে না": গড় কলামের যোগফল = গড় সারির সমষ্টি = 1000. 2) ভাসমান? ওপি'র বৈশিষ্ট্যগুলি বাইনারি 3) 3 রান জন্য রানটাইম এন, 2 এন, 4 এন আকর্ষণীয় হবে, যদি তারা মোটামুটি হয় তবে দেখাবে

O (N^{2})

$O(N^2)$ ।

— ডেনিস

1

আমি এমন একটি রেফারেন্স পেয়েছি যা আপনি সম্ভবত সহায়ক হিসাবে খুঁজে পেতে পারেন এবং আমি বিশ্বাস করি যে এটি এখন পর্যন্ত উপস্থাপিত প্রতিটি সমাধানের চেয়ে asyptotically বেশি দক্ষ। যদি আমি সঠিকভাবে বুঝতে পারি তবে আপনি সময়ে নিকটবর্তী প্রতিবেশী (কেএনএন) গ্রাফটি তৈরি করতে পারেন । $k$ $O(LN\log(N))$

এল। এরোটজ, এম। স্টেইনবাচ এবং ভি। কুমার "একটি নতুন ভাগ করা নিকটতম প্রতিবেশী ক্লাস্টারিং অ্যালগরিদম এবং এর অ্যাপ্লিকেশনগুলি" " ক্লাস্টারিং হাই ডাইমেনশনাল ডেটা এবং এর অ্যাপ্লিকেশনগুলির উপর প্রথম কর্মশালার কার্যক্রম, 2002।

— সাইকোরাক্স মনিকাকে রিইনস্টেট বলে
সূত্র

ধন্যবাদ, এটি একটি আকর্ষণীয় পড়া। ও (এলএন লগ (এন)) সময় আপনি কীভাবে পেলেন? ইহা শুনতে ভালো লাগছে. তবে অ্যালগরিদমের বিবরণটি "মিল ম্যাট্রিক্স গঠন করুন" দিয়ে শুরু হয় এবং এটি আমি যতদূর বুঝতে পারছি NxN ম্যাট্রিক্স হবে।

— ড্যানিয়েল দারাবস

@ ড্যানিয়েলডারাবোস জটিলতার বর্ণনা দেওয়া হয়েছে প্র্যাকটিকাল গ্রাফ মাইনিং

— সাইকোরাক্স বলেছেন রিনস্টেট মনিকা

1

একটি ক্রেজি, তবে সম্ভবত কাজ করার পদ্ধতির ক্ষেত্রে ফ্রিকোয়েন্সি ডোমেনে যেতে হতে পারে। " স্পার্স এফএফটি " নামক একটি পাগল / অসুস্থ ফাস্টফুট রয়েছে যেখানে আপনি যত্ন নেওয়ার মোডের সংখ্যা উল্লেখ করেছেন (আপনার 100 টি বৈশিষ্ট্য গণনা করা) এবং তারপরে আপনি কনভলিউশনে কাজ করেন এবং সীমা-সর্বাধিক স্রোতের চেয়ে সন্ধান করেন (সন্ধান করুন) আপনার সংখ্যাগুলির উপরের রেজিস্টারগুলিতে বিট)। এটা হতে যাচ্ছে $O(k \cdot \log{n} )$ কোথায় $k << n$ ।

আপনার কে 100 এবং আপনার এন 1e6 হয়, এটি ক্লাসিক এফএফটির তুলনায় আপনাকে ~ 1e4x গতি দিতে হবে।

আপনার যদি গতিতে আরও 20x প্রয়োজন হয় এবং আপনি ঝুঁকি গ্রহণকারী হন তবে ডোমেনের বিরুদ্ধে সমস্ত সারিকে একত্রিত করার এবং শিখরটির সন্ধান করার পরিবর্তে আপনি সারিগুলির একটি উপসেট বুটস্ট্র্যাপ করতে পারেন।

আপনি যে কলামগুলির পরিমান 50 এর নিচে, বা অন্য কোনও থ্রোসোল্ড যা সারণীর চেয়ে অর্ধেক সংখ্যক সারিগুলির ক্রম অনুসারে সরিয়ে কলামগুলি প্রিফিল্টার করতে পারেন। খুব কমপক্ষে আপনাকে সমস্ত শূন্যের কলামগুলি এবং সমস্ত 1 এর অ-তথ্যমূলক হিসাবে সরিয়ে ফেলতে হবে। সম্পূর্ণ খালি বা পর্যাপ্ত খালি বা সারিগুলির সাথে একই, বা সারিগুলি এত পরিপূর্ণ যে তারা অপ্রাসঙ্গিক।

করণীয়: সিনথেটিক ডেটা ব্যবহার করে আমার এখানে একটি উদাহরণ রাখা উচিত এবং কয়েকটি পদ্ধতির তুলনা করা উচিত।

— EngrStudent
সূত্র

0

আমি কেবল একটি প্রবন্ধ এসেছি যা সরাসরি প্রাসঙ্গিক।

র্যান্ডমাইজড অ্যালগরিদম এবং এনএলপি: উচ্চ গতির বিশেষ্য ক্লাস্টারিংয়ের জন্য স্থানীয় সংবেদনশীল হ্যাশ ফাংশন ব্যবহার করে (রবিচন্দ্রন এট আল, 2005)

এটি আসলে https://github.com/soundcloud/cosine-lsh-join-spark এ বাস্তবায়িত হয়েছে যেখানে আমি এটি পেয়েছি।

এটি স্থানীয় সংবেদনশীল হ্যাশিংয়ের উপর ভিত্তি করে (ইতিমধ্যে অন্যান্য উত্তরে উল্লিখিত)) এটি বৈশিষ্ট্যটির ভেক্টরগুলিকে একটি নিম্ন-মাত্রিক স্থানে হ্রাস করার পরে এটি নিকটতম প্রতিবেশীদের সন্ধানের জন্য দ্রুত হামিং দূরত্বের যোগটি ব্যবহার করে।

— ড্যানিয়েল দারাবস
সূত্র