নিকটতম প্রতিবেশীরা খুব উচ্চ মাত্রিক ডেটা অনুসন্ধান করে

17

আমার কাছে ব্যবহারকারীরা এবং তাদের পছন্দ মতো আইটেমগুলির একটি বিশাল স্পার্স ম্যাট্রিক্স রয়েছে (খুব কম মাত্রার স্পারসিটি সহ 1M ব্যবহারকারী এবং 100K আইটেমের ক্রমে)। আমি যে পদ্ধতিতে আমি এতে কেএনএন অনুসন্ধান করতে পারি তা অন্বেষণ করছি। আমার ডেটাসেটের আকার এবং আমি সম্পাদিত কিছু প্রাথমিক পরীক্ষাগুলি দেওয়া, আমার ধারনা হ'ল যে পদ্ধতিটি আমি ব্যবহার করব তা হয় সমান্তরাল বা বিতরণ করা দরকার। সুতরাং আমি সম্ভাব্য সমাধানের দুটি শ্রেণি বিবেচনা করছি: একটি যা একটি একক মাল্টিকোর মেশিনে (বা যুক্তিসঙ্গত সহজ উপায়ে কার্যকরযোগ্য), অন্যটি স্পার্ক ক্লাস্টারে, অর্থাৎ ম্যাপ্রেডস প্রোগ্রাম হিসাবে। এখানে আমি তিনটি বিস্তৃত ধারণা বিবেচনা করেছি:

কোজিনের অনুরূপ মেট্রিক ধরে, তার ট্রান্সপোজ দ্বারা সাধারণ ম্যাট্রিক্সের পূর্ণ গুণটি সম্পাদন করুন (বাহ্যিক পণ্যের যোগফল হিসাবে প্রয়োগ করা হয়)
লোকালটি-সংবেদনশীল হ্যাশিং (এলএসএইচ) ব্যবহার করে
প্রথমে একটি পিসিএ দিয়ে সমস্যার মাত্রিকতা হ্রাস করা

আমি এই সমস্যাটি মোকাবিলা করার সম্ভাব্য অন্যান্য উপায় সম্পর্কে কোনও চিন্তাভাবনা বা পরামর্শকে প্রশংসা করব।

— cjauvin
সূত্র

1

আমি এই অঞ্চলটি সবেমাত্র অনুসন্ধান করেছি এবং আমি যা পেয়েছি সে সম্পর্কে একটি ব্লগ পোস্ট লিখেছি। আমি একটি এলএসএইচ ব্যবহার করেছি, তবে আমার মনে হয় আমার স্পারসিটি স্তরটি আপনি যা খুঁজছেন তার চেয়ে বেশি ছিল। tttv-engineering.tumblr.com/post/109569205836/…

— ফিলিপ পার্ল

15

আমি আশা করি যে নিম্নলিখিত সংস্থানগুলি সমস্যাগুলি সমাধানের আপনাকে অতিরিক্ত ধারণা পেতে পারে :

1) গবেষণা পত্র "দক্ষ কে-নিকটতম প্রতিবেশী উচ্চ মাত্রিক স্পার্স ডেটার জন্য অ্যালগরিদমে যোগদান করুন" : http://arxiv.org/abs/1011.2807

2) ক্লাস প্রকল্পের কাগজ "সহযোগী ফিল্টারিংয়ের উপর ভিত্তি করে সুপারিশ সিস্টেম" (স্ট্যানফোর্ড বিশ্ববিদ্যালয়): http://cs229.stanford.edu/proj2008/ বেসডঅনকল্যাবরেটফিলারিং.পিডিএফ

3) নেটফ্লিক্স পুরষ্কার প্রতিযোগিতার প্রকল্প ( কে-এনএন- ভিত্তিক) : http://cs.carleton.edu/cs_comps/0910/netflixprize/final_results/knn/index.html

৪) গবেষণামূলক গবেষণাপত্র "মহাশূন্যে হাবস: উচ্চ মাত্রিক তথ্যগুলিতে জনপ্রিয় নিকটতম প্রতিবেশী" সাধারণ মাত্রায় এবং কে-এনএন অ্যালগরিদমকে মেশিন লার্নিংয়ের সাথে সম্পর্কিত সম্পর্কে অভিশাপ দেয় on , বিশেষ: http://jmlr.org /papers/volume11/radovanovic10a/radovanovic10a.pdf

5) স্পার্স কে-এনএন শ্রেণিবদ্ধকরণের জন্য সফ্টওয়্যার (বিনামূল্যে, তবে এটি মুক্ত উত্স হিসাবে উপস্থিত নয় - এটি লেখকদের সাথে স্পষ্ট করে দিতে পারে): http://www.autonlab.org/autonweb/10408.html

6) বেশ কিছু আলোচনা থ্রেড উপর Stackoverflow :

/programming/20333092/knn-with-big-sparse-matrices-in-python
/programming/18164348/efficient-nearest-neighbour-search-for-sparse-matrices
/programming/21085990/scipy-sparse-distance-matrix-scikit-or-scipy
/programming/10472681/handling-incomplete-data-data-sparsity-in-knn
/programming/5560218/computing-sparse-pairwise-distance-matrix-in-r (পূর্ববর্তী সমস্ত আলোচনার বিপরীতে, যা Pythonএটিকে Rবাস্তুতন্ত্রকে বোঝায় )

)) গ্রাফ ল্যাবকে মনোযোগ দিন , মেশিন লার্নিংয়ের জন্য একটি মুক্ত উত্স সমান্তরাল কাঠামো ( http://select.cs.cmu.edu/code/ographiclab ), যা সমান্তরাল ক্লাস্টারিংয়ের মাধ্যমে সমর্থন করেMapReduce মডেলের : http: //select.cs.cmu। EDU / কোড / graphlab / clustering.html

আপনি আমার উত্তর এখানে প্রাসঙ্গিক প্যাকেজ এবং পৃষ্ঠাগুলির লিঙ্কগুলির জন্য বিরল রিগ্রেশন সম্পর্কিত ডেটা সায়েন্স স্ট্যাকএক্সচেঞ্জেও যাচাই করতে পারেন: https : //datasज्ञान.stackexchange.com/a/918/2452 ।RCRAN Task View

— আলেকসান্দার ব্লেক
সূত্র

4

আপনি যদি সহযোগী ফিল্টারিংয়ের উপর কাজ করে থাকেন তবে আপনার সমস্যাটি নিম্ন-স্তরের ম্যাট্রিক্স আনুমানিক হিসাবে চিহ্নিত করা উচিত, যেখানে উভয় ব্যবহারকারীই আইটেম একই স্বল্প-মাত্রিক জায়গাতে সহ-এম্বেড থাকে। সাদৃশ্য অনুসন্ধান তখন অনেক সহজ হবে। আপনার পরামর্শ অনুসারে আমি এলএসএইচ ব্যবহারের পরামর্শ দিচ্ছি। মাত্রিক মাত্রা হ্রাসের জন্য আর একটি ফলপ্রসূ অ্যাভিনিউ হ'ল এলোমেলো অভিক্ষেপ ।

— Emre
সূত্র

1

আপনার ব্যবহার করা উচিত: পাইপ স্প্যানএন , অজগরে ফেসবুকের সাম্প্রতিক বাস্তবায়ন যা রক্তাক্ত দ্রুত। এটি ব্যবহার করাও সহজ।

— Syzygyyy
সূত্র