লম্বা ফ্যাট ডেটা সহ শ্রেণিবদ্ধকরণ


15

কয়েক হাজার ডেটা পয়েন্ট এবং প্রায় দশ হাজার বৈশিষ্ট্য সহ আমার ল্যাপটপে লিনিয়ার শ্রেণিবদ্ধের প্রশিক্ষণ নেওয়া দরকার। আমার বিকল্পগুলি কি? এই ধরণের সমস্যার জন্য শিল্পের অবস্থা কী?

দেখে মনে হচ্ছে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত দিকনির্দেশক, এবং আমার বোধ হয় এটি এই শিল্পের অবস্থা:

"পেগাসোস: এসভিএমের জন্য প্রাথমিক অনুমানযুক্ত সাব-গ্রাডিয়েন্ট সলভার" শাই শ্যালেভ-শোয়ার্টজ, ইওরাম সিঙ্গার, নাথান স্রেব্রো, অ্যান্ড্রু কোটার। "গাণিতিক প্রোগ্রামিং, সিরিজ বি, 127 (1): 3-30, বছর: 2007।"

এটি কি sensকমত্য? আমার কি অন্য কোনও দিকে তাকাতে হবে?


1
আপনি কিছু মাত্রা হ্রাস পদ্ধতি ব্যবহার বিবেচনা করেছেন? হাজার হাজার বৈশিষ্ট্য একটি মাত্রা হ্রাস করার আহ্বান জানায়: en.wikedia.org/wiki/Dimesion_reduction
ডভ

গবেষণার প্রচেষ্টা নিয়ে এই প্রশ্নটি উন্নত হতে পারে। আপনার মনে কি কোনও কৌশল আছে?
তামজিন ব্লেক

@ থম ব্লেক: আমি আমার চিন্তাভাবনা নিয়ে প্রশ্নটি কিছুটা সম্পাদনা করেছি।
carlosdc

তথ্য সম্পর্কে আরও না জেনে কোনও উত্তর অজ্ঞাতসারে হবে। এটা কি বিরল? একটানা? বিযুক্ত? অপ্রয়োজনীয় বৈশিষ্ট্য / বস্তু? কত ক্লাস? উদাহরণস্বরূপ, বিরল ডেটার উপর পিসিএ কখনও কখনও ক্ষতিকারক হতে পারে।
সাইবার্গ

2
লম্বা = অনেক পিটিএস? ফ্যাট = অনেক বৈশিষ্ট্য? এই স্ট্যান্ডের পরিভাষাটি কোথাও রেফ ব্যবহার করা হয়?

উত্তর:


6

আমি মনে করি আপনার অনলাইন শিখন পদ্ধতিগুলি দেখা উচিত । Perceptron ও কার্নেল perceptron কোড এবং কাজ অত্যন্ত ভাল অনুশীলন অত্যন্ত সহজ, এবং অন্যান্য অনলাইন পদ্ধতি একটি সম্পূর্ণ হোস্ট আছে। নোট করুন যে কোনও অনলাইন শেখার পদ্ধতি ব্যাচ লার্নিং অ্যালগরিদমে রূপান্তরিত হতে পারে, এক্ষেত্রে তারা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতির সাথে সান্নিধ্যপূর্ণ।

আপনি মতলব ব্যবহার করেন, তাহলে সেখানে একটি সত্যিই চমৎকার টুলবক্স নামক মতবাদ ফ্রান্সিসকো Orabona, যা অনলাইন লার্নিং আলগোরিদিম একটি সীমার রয়েছে, এবং আপনি যে ব্যবহার করে একটি কয়েক বিভিন্ন পদ্ধতি মূল্যায়ন করতে পারেন। আমি এটি আমার কিছু গবেষণায় এটি ব্যবহার করেছি এবং এটি খুব দরকারী বলে খুঁজে পেয়েছি (মনে রাখবেন যতদূর আমি মনে করি এটি ডেটা প্রত্যাশা করে [বৈশিষ্ট্যগুলির x উদাহরণ] যাতে আপনাকে এটি স্থানান্তর করতে হতে পারে)।

2ϵ2


7

প্রথমত, আমি আপনাকে জিজ্ঞাসা করতে চাই যে আপনি কীভাবে জানেন যে লিনিয়ার শ্রেণিবদ্ধ সেরা পছন্দ? স্বজ্ঞাতভাবে এত বড় স্থানের জন্য (আর ^ 10000) এটি সম্ভব যে অন্য কিছু লিনিয়ার শ্রেণিবদ্ধকারী আরও ভাল পছন্দ।

আমি আপনাকে বেশ কয়েকটি ভিন্ন শ্রেণিবদ্ধের চেষ্টা করার এবং পূর্বাভাস ত্রুটিগুলি পর্যবেক্ষণ করার পরামর্শ দিই (আমি বেশ কয়েকটি নিয়মিত শ্রেণিবদ্ধকরণের মডেল চেষ্টা করব)।

আপনার স্মৃতিশক্তি শেষ হয়ে না থাকলে পিসিএ ব্যবহার করে মাত্রা হ্রাস করুন


2
ধন্যবাদ। আমি কীভাবে সমস্যার স্কেল পরিচালনা করব সে সম্পর্কে আরও ভাবছিলাম। আমি লিনিয়ার করে শুরু করতে চেয়েছিলাম, কারণ এটি সহজ। আমি মনে করি আপনি কার্নেল ভিত্তিক পদ্ধতিটি প্রস্তাব করেন। আমাকে কেবল উল্লেখ করতে দিন যে আমার কাছে 750000 ডেটাপয়েন্ট থাকলে কার্নেল ম্যাট্রিক্সের আকার 540 জিবি হবে। সুতরাং উত্তরটি হতে পারে না: এটি এলআইবিএসভিএম / এসভিএমএলাইট / ইত্যাদি এ প্লাগ ইন করুন একটি ভাল সি এবং গামা পান এবং আপনি কী পান তা দেখুন।
carlosdc

2
(-১) উত্তরটি ক) আংশিকভাবে জেনেরিক, এটি কোনও শ্রেণিবিন্যাস প্রশ্নের ক্ষেত্রে প্রয়োগ করা যেতে পারে খ) কেন পিসিএর প্রস্তাব দেওয়া হয় তা ব্যাখ্যা করা হয়নি (অন্য কোনও মাত্রা হ্রাস কৌশল)।
স্টিফেন

3

আপনি কোভারিয়েন্স ম্যাট্রিক্স গণনা ছাড়াই মাত্রা হ্রাস করতে পিসিএ ব্যবহার করতে পারেন --- পিসিএর সমতুল্য নিউরটর্ক ব্যবহার করে।

এখানে একটি কাগজ এটি বর্ণিত হয়েছে (তবে আমি আপনাকে নিজের অনুসন্ধান করার পরামর্শ দিই): http://users.ics.tkk.fi/oja/Oja1982.pdf , এবং এখানে এমন কিছু লিঙ্ক রয়েছে যা মাতলাব বাস্তবায়নে কাজ করতে পারে: http : //www.cs.purdue.edu/homes/dgleich/projects/pca_neural_nets_website/index.html


1

জেবি প্রস্তাবিত হিসাবে, আমি মনে করি একটি "মাত্রা হ্রাস" পদ্ধতিটি ব্যবহার করা ভাল। নীতিগত উপাদান উপাদান বিশ্লেষণ (পিসিএ) একটি জনপ্রিয় পছন্দ। এছাড়াও আপনি অকার্যকর বৈশিষ্ট্য শেখার কৌশলগুলিও চেষ্টা করতে পারেন। আনসারভিজড ফিচার লার্নিং সম্পর্কে আরও তথ্যের জন্য http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial এ পাওয়া যাবে


1
পিসিএ পিএসি নয়;) ( 15 টি অক্ষর )
নিউরন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.