কার্নেলাইজড এসভিএমগুলির জন্য গ্রেডিয়েন্ট বংশদ্ভুত কি সম্ভব (যদি তা হয় তবে লোকেরা চতুষ্কোণ প্রোগ্রামিং কেন ব্যবহার করে)?

21

কেন কার্নেলাইজড এসভিএমগুলির সাথে কাজ করার সময় লোকেরা চতুষ্কোণ প্রোগ্রামিং কৌশল (যেমন এসএমও) ব্যবহার করে? গ্রেডিয়েন্ট বংশোদ্ভূত কি সমস্যা? কার্নেলগুলি ব্যবহার করা কি অসম্ভব বা এটি খুব ধীর (এবং কেন?)।

এখানে আরও একটি প্রসঙ্গ এখানে দেওয়া হয়েছে: এসভিএমগুলি আরও ভালভাবে বোঝার চেষ্টা করে, আমি নিম্নলিখিত ব্যয়ের ফাংশনটি ব্যবহার করে লিনিয়ার এসভিএম শ্রেণিবদ্ধকে প্রশিক্ষণের জন্য গ্রেডিয়েন্ট ডেসেন্ট ব্যবহার করেছি:

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$

আমি নিম্নলিখিত স্বরলিপি ব্যবহার করছি:

$\mathbf{w}$ মডেলের বৈশিষ্ট্য ওজন এবং $b$ এর বায়াস প্যারামিটার।
$\mathbf{x}^{(i)}$ হয় $i^\text{th}$ প্রশিক্ষণ উদাহরণস্বরূপ এর বৈশিষ্ট্য ভেক্টর।
$y^{(i)}$ জন্য লক্ষ্য শ্রেণী (-1 বা 1) হল $i^\text{th}$ উদাহরণস্বরূপ।
$m$ হল প্রশিক্ষণের উদাহরণগুলির সংখ্যা।
$C$ নিয়মিতকরণ হাইপারপ্যারামিটার।

আমি এই সমীকরণটি থেকে একটি (উপ) গ্রেডিয়েন্ট ভেক্টর ( $\mathbf{w}$ এবং সাথে সম্মত $b$ ) পেয়েছি এবং গ্রেডিয়েন্ট বংশোদ্ভূত ঠিকঠাক কাজ করেছেন worked

$\mathbf{u}^t \cdot \mathbf{v}$ $K(\mathbf{u}, \mathbf{v})$ $K$ $K(\mathbf{u}, \mathbf{v}) = e^{-\gamma \|\mathbf{u} - \mathbf{v}\|^2}$

যদি খুব ধীর হয়, তবে কেন? ব্যয় ফাংশন উত্তল নয়? অথবা এটি কারণ যে গ্রেডিয়েন্টটি খুব দ্রুত পরিবর্তিত হয় (এটি লিপচিটজ অবিচ্ছিন্ন নয়) তাই অ্যালগরিদম উত্থানের সময় উপত্যকাগুলির ওপারে ঝাঁপিয়ে পড়ে, তাই এটি খুব ধীরে ধীরে রূপান্তরিত হয়? তবুও কীভাবে এটি চতুর্ভুজ প্রোগ্রামিংয়ের সময়ের জটিলতার চেয়ে খারাপ হতে পারে, যা ? ? যদি এটি স্থানীয় মিনিমার কথা হয় তবে স্টোকাস্টিক জিডি কি অনুকরণযুক্ত অ্যানেলিং দিয়ে তাদের কাটিয়ে উঠতে পারে না? $O({n_\text{samples}}^2 \times n_\text{features})$

svm kernel-trick gradient-descent

— MiniQuark
সূত্র

6

সেট করুন যাতে এবং , , যেখানে আসল ইনপুট ম্যাট্রিক্সের ম্যাপিং , । এটি একটিকে প্রাথমিক গঠনের মাধ্যমে এসভিএম সমাধান করতে সহায়তা করে। ক্ষতির জন্য আপনার স্বরলিপি ব্যবহার: $\mathbf w = \phi(\mathbf x)\cdot \mathbf u$ $\mathbf w^t \phi(\mathbf x)=\mathbf u^t \cdot \mathbf K$ $\mathbf w^t\mathbf w = \mathbf u^t\mathbf K\mathbf u$ $\mathbf K = \phi(\mathbf x)^t\phi(\mathbf x)$ $\phi(x)$ $\mathbf x$

J (w, b) = C \sum_{i = 1}^{m} m a x (0, 1 - y^{(i)} (u^{t} \cdot K^{(i)} + b)) + \frac{1}{2} u^{t} \cdot K \cdot u

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{u}^t \cdot \mathbf{K}^{(i)} + b)\right)} + \dfrac{1}{2} \mathbf{u}^t \cdot \mathbf{K} \cdot \mathbf{u}$

$\mathbf{K}$ a হ'ল ম্যাট্রিক্স এবং একটি ম্যাট্রিক্স। উভয়ই অসীম নয়। $m \times m$ $\mathbf{u}$ $m \times 1$

প্রকৃতপক্ষে, দ্বৈতটি সমাধানের জন্য সাধারণত দ্রুত হয়, তবে প্রাথমিকের পাশাপাশি এর সুবিধাগুলি যেমন আনুমানিক সমাধান (যা দ্বৈত গঠনে নিশ্চিত নয়)।

এখন, দ্বৈত এত বেশি বিশিষ্ট কেন তা স্পষ্ট নয়: [1]

দ্বৈত অপ্টিমাইজেশন সম্পর্কে গত দশকে যে বেশিরভাগ গবেষণা হয়েছে তার .তিহাসিক কারণগুলি অস্পষ্ট । আমরা বিশ্বাস করি যে এটি কারণেই এসভিএমগুলি তাদের হার্ড মার্জিন গঠনের মধ্যে প্রথম প্রবর্তিত হয়েছিল [বোসর এট আল।, 1992], যার জন্য দ্বৈত অপ্টিমাইজেশন (বাধাগুলির কারণে) আরও স্বাভাবিক বলে মনে হয়। তবে সাধারণভাবে, প্রশিক্ষণের ডেটা পৃথকযোগ্য হলেও নরম মার্জিন এসভিএমগুলিকে অগ্রাধিকার দেওয়া উচিত: সিদ্ধান্তের সীমানা আরও দৃ is় কারণ আরও প্রশিক্ষণ পয়েন্টগুলি বিবেচনায় নেওয়া হয় [চ্যাপেল এট আল।, 2000]

চ্যাপেল (2007) আদিম এবং দ্বৈত অপটিমাইজেশনের উভয় সময়ের জটিলতা , সবচেয়ে খারাপ ক্ষেত্রে being , তবে তারা চতুর্ভুজ এবং আনুমানিক কব্জা ক্ষতি বিশ্লেষণ করেছেন, তাই সঠিক কব্জা ক্ষতি নয়, কারণ এটি নিউটনের পদ্ধতির সাথে ব্যবহার করা পৃথক নয়। $\mathcal{O}\left(nn_{sv} + n_{sv}^3\right)$ $\mathcal{O}\left(n^3\right)$

_{[1] চ্যাপেল, ও। (2007) প্রাথমিক একটি সমর্থন ভেক্টর মেশিন প্রশিক্ষণ। নিউরাল গণনা, 19 (5), 1155-1178।}

— ফায়ারবাগকে
সূত্র

1

+1 আপনি হয়ত সময় জটিলতায়ও প্রসারিত করতে পারেন

— seanv507

@ Seanv507 ধন্যবাদ, সত্যিই আমার এটিকে সম্বোধন করা উচিত ছিল, আমি শীঘ্রই এই উত্তরটি আপডেট করব।

— ফায়ারব্যাগ

4

আমরা যদি সমস্ত ইনপুট ওজন ভেক্টরগুলিতে ( ) একটি রূপান্তর প্রয়োগ করি তবে আমরা নিম্নলিখিত ব্যয়ের ক্রিয়াটি পাই: $\phi$ $\mathbf{x}^{(i)}$

$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$

কার্নেল ট্রিক দ্বারা প্রতিস্থাপন করে । যেহেতু ওজন ভেক্টর হয় না রুপান্তরিত, কার্নেল কৌতুক উপরে খরচ ফাংশন প্রয়োগ করা যাবে না । $\phi(\mathbf{u})^t \cdot \phi(\mathbf{v})$ $K(\mathbf{u}, \mathbf{v})$ $\mathbf{w}$

উপরের ব্যয়ের কাজটি এসভিএম উদ্দেশ্যটির প্রাথমিক ফর্মের সাথে মিলে যায়:

$\underset{\mathbf{w}, b, \mathbf{\zeta}}\min{C \sum\limits_{i=1}^m{\zeta^{(i)}} + \dfrac{1}{2}\mathbf{w}^t \cdot \mathbf{w}}$

সাপেক্ষে এবং জন্য $y^{(i)}(\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b) \ge 1 - \zeta^{(i)})$ $\zeta^{(i)} \ge 0$ $i=1, \cdots, m$

দ্বৈত ফর্ম হল:

$\underset{\mathbf{\alpha}}\min{\dfrac{1}{2}\mathbf{\alpha}^t \cdot \mathbf{Q} \cdot \mathbf{\alpha} - \mathbf{1}^t \cdot \mathbf{\alpha}}$

সাপেক্ষে এবং জন্য $\mathbf{y}^t \cdot \mathbf{\alpha} = 0$ $0 \le \alpha_i \le C$ $i = 1, 2, \cdots, m$

যেখানে 1s পূর্ণ ভেক্টর এবং an একটি ম্যাট্রিক্স যা উপাদানগুলি । । $\mathbf{1}$ $\mathbf{Q}$ $m \times m$ $Q_{ij} = y^{(i)} y^{(j)} \phi(\mathbf{x}^{(i)})^t \cdot \phi(\mathbf{x}^{(j)})$

এখন আমরা মতো গণনা করে কার্নেল ট্রিকটি ব্যবহার করতে পারি : $Q_{ij}$

$Q_{ij} = y^{(i)} y^{(j)} K(\mathbf{x}^{(i)}, \mathbf{x}^{(j)})$

সুতরাং কার্নেল ট্রিকটি কেবলমাত্র এসভিএম সমস্যার দ্বৈত রূপে ব্যবহার করা যেতে পারে (আরও কিছু অ্যালগরিদম যেমন লজিস্টিক রিগ্রেশন)।

এখন আপনি এই সমস্যাটি সমাধানের জন্য অফ-দ্য শেল্ফ কোয়াড্র্যাটিক প্রোগ্রামিং লাইব্রেরিগুলি ব্যবহার করতে পারেন, বা লাগামহীন বহুগুণককে একটি অনিয়ন্ত্রিত ফাংশন (দ্বৈত ব্যয় ফাংশন) পেতে ব্যবহার করতে পারেন, তারপরে গ্রেডিয়েন্ট বংশোদ্ভূত বা অন্য কোনও অপ্টিমাইজেশন কৌশল ব্যবহার করে ন্যূনতম সন্ধান করুন। সর্বাধিক দক্ষ পদ্ধতির একটি libsvmহ'ল লাইব্রেরি দ্বারা প্রয়োগ করা এসএমও অ্যালগরিদম বলে মনে হয় (কার্নেলাইজড এসভিএমের জন্য)।

— MiniQuark
সূত্র

1

আপনি কেন আপনার উত্তরটি সম্প্রদায় উইকি চিহ্নিত করেছেন তা আমি নিশ্চিত নই। এটি আপনার প্রশ্নের যথাযথ বৈধ উত্তরের মতো বলে মনে হচ্ছে।

— সাইকোরাক্স মনিকাকে

ধন্যবাদ @ জেনারালআব্রিয়াল প্রশ্ন জিজ্ঞাসার আগে আমি উত্তরটি জানতাম এমন সন্দেহ এড়াতে আমি আমার উত্তরটিকে সম্প্রদায় উইকি হিসাবে চিহ্নিত করেছি।

— MiniQuark

1

আপনি যা সঠিক মনে করেন তা সবসময় করা উচিত তবে আপনার নিজের প্রশ্ন জিজ্ঞাসা করা এবং উত্তর দেওয়া একেবারে কোশার।

— সাইকোরাক্স মনিকাকে

অপেক্ষা করুন, আপনি ওজন ভেক্টরকে রূপান্তর করতে পারেন না যাতে এবং , , এবং তারপরে নমুনা ওজনকে অনুকূলিতকরণ করুন ?

w = ϕ (x) \cdot u

$\mathbf w = \phi(x)\cdot \mathbf u$

w^{t} ϕ (x) = u \cdot K

$\mathbf w^t \phi(x)=\mathbf u \cdot \mathbf K$

w^{t} w = u^{t} K u

$\mathbf w^t\mathbf w = \mathbf u^t\mathbf K\mathbf u$

K = ϕ^{t} ϕ

$\mathbf K = \phi^t\phi$

u

$\mathbf u$

— ফায়ারব্যাগ

2

আমি ভুল হতে পারি, তবে আমি কীভাবে বিন্দু পণ্যগুলিকে দ্বৈত সমস্যায় পরিণত না করে কার্নেলের সাথে কীভাবে প্রতিস্থাপন করতে পারি তা দেখছি না।

কার্নেলগুলি ইনপুটটিকে কিছু বৈশিষ্ট্যযুক্ত স্থানে ম্যাপ করে যেখানে হয়ে যায় , ক্ষতির ক্রিয়াটি তখন যদি গাউশিয়ান কার্নেল প্রয়োগ করা হয়, অবিরাম থাকবে মাত্রা, তাই হবে । $x$ $\phi(x)$
$J(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \phi(\mathbf{x}^{(i)}) + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w}$
$\phi(\mathbf{x}^{(i)})$ $\mathbf{w}$

সরাসরি গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে অসীম মাত্রার কোনও ভেক্টরকে অনুকূলকরণ করা কঠিন বলে মনে হচ্ছে।

আপডেট
ফায়ারব্যাগের উত্তর প্রাথমিক সূচনায় ডট পণ্যগুলি কার্নেলের সাথে প্রতিস্থাপনের একটি উপায় দেয়।

— dontloo
সূত্র