লজিস্টিক রিগ্রেশনের জন্য কোন ক্ষতির ফাংশন সঠিক?


31

আমি লজিস্টিক রিগ্রেশন এর জন্য ক্ষতির ফাংশনের প্রায় দুটি সংস্করণ পড়েছি, এর মধ্যে কোনটি সঠিক এবং কেন?

  1. থেকে মেশিন লার্নিং , ঝু zh (চীনা ভাষায়), সঙ্গে :β=(w,b) and βTx=wTx+b

    (1)l(β)=i=1m(yiβTxi+ln(1+eβTxi))

  2. আমার কলেজ কোর্স থেকে :zi=yif(xi)=yi(wTxi+b)

    (2)L(zi)=log(1+ezi)


আমি জানি যে প্রথমটি সমস্ত নমুনার সংশ্লেষ এবং দ্বিতীয়টি একক নমুনার জন্য, তবে দুটি ক্ষতির ফাংশনের আকারে পার্থক্য সম্পর্কে আমি আরও আগ্রহী। একরকম আমার মনে হয় যে তারা সমান are

উত্তর:


31

সম্পর্কটি নিম্নরূপ: ।l(β)=iL(zi)

হিসাবে একটি লজিস্টিক ফাংশন নির্ধারণ। তারা সম্পত্তি ভোগদখল যে । বা অন্য কথায়: এফ(-জেড)=1-(জেড)f(z)=ez1+ez=11+ezf(z)=1f(z)

11+ez=ez1+ez.

আপনি যদি উভয় পক্ষের সদৃশ গ্রহণ করেন, তবে আপনি যে লগ পান তা গ্রহণ করুন:

ln(1+ez)=ln(1+ez)+z.

উভয় পক্ষ থেকে বিয়োগ করুন এবং আপনার এটি দেখতে হবে:z

yiβTxi+ln(1+eyiβTxi)=L(zi).

সম্পাদনা:

এই মুহুর্তে আমি এই উত্তরটি পুনরায় পড়ছি এবং আমি কীভাবে সমান হতে পারি তা সম্পর্কে । সম্ভবত আসল প্রশ্নে একটি টাইপ রয়েছে।- y i β T x i + l n ( 1 + e y i β T x i )yiβTxi+ln(1+eβTxi)yiβTxi+ln(1+eyiβTxi)

সম্পাদনা 2:

মূল প্রশ্নে টাইপো ছিল না এমন ক্ষেত্রে, @ ম্যানেলমোরালস এই বিষয়টির দিকে দৃষ্টি আকর্ষণ করার জন্য সঠিক বলে মনে হচ্ছে যে, যখন , , সম্ভাব্য ভর ফাংশন হিসাবে লেখা যেতে পারে , এর সম্পত্তি থাকার কারণে । আমি এখানে এটি আবার আলাদাভাবে লিখছি, কারণ তিনি স্বরলিপিটিতে একটি নতুন সমঝোতার পরিচয় দিয়েছেন । বাকিগুলি প্রতিটি কোডিংয়ের জন্য নেতিবাচক লগ-সম্ভাবনা গ্রহণ করে অনুসরণ করে । আরও তথ্যের জন্য নীচে তার উত্তর দেখুন।P ( Y i = y i ) = f ( y i β T x i ) f ( - z ) = 1 - f ( z ) z i yy{1,1}P(Yi=yi)=f(yiβTxi)f(z)=1f(z)ziy


42

ওপি ভুল করে বিশ্বাস করে যে এই দুটি ফাংশনের মধ্যে সম্পর্ক নমুনার সংখ্যার কারণে (যেমন একক বনাম সমস্ত)। তবে, আসল পার্থক্যটি হ'ল আমরা কীভাবে আমাদের প্রশিক্ষণ লেবেলগুলি নির্বাচন করি।

বাইনারি শ্রেণিবিন্যাসের ক্ষেত্রে আমরা লেবেলগুলি বা নির্ধারণ করতে পারি ।y=±1y=0,1

যেমনটি ইতিমধ্যে বলা হয়েছে, লজিস্টিক ফাংশন একটি ভাল পছন্দ কারণ এটির সম্ভাবনার রূপ রয়েছে, যেমন ie এবং যেমন । যদি আমরা লেবেলগুলি চয়ন করি তবে আমরা নির্ধারিত করতে পারি σ(z)σ(z)=1σ(z)σ(z)(0,1)z±y=0,1

P(y=1|z)=σ(z)=11+ezP(y=0|z)=1σ(z)=11+ez

যা প্রায়ই কষে লেখা যেতে পারে যেমন ।P(y|z)=σ(z)y(1σ(z))1y

লগ-সম্ভাবনা সর্বাধিক করা সহজ। লগ-সম্ভাবনা সর্বাধিক করা নেতিবাচক লগ-সম্ভাবনা হ্রাস করার সমান। জন্য নমুনা , স্বাভাবিক লগারিদম এবং কিছু সরলীকরণ করার পর আমরা খুঁজে বের করতে হবে:m{xi,yi}

l(z)=log(imP(yi|zi))=imlog(P(yi|zi))=imyizi+log(1+ezi)

সম্পূর্ণ ডেরাইভেশন এবং অতিরিক্ত তথ্য এই বৃহত্তর নোটবুকটিতে পাওয়া যাবে । অন্যদিকে, আমরা এর পরিবর্তে লেবেল ব্যবহার করতে পারি । এটি তখন বেশ স্পষ্ট যে আমরা নির্ধারণ করতে পারিy=±1

P(y|z)=σ(yz).

এটিও স্পষ্ট যে । এই ক্ষেত্রে ক্ষতি ফাংশনটি হ্রাস করার আগে আমাদের একই পদক্ষেপ অনুসরণ করা FollowingP(y=0|z)=P(y=1|z)=σ(z)

L(z)=log(jmP(yj|zj))=jmlog(P(yj|zj))=jmlog(1+eyzj)

নেতিবাচক চিহ্ন দ্বারা উত্সাহিত যা পরস্পরকে গ্রহণের পরে যেখানে শেষ পদক্ষেপটি অনুসরণ করবে। যদিও আমাদের এই দুটি রূপকে সমীকরণ করা উচিত নয়, প্রতিটি ফর্মের মধ্যে বিভিন্ন মান গ্রহণ করে তা সত্ত্বেও এই দুটি সমতুল্য:y

yizi+log(1+ezi)log(1+eyzj)

কেস দেখানোর জন্য তুচ্ছ হয়। যদি , তবে বাম দিকে এবং ডানদিকে ।yi=1yi1yi=0yi=1

যদিও আমাদের দুটি ভিন্ন রূপ রয়েছে তা সম্পর্কে মৌলিক কারণ থাকতে পারে (দেখুন কেন দুটি ভিন্ন লজিস্টিক লোকসান সূচনা / স্বরলিপি রয়েছে? ), প্রাক্তনটিকে বেছে নেওয়ার একটি কারণ ব্যবহারিক বিবেচনার জন্য। পূর্ববর্তী ক্ষেত্রে আমরা তুচ্ছভাবে গণনা করতে এবং করতে পারি , উভয়ই রূপান্তর বিশ্লেষণের জন্য প্রয়োজন (অর্থাত্ হেসিয়ান গণনা করে ক্ষতির কার্যকারিতাটি নির্ধারণ করার জন্য )।σ(z)/z=σ(z)(1σ(z))l(z)2l(z)


লজিস্টিক ক্ষতি ফাংশন উত্তল?
ব্যবহারকারী 85361

2
লগ রেজি আইএস উত্তল, তবে pha কনভেক্স নয়। সুতরাং আমরা গ্রেডিয়েন্ট বংশোদ্ভূত রূপান্তর করতে কত সময় নেয় তার কোনও সীমাবদ্ধ রাখতে পারি না। আমরা আকারে নিয়ন্ত্রন করতে পারেন ইতিবাচক ধ্রুবক সঙ্গে: একটি নিয়মিতকরণ শব্দটি যোগ করে এটা দৃঢ়ভাবে উত্তল করতে হতে আমাদের নতুন ফাংশন নির্ধারণ ম হয় -strongly উত্তল এবং এখন আমরা অভিসৃতি বাউন্ড প্রমাণ করতে পারেন । দুর্ভাগ্যক্রমে, আমরা এখন একটি আলাদা ফাংশন হ্রাস করছি! ভাগ্যক্রমে, আমরা এটি দেখতে পারি যে নিয়মিত ফাংশনটির সর্বোত্তম মানটির মূলের সর্বোত্তম মানের কাছাকাছি। α ll(z)αl' ( z- র ) = ( z- র ) + + λ z- র 2 ' ( z- র ) λ 'λl(z)=l(z)+λz2l(z)λl
ম্যানুয়েল মোড়ালেস

আপনি যে নোটবুকটি উল্লেখ করেছেন তা চলে গেছে, আমি আরও একটি প্রমাণ পেয়েছি: স্ট্যাটিকালট
ফান্ডামেন্টালস-

2
আমি এটি সবচেয়ে সহায়ক উত্তর বলে মনে করেছি।
mohit6up

@ ম্যানুয়েলমোরালস নিয়মিত ফাংশনটির সর্বোত্তম মানটি আসলের কাছাকাছি থাকার সাথে আপনার কি কোনও লিঙ্ক রয়েছে?
চিহ্নিত করুন

19

আমি নিম্নলিখিত হিসাবে লজিস্টিক রিগ্রেশন জন্য ক্ষতি ফাংশন শিখেছি।

লজিস্টিক রিগ্রেশন বাইনারি শ্রেণিবদ্ধকরণ সম্পাদন করে, এবং তাই লেবেল আউটপুটগুলি বাইনারি হয়, 0 বা 1। বাইনারি আউটপুট এর ইনপুট বৈশিষ্ট্য ভেক্টর প্রদত্ত হওয়ার সম্ভাবনা হতে দেয় । গুণাগুণগুলি ওজন যা আলগোরিদিম শিখার চেষ্টা করছে।y এক্স ডাব্লুP(y=1|x)yxw

P(y=1|x)=11+ewTx

কারণ লজিস্টিক রিগ্রেশন বাইনারি, সম্ভাবনা কেবলমাত্র উপরের শব্দটি 1 বিয়োগ করে।P(y=0|x)

P(y=0|x)=111+ewTx

ক্ষতি ফাংশন (ক) আউটপুট এর সমষ্টি দ্বারা গুন এবং (খ) আউটপুট দ্বারা গুন এক প্রশিক্ষণ উদাহরণস্বরূপ, সংকলিত ওভার প্রশিক্ষণের উদাহরণ।y = 1 পি ( y = 1 ) y = 0 পি ( y = 0 ) মিJ(w)y=1P(y=1)y=0P(y=0)m

J(w)=i=1my(i)logP(y=1)+(1y(i))logP(y=0)

যেখানে আপনার প্রশিক্ষণ ডেটাতে লেবেল নির্দেশ করে । একটি প্রশিক্ষণ ইনস্ট্যান্সের একটি লেবেল থাকে , তারপর , জায়গায় বাম summand যাব কিন্তু সাথে সঠিক summand উপার্জন পরিণত । অন্যদিকে, যদি কোনও প্রশিক্ষণের উদাহরণে , তবে with পদটি সহ ডান সমান স্থানে থাকে তবে বাম সারসংক্ষেপ । লগ সম্ভাবনা গণনা স্বাচ্ছন্দ্যের জন্য ব্যবহৃত হয়। i t h 1 y ( i ) = 1 1 - y ( i ) 0 y = 0 1 - y ( i ) 0y(i)ith1y(i)=11y(i)0y=01y(i)0

এরপরে যদি আমরা পূর্বের এক্সপ্রেশনগুলির সাথে এবং প্রতিস্থাপন করি তবে আমরা পাই:পি ( y = 0 )P(y=1)P(y=0)

J(w)=i=1my(i)log(11+ewTx)+(1y(i))log(111+ewTx)

এই স্ট্যানফোর্ডের বক্তৃতা নোটগুলিতে আপনি এই ফর্মটি সম্পর্কে আরও পড়তে পারেন ।


এই উত্তরটি এখানে কিছু প্রাসঙ্গিক দৃষ্টিভঙ্গিও সরবরাহ করে।
জিওম্যাটট 22

6
আপনার যে অভিব্যক্তিটি রয়েছে তা ক্ষতি (ক্ষুদ্রতর করা) নয়, বরং লগ-সম্ভাবনা (সর্বাধিক করা)।
xenocyon

2
@xenocyon সত্য - এই একই সূত্রটি সাধারণত সম্পূর্ণ সংশ্লেষের জন্য প্রয়োগ করা নেতিবাচক চিহ্ন সহ লেখা হয়।
অ্যালেক্স ক্লিবিজ

1

মিড স্কোয়ার ত্রুটির পরিবর্তে, আমরা ক্রস-এন্ট্রপি নামে একটি ব্যয় ফাংশন ব্যবহার করি, এটি লগ লস নামেও পরিচিত। ক্রস-এনট্রপি ক্ষতি দুটি পৃথক ব্যয় ফাংশনে বিভক্ত করা যেতে পারে: একটি y = 1 এর জন্য এবং একটি y = 0 এর জন্য।

j(θ)=1mi=1mCost(hθ(x(i)),y(i))Cost(hθ(x),y)=log(hθ(x))if y=1Cost(hθ(x),y)=log(1hθ(x))if y=0

যখন আমরা তাদের একসাথে রাখি:

j(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x)(i))]

উপরের সমীকরণে এবং দ্বারা গুণন করা একটি চঞ্চল কৌশল যা আসুন এবং উভয়ের ক্ষেত্রে সমাধান করার জন্য একই সমীকরণটি ব্যবহার করি । যদি তবে প্রথম দিকটি বাতিল হয়ে যায়। যদি , দ্বিতীয় পক্ষটি বাতিল হয়ে যায়। উভয় ক্ষেত্রেই আমরা কেবল অপারেশনটি সম্পাদন করি যা আমাদের সম্পাদন করা প্রয়োজন।y(1y)y=1y=0y=0y=1

যদি আপনি কোনও forলুপ ব্যবহার করতে না চান তবে আপনি উপরের সমীকরণের একটি ভেক্টরাইজড ফর্ম চেষ্টা করতে পারেন

h=g(Xθ)J(θ)=1m(yTlog(h)(1y)Tlog(1h))

পুরো ব্যাখ্যাটি মেশিন লার্নিং চিটশিটে দেখা যেতে পারে ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.