ডেটা মাইনিংয়ের নতুন বিপ্লবী উপায়?


21

নিম্নলিখিত অংশটি শোয়েজারের হেজ ফান্ড মার্কেট উইজার্ডস (মে ২০১২) এর ধারাবাহিকভাবে সফল হেজ ফান্ডের ব্যবস্থাপক জাফ্রে উড্রিফের একটি সাক্ষাত্কার:

এই প্রশ্নের উত্তর: "ডেটা মাইনিংয়ের ক্ষেত্রে লোকেদের মধ্যে সবচেয়ে খারাপ ত্রুটিগুলি কী কী?":

প্রচুর লোক মনে করে তারা ঠিক আছে কারণ তারা প্রশিক্ষণের জন্য নমুনা ডেটা এবং পরীক্ষার জন্য নমুনা ছাড়িয়ে ডেটা ব্যবহার করে। তারপরে তারা কীভাবে নমুনা ইন-স্যাম্পল ডেটাতে পারফরম্যান্সের উপর ভিত্তি করে মডেলগুলি বাছাই করে এবং নমুনা ছাড়াই ডেটা পরীক্ষা করার জন্য সেরাগুলি চয়ন করে। মানুষের প্রবণতা হ'ল এমন মডেলগুলি গ্রহণ করা যা নমুনা ছাড়াই ডেটাতে ভাল কাজ করে এবং সেই মডেলগুলিকে ব্যবসায়ের জন্য বেছে নেয়। এই ধরণের প্রক্রিয়াটি কেবলমাত্র নমুনা ছাড়াই ডেটা প্রশিক্ষণের ডেটার অংশে পরিণত করে কারণ এটি নমুনা ছাড়াই সময়ের সেরা মডেলগুলিকে চেরি-পিক করে। এটি লোকেদের মধ্যে করা সবচেয়ে সাধারণ ত্রুটিগুলির মধ্যে একটি এবং এটি সাধারণত ডেটা মাইনিং হিসাবে প্রয়োগ করার কারণে ভয়ঙ্কর ফলাফল পাওয়া যায়।

সাক্ষাত্কারকারীর চেয়ে জিজ্ঞাসা করা হয়নি: "পরিবর্তে আপনার কী করা উচিত?":

আপনি নিদর্শনগুলি সন্ধান করতে পারেন যেখানে গড়ে, নমুনা ছাড়াই সমস্ত মডেল ভাল করতে থাকে। আপনি জানেন যে নমুনার বাইরে থাকা মডেলগুলির গড় যদি ইন-স্যাম্পল স্কোরের একটি উল্লেখযোগ্য শতাংশ হয় you সাধারণভাবে বলতে গেলে, নমুনার বাইরে থাকা ফলাফলগুলি ইন-নমুনার 50 শতাংশের বেশি হলে আপনি সত্যিই কোথাও পাচ্ছেন getting কিএসআইএমের ব্যবসায়িক মডেল কখনই কাজ করতে পারত না যদি এসএএস এবং আইবিএম দুর্দান্ত ভবিষ্যদ্বাণীপূর্ণ মডেলিং সফ্টওয়্যার তৈরি করে।


আমার প্রশ্নগুলি এর
কোনও অর্থ দেয়? সে কি বোঝাচ্ছে? আপনার কি কোনও ক্লু রয়েছে - বা সম্ভবত প্রস্তাবিত পদ্ধতি এবং কিছু রেফারেন্সের একটি নাম? নাকি এই লোকটি পবিত্র কচুকাটি খুঁজে পেয়েছিল আর কেউ বুঝতে পারে না? এমনকি তিনি এই সাক্ষাত্কারে আরও বলেছেন যে তার পদ্ধতিটি সম্ভাব্যভাবে বিজ্ঞানের বিপ্লব ঘটাতে পারে ...


4
তিনি কি কেবল একটি বিভাজন-নমুনা (ট্রেন এবং বৈধকরণ) থেকে ত্রুটিগুলি আলোচনা করছেন এবং নেস্টেড ক্রস বৈধকরণ প্রক্রিয়াটির পক্ষে পরামর্শ দিচ্ছেন না?
বি_মিনার

12
আমি এর থেকে সতর্ক থাকুন হবে যে কেউ কিছু গভীর অন্তর্দৃষ্টি যে, "বিজ্ঞান" বৈপ্লবিক হবে দাবি।
কার্ডিনাল

2
হেজ তহবিল পরিচালকদের "আরও ভাল মডেলিং পদ্ধতির" দাবি করা এবং প্রতিযোগিতার বিষয়ে কিছুটা ট্র্যাশ টকিংয়ের কথা বলা? সেখানে নতুন কিছু নেই।
zbcyclist

2
বাহ, এই প্রশ্নটি এত উপার্জন কেমন হচ্ছে? নমুনা পূর্বাভাসের বাইরে এমন একটি বিষয় যা কোনও প্রবর্তক মেশিন লার্নিং কোর্সের প্রথম দিনেই আলোচিত হয়। এমন অনেকে আছেন যারা নমুনা পূর্বাভাসকে সঠিকভাবে সম্বোধন করেন না, তবে অবশ্যই ভবিষ্যদ্বাণীটির কার্য সম্পর্কে সামান্যতম ধারণা নেই এমন কেউই নেই।
ব্যবহারকারী 4733

ট্রেডিং অবশ্যই একটি সময়-সেরিস সমস্যা, তিনি যা বলছেন তা মনে হয় যে ক্রস-বৈধতা (অবশ্যই জ্ঞাত ডেটা ব্যবহার করে) কাঠামোগত সমস্যাটি সময়ের সাথে পরিবর্তিত হতে পারে না ! সুতরাং এটি পবিত্র গ্রিল নয়। তবে তিনি আসলে যা করছেন তা অনুমান করা যায় না।
কেজেটিল বি হালওয়ারসেন

উত্তর:


6

এটি কি কোনও অর্থবোধ করে ? আংশিক।

সে কি বোঝাচ্ছে? তাকে জিজ্ঞাসা করুন।

আপনার কি কোনও ক্লু রয়েছে - বা সম্ভবত প্রস্তাবিত পদ্ধতি এবং কিছু রেফারেন্সের একটি নাম?

ক্রস বৈধতা. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

নাকি এই লোকটি পবিত্র কচুকাটি খুঁজে পেয়েছিল আর কেউ বুঝতে পারে না? না।

এমনকি তিনি এই সাক্ষাত্কারে আরও বলেছিলেন যে তার পদ্ধতিটি বিজ্ঞানের সম্ভাব্যভাবে বিপ্লব ঘটাতে পারে ... সম্ভবত তিনি এই বক্তব্যের জন্য উল্লেখগুলি অন্তর্ভুক্ত করতে ভুলে গিয়েছিলেন ...


2
ঠিক আছে, কমপক্ষে তিনি একটি সত্য সমস্যার দিকে ইঙ্গিত করছেন ...

8

অন্য কোনও "রেন্টি" প্রতিক্রিয়া হবে কিনা তা নিশ্চিত নই, তবে আমার এখানে।

ক্রস বৈধকরণ কোনওভাবেই "নতুন" নয়। অতিরিক্ত হিসাবে, বিশ্লেষণাত্মক সমাধানগুলি পাওয়া গেলে ক্রস বৈধকরণ ব্যবহার করা হয় না। উদাহরণস্বরূপ আপনি বিটাগুলি অনুমান করার জন্য ক্রস বৈধতা ব্যবহার করেন না, আপনি ওএলএস বা আইআরএলএস বা কিছু অন্যান্য "অনুকূল" সমাধান ব্যবহার করেন।

উদ্ধৃতিতে আমি একটি স্পষ্টরূপে স্পষ্ট ফাঁক হিসাবে যা দেখি তা আসলে "সেরা" মডেলগুলি বোঝার জন্য তা পরীক্ষা করে দেখার কোনও ধারণার কোনও উল্লেখ নেই। সাধারণত, একটি ভাল মডেল কিছু স্বজ্ঞাত স্তরের উপর ধারণা তৈরি করে। দেখে মনে হচ্ছে দাবিটি হ'ল সিভি হ'ল সমস্ত পূর্বাভাস সমস্যা রুপোর বুলেট। কি আমরা ব্যবহার - এছাড়াও মডেল গঠন উচ্চতর পর্যায়ে স্থাপনের বন্ধ কোন আলাপ হয় SVM , রিগ্রেশন গাছ , Boosting , ব্যাগিং , OLS ঔজ্জ্বল্যের প্রেক্ষাপটে , GLMS , GLMNS। আমরা কি ভেরিয়েবলগুলি নিয়মিত করি? যদি তাই হয়, কিভাবে? আমরা কি এক সাথে ভেরিয়েবলগুলি গ্রুপ করব? আমরা কি দৃust়তা কমতে চাই? আমাদের কি বিদেশী আছে? আমাদের কি ডেটা পুরো বা টুকরো টুকরো করে মডেল করা উচিত? সিভি এর ভিত্তিতে সিদ্ধান্ত নেওয়ার জন্য অনেকগুলি পন্থা রয়েছে ।

এবং আরেকটি গুরুত্বপূর্ণ দিকটি হ'ল কম্পিউটার সিস্টেমগুলি কী উপলব্ধ? কীভাবে তথ্য সংরক্ষণ এবং প্রক্রিয়াজাত করা হয়? অনুপস্থিতি আছে - আমরা কীভাবে এটির জন্য অ্যাকাউন্ট করব?

এবং এখানে একটি বড়: ভাল ভবিষ্যদ্বাণী করার জন্য আমাদের কাছে কি যথেষ্ট ভাল ডেটা রয়েছে? আমাদের ডেটা সেটে আমরা নেই এমন কোন পরিচিত ভেরিয়েবল রয়েছে? আমাদের ডেটা প্রতিনিধি কি আমরা ভবিষ্যদ্বাণী করার চেষ্টা করছি তা এর প্রতিনিধি?

কেকে-2

এনপিএনপিএনপি


9
ভাল অভিজাত। আপনি যদি মাঝে মাঝে ক্যাপগুলি ব্যবহার করতেন তবে পড়তে অনেক সহজ হত ...
ম্যানসটি

4

ডেটা মাইনিংয়ের একটি সাধারণ ত্রুটি সম্পর্কে তাঁর ব্যাখ্যা বোধগম্য বলে মনে হয়। তিনি কী করেন সে সম্পর্কে তার ব্যাখ্যাটি কোনও অর্থবোধ করে না। যখন তিনি বলেন "সাধারণভাবে বলতে গেলে, নমুনার বাইরে থাকা ফলাফলগুলি যদি নমুনার বাইরে থাকা 50 শতাংশের বেশি হয় তবে আপনি সত্যই কোথাও পাচ্ছেন?" তারপরে খারাপ-বাজে এসএএস এবং আইবিএম তাকে খুব স্মার্ট দেখতে দেয় না। লোকেরা পরিসংখ্যান না বুঝে বাজারে সাফল্য অর্জন করতে পারে এবং সাফল্যের অংশ ভাগ্য। সফল ব্যবসায়ীদের সাথে এমন আচরণ করা ভুল যে তারা গুরুতর ভবিষ্যদ্বাণী করে।


1
উদ্ধৃত বিবৃতি বলতে কী বোঝায় তা কি খুব পরিষ্কার নয়? মডেলগুলি কীভাবে ব্যবহার করা যায় তার উপর নির্ভর করে, তিনি যা বলেন তার অর্থ প্রচুর পরিমাণে বোঝা যায়। উদাহরণস্বরূপ, নেটফ্লিক্স চ্যালেঞ্জের মূল "টেকওয়ে" মনে হয় "মডেল ব্লেন্ডিং" এর শক্তি হিসাবে যতক্ষণ না কারও ব্যাখ্যা করার প্রয়োজন হয় না। সেক্ষেত্রে বিবেচনাধীন মডেলগুলির নমুনা সম্পাদনের বাইরে কিছু "গড়পড়তা" সম্পূর্ণ প্রাসঙ্গিক হতে পারে।
কার্ডিনাল

@ কার্ডিনাল: আপনি কি খুব আকর্ষণীয় এই চিন্তাভাবনার উত্তর খুঁজে পেতে পারেন? দুর্দান্ত হবে, ধন্যবাদ!
ভনজড

2
@ কার্ডিনাল সম্ভবত এটি আপনার কাছে স্পষ্ট তবে বাক্যটি ব্যাখ্যা করুন "যদি নমুনার বাইরে থাকা ফলাফলগুলি ইন-নমুনার ৫০ শতাংশের বেশি হয় তবে আপনি সত্যই কোথাও পাচ্ছেন"। আপনি যদি বলছেন যে মডেলগুলির জুড়ে গড় সংগ্রহগুলি কার্যকর হতে পারে তবে অবশ্যই আমি এটির সাথে একমত হতে পারি। অনেক অ্যাপ্লিকেশনগুলিতে বুস্টিং ভালভাবে কাজ করার জন্য প্রদর্শিত হয়েছে। তবে উডরিফের মন্তব্য থেকে তা কোথায় আসে তা আমি দেখতে পাই না।
মাইকেল আর চেরনিক

2
মিঃ উড্রিফ কী দাবি করছেন তার বিবরণ আমি স্পষ্টতই জানি না তবে সংক্ষিপ্তসার ভিত্তিতে আমার এই ব্যাখ্যাটি এর প্রভাবের জন্য কিছু: "[আমার অ্যাপ্লিকেশনগুলিতে] যদি গড়ের বাইরে-নমুনা কর্মক্ষমতা [যাইহোক মেট্রিক ব্যবহার করে) আমি প্রাসঙ্গিক বলে মনে করি] মডেলটি ফিট করার পরে ইন-স্যাম্পল পারফরম্যান্সের চেয়ে কমপক্ষে অর্ধেক ভাল, তবে এটি আমার আবেদনের জন্য অর্থবহ। " আমি একজন গণিতবিদ / পরিসংখ্যানবিদ, তাই আমার ক্যাভ্যাট দরকার। আমি যদি হেজ-তহবিলের পরিচালক হয়ে বাইরের কিছু স্বীকৃতি সন্ধান করি তবে আমি আমার মন্তব্যে আরও বেশি গ্র্যান্ডিজ এবং পরম হতে পারি।
কার্ডিনাল

1
@ কার্ডিনালাল তাই পারফরম্যান্সের পরিমাপ হিসাবে ত্রুটি হারটি নিন, তবে আপনি উড্রিফকে ব্যাখ্যা করে বলেন যে যদি নমুনা ত্রুটির হারটি 5% হয় এবং নমুনা ত্রুটির হারের 10% হয় তবে পদ্ধতিটি কি ভাল? কেন কেবল সিদ্ধান্ত নেওয়ার জন্য নমুনা কর্মক্ষমতা বাইরে তাকান না? আমি অনুমান করি যে নমুনা পারফরম্যান্সের বাইরে স্যাম্পল পারফরম্যান্সের অনুপাতটি আপনাকে নমুনা ত্রুটি হার অনুমানের মধ্যে কতটা নির্ভরযোগ্য / অবিশ্বাস্য তা সম্পর্কে কিছু বলে তবে আমি এটি শ্রেণিবদ্ধের পারফরম্যান্সের মূল্যায়নে প্রবেশ করতে দেখছি না। মডেল মিশ্রণটি তাঁর মন্তব্যে কোথায় প্রবেশ করে তা আমি এখনও দেখতে পাচ্ছি না।
মাইকেল আর চেরনিক

4

আপনি নিদর্শনগুলি সন্ধান করতে পারেন যেখানে গড়ে, নমুনা ছাড়াই সমস্ত মডেল ভাল করতে থাকে।

শব্দ আমার বোঝার নিদর্শন এখানে, তিনি বিভিন্ন বাজারের অবস্থার মানে। একটি নিখুঁত দৃষ্টিভঙ্গি সেরা কার্ভ ফিটিং মডেলকে প্রশিক্ষণ দিতে, তারপরে এটি সমস্ত ডেটাতে চালিত করতে এবং সর্বদা এটির সাথে বাণিজ্য করার জন্য, সমস্ত উপলব্ধ ডেটা (আমরা সবাই জানি আরও তথ্য আরও ভাল)) বিশ্লেষণ করবে।

আরও সফল হেজ তহবিল পরিচালক এবং অ্যালগরিদমিক ব্যবসায়ীরা তাদের বাজার জ্ঞান ব্যবহার করে। একটি সুনির্দিষ্ট উদাহরণ হিসাবে ট্রেডিং সেশনের প্রথম অর্ধ ঘন্টা আরও অস্থির হতে পারে। সুতরাং তারা তাদের সমস্ত ডেটাগুলিতে মডেলগুলি চেষ্টা করবে তবে কেবলমাত্র সেই প্রথম আধ ঘন্টা এবং তাদের সমস্ত ডেটাতে, তবে সেই প্রথম আধ ঘন্টা বাদে। তারা আবিষ্কার করতে পারে যে তাদের দুটি মডেল প্রথম আধ ঘন্টা ভাল কাজ করেছে, তবে তাদের মধ্যে আটটি অর্থ হারাচ্ছে। অন্যদিকে, যখন তারা এই প্রথম আধ ঘন্টা বাদ দেয়, তখন তাদের সাতটি মডেল অর্থোপার্জন করে, তিনটি অর্থ হারাতে পারে।

তবে, এই দুটি বিজয়ী মডেল নেওয়ার পরিবর্তে এবং ট্রেডিংয়ের প্রথমার্ধের প্রথম দিকে এগুলি ব্যবহার করার পরিবর্তে তারা বলে: এটি অ্যালগরিদমিক ব্যবসায়ের জন্য দিনের একটি খারাপ সময় এবং আমরা মোটেই বাণিজ্য করব না। দিনের বাকি অংশ তারা তাদের সাতটি মডেল ব্যবহার করবে। অর্থাৎ এটি প্রদর্শিত হয় যে বাজারগুলি সেই সময়গুলিতে মেশিন লার্নিংয়ের সাথে পূর্বাভাস দেওয়া সহজ, সুতরাং সেই মডেলগুলি এগিয়ে যাওয়ার জন্য নির্ভরযোগ্য হওয়ার আরও বেশি সম্ভাবনা রয়েছে। (দিনের সময় একমাত্র প্যাটার্ন নয়; অন্যরা সাধারণত সংবাদ ইভেন্টগুলির সাথে সম্পর্কিত হয়, উদাহরণস্বরূপ মূল অর্থনৈতিক পরিসংখ্যানগুলি ঘোষণার আগে বাজার আরও উদ্বায়ী is)

তিনি যা বলছেন তা আমার ব্যাখ্যা; এটি সম্পূর্ণ ভুল হতে পারে তবে আমি আশা করি এটি এখনও কারও জন্য চিন্তার জন্য দরকারী খাদ্য।


2

একজন ফিনান্স পেশাদার হিসাবে আমি যথেষ্ট প্রসঙ্গে জানি যে বিবৃতিটি কোনও অস্পষ্টতা উপস্থাপন করে না। আর্থিক সময় সিরিজ প্রায়শই শাসন পরিবর্তন, কাঠামোগত বিরতি এবং ধারণা ড্রিফ্ট দ্বারা চিহ্নিত করা হয়, সুতরাং অন্যান্য শিল্পে অনুশীলন হিসাবে ক্রস-বৈধকরণ আর্থিক অ্যাপ্লিকেশনগুলিতে এতটা সফল নয়। দ্বিতীয় অংশে তিনি একটি আর্থিক মেট্রিককে বোঝায়, হয় এমএসই বা অন্যান্য ক্ষতির ক্রিয়াকলাপ নয়, শার্প অনুপাতের (সংখ্যায় রিটার্ন) বিনিয়োগের উপর ফেরত দেয়। যদি নমুনা কৌশলটি 10% রিটার্ন উৎপন্ন করে, তবে প্রকৃত ট্রেডিংয়ে এটি বাস্তবসম্মতভাবে কেবল 5% উত্পাদন করতে পারে। "বিপ্লবী" অংশটি অবশ্যই তাঁর মালিকানাধীন বিশ্লেষণ পদ্ধতির সম্পর্কে, উদ্ধৃতিগুলিতে নয়।


কেবলমাত্র একটি প্রশ্ন: আপনি কি আপনার আর্থিক মেট্রিককে প্যারামিটার অপ্টিমাইজেশনের সরঞ্জাম হিসাবে ব্যবহার করে কোনও কাজ সম্পর্কে জানেন, অর্থাৎ সর্বোচ্চ সম্ভাবনা ব্যবহারের পরিবর্তে সরাসরি সেই মেট্রিককে সর্বোচ্চ করে প্যারামিটারগুলি অনুকূল করে তোলেন?
কেজেটিল বি হালওয়ারসেন

@ কেবিএইচ এটি আমার আর্থিক মেট্রিক নয় - তীব্র অনুপাতের জন্য অনুকূলিতকরণ খুব সাধারণ। আমার মাথার শীর্ষে ssrn.com/abstract=962461 শীর্ষে একটি উদাহরণ - কোনও সঠিক পরিসংখ্যানের মডেল তৈরি করা হয়নি তবে ব্যবসার নিয়মগুলি (খুব সাধারণ শর্তে) সর্বোচ্চ আয় এবং ঝুঁকি হ্রাস করার উদ্দেশ্যে তৈরি করা হয়।
onlyvix.blogspot.com
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.