মূল্যের উপাদান / অ-স্থাবর ডেটাতে অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ ব্যবহার করা যেতে পারে?


10

হ্যাকারদের জন্য মেশিন লার্নিং বইটিতে দেওয়া একটি উদাহরণ পড়ছি । আমি প্রথমে উদাহরণটি বিস্তারিতভাবে বর্ণনা করব এবং তারপরে আমার প্রশ্ন সম্পর্কে কথা বলব।

উদাহরণ :

25 শেয়ারের দামের 10 বছরের জন্য একটি ডেটাসেট নেয়। 25 শেয়ারের দামে পিসিএ চালায়। ডাউ জোন্স সূচকের সাথে মূল উপাদানটির তুলনা করে। পিসি এবং ডিজেআইয়ের মধ্যে খুব দৃ strong় মিলের পর্যবেক্ষণ!

আমি যা বুঝি তার থেকে উদাহরণটি আমার মতো নবাগত শিশুদের বুঝতে একটি খেলনার মতো, যা সরঞ্জাম পিসিএ কতটা কার্যকর!

তবে অন্য উত্স থেকে পড়া , আমি দেখতে পাচ্ছি যে শেয়ারের দামগুলি স্থির নয় এবং শেয়ারের দামগুলিতে পিসিএ চালানো অবাস্তব। যে সূত্রগুলি থেকে আমি পড়েছি সেগুলি শেয়ারের দামের জন্য covariance এবং PCA গণনা করার ধারণাটিকে সম্পূর্ণ উপহাস করে।

প্রশ্নসমূহ :

  1. উদাহরণটি এত ভাল কীভাবে কাজ করেছিল? শেয়ারের দামের পিসিএ এবং ডিজেআই একে অপরের খুব কাছাকাছি ছিল। এবং ডেটা হল 2002-2011 শেয়ারের দামের আসল তথ্য।

  2. কেউ আমাকে স্টেশনারি / অ-স্টেশনারি ডেটা পড়ার জন্য কিছু সুন্দর উত্সের দিকে ইঙ্গিত করতে পারে? আমি একজন প্রোগ্রামার। আমি একটি ভাল গণিত ব্যাকগ্রাউন্ড আছে। তবে আমি 3 বছর ধরে গুরুতর গণিত করি নি। এলোমেলো পদক্ষেপ ইত্যাদির মতো জিনিসগুলি নিয়ে আমি আবার পড়া শুরু করেছি

উত্তর:


10

এই অংশটি @ জোনগিলের উত্তরে মন্তব্যে উত্থাপিত মূল প্রশ্ন এবং কিছু প্রশ্নের উত্তর আংশিকভাবে জবাব দেয়।

ফিনান্সিয়াল ( ) রিটার্নগুলি * প্রায় (যদিও প্রায়শই কিছু শর্তসাপেক্ষ হেটেরোসকেস্টাস্টিটি থাকে) - যখন দামগুলি প্রায় এলোমেলো পদচারণা হয়। পর্যবেক্ষণ অনুমানের অধীনে , মূল উপাদান বিশ্লেষণটি নমুনা থেকে জনসংখ্যার মধ্যে সরাসরি সাধারণীকরণ করবে (যেমন নমুনা প্রধান উপাদানগুলি জনসংখ্যার প্রধান উপাদানগুলির অনুমান করবে), তবে এটি নন- পর্যবেক্ষণের অধীনে নাও থাকতে পারে - এই থ্রেডটি দেখুন । এজন্য দামের চেয়ে পিসিএ (লগারিদমিক) রিটার্ন চালানো বোধগম্য হয়।i i d i i d আমিআমিআমিআমিআমিআমি

রুয়ে এস সায়ে আর্থিক সময় সিরিজের একনোমেট্রিক মডেল থেকে রেসিডুয়ালে পিসিএ চালানোর পক্ষে যুক্তি দেখিয়েছিলেন, যেহেতু অবশিষ্টাংশগুলি সাধারণত হিসাবে ধরে নেওয়া হয় আমি মনে করি যে এই ধারণাটি তার "আর এবং আর্থিক অ্যাপ্লিকেশনগুলির সাথে মাল্টিভারিয়ট টাইম সিরিজ বিশ্লেষণে" অন্তর্ভুক্ত থাকতে পারে পাঠ্যপুস্তক (তিনি আমাকে ব্যক্তিগতভাবে ধারণাটি ব্যাখ্যা করেছিলেন, সুতরাং এটি কোথায় লেখা হয়েছে তা সম্পর্কে আমি নিশ্চিত নই)।আমিআমি

* মূল্যের উপর লগারিদমিক আগমন হিসাবে সংজ্ঞায়িত করা হয় । লগারিদমিক আয় জায়গায় সুবিধার জন্য ব্যবহার করা হয় শতাংশ আয়। লগারিদমিক রিটার্নের সুবিধাজনক বৈশিষ্ট্য হ'ল পিরিয়ডের মধ্যে মোট লোগারিথমিক রিটার্ন পেতে আপনি স্বতন্ত্র লোগারিথমিক রিটার্নগুলি যোগ করতে পারেন , যদিও এটি শতাংশের হারের জন্য ধারন করে না। তুলনামূলকভাবে ছোট শতাংশের রিটার্নের জন্য (যা ফিনান্সে প্রচলিত) লগারিদমিক প্রায় একক হিসাবে প্রায় ইউনিট opeাল হওয়ায় প্রায় সমান শতাংশের রিটার্ন দেয়। আর : = লগ ( পি টি ) - লগ ( পি টি - 1 ) = লগ পি টিপিটি আর:=পিটি-পিটি-1R: =লগ(পিটি)-লগ(পিটি-1)=লগপিটিপিটি-1 এইচএইচR': =পিটি-পিটি-1পিটি-1


1
+1, এটি আকর্ষণীয়। আসলে "রিটার্ন" আসলে কী আপনি কিছুটা প্রসারিত করতে পারেন? অর্থনীতি সম্পর্কে আমার জ্ঞান শূন্য; আমি googled এবং দেখা গেছে যে দাম দেওয়া হয় সময় সিরিজ, তারপর আয় হিসাবে সংজ্ঞায়িত করা হয় । এটা কি ঠিক? যদি তাই হয় তবে লগারিদম কেন? আইডি রিটার্ন এবং এলোমেলো ওয়াকের দামের মধ্যে সম্পর্ক সম্পর্কে আপনার যুক্তিটি আমি বুঝতে পারব যদি রিটার্নগুলি পার্থক্য হিসাবে সংজ্ঞায়িত করা হয়। এ ছাড়া, ডিজে গড় মূল্য, তাই আমি এখনও বুঝতে পারছি না যে রিটার্নের পিসি 1 দামের পিসি 1 এর চেয়ে ভাল ম্যাচ হওয়া উচিত, এমনকি আইডির বিষয়ে আপনার বিবেচনার পরেও। (টিআমি)লগ(টিআমি+ +1)(টিআমি)
অ্যামিবা

1
@ আমেবা, আমি একটি দ্রুত ব্যাখ্যা যুক্ত করেছি এবং এখনই চলে যেতে হবে। আমি আশা করি আমি সেখানে খুব বেশি ভুল করিনি। আরও কিছু সমস্যা থাকলে আমি আগামীকাল ফিরে আসব।
রিচার্ড হার্ডি

1
ধন্যবাদ। আমি এখন দেখতে পাচ্ছি যে রিটার্নগুলি (লোগারিদমিক রিটার্নগুলি) মূলত দামগুলির লগারিদমের একটি ডেরাইভেটিভ (প্রথম পার্থক্য)। সুতরাং যদি দাবিটি হয় যে রিটার্নগুলি আইড হয় এবং লগের দামগুলি এলোমেলো পদচারণা হয় তবে তা বোঝা যায়। যাইহোক, আমি ডও জোনের উদাহরণটি দেখে এখনও অবাক হয়েছি এবং আরও স্পষ্টতাগুলির প্রশংসা করব।
অ্যামিবা

6

আমি পেশাগতভাবে এই ধরণের বিশ্লেষণ চালাই এবং নিশ্চিত করতে পারি যে সেগুলি সত্যই কার্যকর। তবে দয়া করে নিশ্চিত হন যে আপনি রিটার্নের দামগুলি বিশ্লেষণ করেছেন । এটি স্লেন্ডার মিন্সে সমালোচকদের দ্বারাও তুলে ধরা হয়েছে:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

আমাদের বিশ্লেষণে একটি সাধারণ ব্যবহারের ক্ষেত্র হ'ল বাজারের জায়গায় সিস্টেমিক ঝুঁকির পরিমাণ। বাজারে আরও সহ-চলাচল, আপনার পোর্টফোলিওটিতে সত্যিকারের বৈচিত্র্য আপনার কম। এটি, উদাহরণস্বরূপ, প্রথম প্রধান উপাদান দ্বারা বর্ণিত বৈকল্পিক পরিমাণ দ্বারা পরিমাণযুক্ত হতে পারে। যা প্রথম ইগন্যালুয়ের মানের সাথে সমান।

আর্থিক তথ্যগুলির জন্য, একজন সাধারণত সময়ের সাথে সাথে একটি চলমান উইন্ডো পরীক্ষা করে। ক্ষয় ফ্যাক্টরের কিছু ফর্ম যা পুরানো পর্যবেক্ষণকে কমিয়ে দেয় useful প্রতিদিনের ডেটাগুলির জন্য, 20-60 দিন থেকে যে কোনও কিছু, সাপ্তাহিক তথ্যের জন্য সম্ভবত 1-2 বছর, সব আপনার প্রয়োজনের উপর নির্ভর করে।

নোট করুন যে বিশ্বব্যাপী আর্থিক বাজারের জন্য, দশ-বা কয়েক হাজার সম্পত্তির দাম ক্রমাগত পরিবর্তনের সাথে, একটি আদর্শ সাধারণত 100 কে বনাম 100 কে কোভারিয়েন্স ম্যাট্রিক্স চালাতে পারে না। পরিবর্তে, সাধারণ ইউজকেসটি প্রতি দেশ, খাত বা অন্যান্য আরও অর্থবহ দলগুলির জন্য বিশ্লেষণ চালানো হয়। বিকল্পভাবে অন্তর্নিহিত কারণগুলির একটি সেট (মান, আকার, গুণমান, creditণ ....) দ্বারা রিটার্নটি ভেঙে ফেলুন এবং এগুলির জন্য পিসিএ / কোভারিয়েন্স বিশ্লেষণ করুন।

কয়েকটি দুর্দান্ত নিবন্ধের মধ্যে বেটের কার্যকর সংখ্যার উপর আটলিয়ো মিউসি'র আলোচনা অন্তর্ভুক্ত রয়েছে: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

, এবং এছাড়াও লেডোয়েট এবং ওল্ফের মধু আমি নমুনা কোভারিয়েন্স ম্যাট্রিক্স সঙ্কুচিত করেছি http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

স্টেশনারিটির জন্য আর্থিক ভিত্তিক পরিচিতির জন্য কেন ইনভেস্টোপিডিয়া দিয়ে শুরু করবেন না। এটি কঠোর নয়, তবে মূল ধারণাগুলি জানায়।

শুভকামনা!

সম্পাদনা: এখানে অ্যাপল, গুগল এবং ডাও জোনসকে 2015 এর মাধ্যমে প্রতিদিনের রিটার্ন সহ দেখানো একটি 3-স্টকের উদাহরণ রয়েছে The

উচ্চতর ত্রিভুজ রিটার্ন পারস্পরিক সম্পর্ক, নিম্ন ত্রিভুজ দামের সম্পর্ক

হিসাবে দেখা যায়, রিটান পারস্পরিক সম্পর্ক (উপরের ডানদিকে 0.66) এর তুলনায় অ্যাপলের ডাউ (নীচে বামে 0.76) এর সাথে উচ্চ-দামের সম্পর্ক রয়েছে। এর থেকে আমরা কী শিখতে পারি? বেশি না. গুগলের অ্যাপল (-0.28) এবং ডাউ (-0.27) উভয়ের সাথে নেতিবাচক দামের সম্পর্ক রয়েছে। আবার, এর থেকে শেখার মতো বেশি কিছু নয়। তবে, রিটার্নের পারস্পরিক সম্পর্ক আমাদের জানিয়ে দেয় যে অ্যাপল এবং গুগল উভয়েরই ডাউ (যথাক্রমে 0.66 এবং 0.53) এর সাথে যথেষ্ট উচ্চতর সম্পর্ক রয়েছে। এটি আমাদের একটি পোর্টফোলিওতে সম্পদের সহ-আন্দোলন (মূল্য-পরিবর্তন) সম্পর্কে কিছু বলবে। এটি দরকারী তথ্য।

মূল বিষয়টি হ'ল দামের পারস্পরিক সম্পর্ক ঠিক তত সহজে গণনা করা যায় তবে এটি আকর্ষণীয় নয়। কেন? কারণ একটি শেয়ারের দাম নিজের মধ্যে আকর্ষণীয় নয়। দাম পরিবর্তন যদিও খুব আকর্ষণীয়।


দামের তুলনায় রিটার্ন ব্যবহারের মধ্যে পার্থক্য সম্পর্কে প্রশ্নটির মূল অংশটি আপনি আরও বাড়িয়ে দিতে পারেন? আমি বুঝতে পারি যে দামগুলি ব্যবহার করার সময়, পারস্পরিক সম্পর্ক ম্যাট্রিক্স অ-স্টেশনারিটি দ্বারা প্রভাবিত হবে; উদাহরণস্বরূপ, যদি সমস্ত দাম একত্রে বৃদ্ধি পায়, তবে সমস্ত পারস্পরিক সম্পর্ক দৃ strongly়ভাবে ইতিবাচক হবে। প্রথম, কেন খারাপ? বিশেষত ডাউ জোনস মূলত একটি গড় মূল্য এবং এটিও বাড়বে (পিসি 1 যেমন হবে) given দ্বিতীয়ত, রিটার্নগুলি কীভাবে সাহায্য করবে বলে মনে হচ্ছে? এএফআইকে "রিটার্ন" হ'ল প্রতিবেশী পয়েন্টগুলির অনুপাত; কেন এটি অর্থবহ এবং এটি ডও জোন্সের সাথে কীভাবে সম্পর্কিত?
অ্যামিবা

আপনার তথ্যপূর্ণ উত্তর দেওয়ার জন্য ধন্যবাদ. তবে এটি আমার প্রশ্নের উত্তর দেয় না। আমি বুঝতে চাই কেন দামের বিশ্লেষণ বইটিতে ডেটা সেট করার জন্য খুব ভাল কাজ করছে? এবং অ্যামিবা অনেকগুলি বৈধ প্রশ্ন উত্থাপন করেছে।
ক্লদিয়াস

1
@ ক্লাডিয়াস: দামের ক্ষেত্রে পিসিএ ডও জোন্সের মতো কিছু দেয় যা গড় মূল্য যা মোটেও অবাক হওয়ার মতো নয়। আমি বরং ভাবছি কেন রিটার্নে পিসিএ আরও ভাল ফিট করে। সম্ভবত জোন স্পষ্ট করতে সক্ষম হবে।
অ্যামিবা

1
আমি হ্যাকারদের জন্য এমএল-তে চালিত আসল কোডটির দিকে নজর দিইনি, তবে যখনই কেউ বলে যে তারা দাম বিশ্লেষণ করে, 100 যা তারা আসলে বিশ্লেষণ করে তার 99 বারের বার লগ-রিটার্ন। উদাহরণস্বরূপ, আজ ডাউ 162 পয়েন্ট নিচে, অ্যাপল 0.88 ডলার নিচে নেমেছে। কেবল সংখ্যাগুলি বিস্তৃত নয়, এমনকি তারা বিভিন্ন স্কেল, সূচি পয়েন্ট বনাম অর্থের উপরেও রয়েছে। তবে pct পদে 0.91% এবং 0.75% তুলনীয় এবং আপনি যে সংখ্যাগুলির সাথে কাজ করতে চান তা। কিছু বিশ্লেষণের জন্য, কেউ গড়কে বিয়োগ করে ডেটা ট্রেন্ড করতে পারে। স্বল্পমেয়াদী আর্থিক সময়সীমাগুলিতে এটি প্রায়শই উপেক্ষা করা হয়, কোনও প্রবণতা না ধরে নিয়ে।
জন এগিল

1
@ অ্যামিবা, মন্তব্যে উত্থাপিত প্রশ্নগুলির (আংশিকভাবে) উত্তর দেওয়ার জন্য, দামগুলি প্রায় আনুমানিক আইড হয় যখন দামগুলি প্রায় এলোমেলো পদচারণা। আইআইডি পর্যবেক্ষণ অনুমানের অধীনে প্রধান উপাদানগুলির তাদের দুর্দান্ত বৈশিষ্ট্য রয়েছে। এজন্য দামের চেয়ে রিটার্নে পিসিএ চালানো বোধগম্য হয়। রুয়ে এস সায়ে আর্থিক সময় সিরিজের একনোমেট্রিক মডেল থেকে রেসিডুয়ালে পিসিএ চালানোর পক্ষে যুক্তি দেখিয়েছিলেন, যেহেতু অবশিষ্টাংশগুলি সাধারণত আইড হিসাবে ধরে নেওয়া হয় বলে আমি মনে করি যে তার "মাল্টিভারিয়ট টাইম সিরিজ অ্যানালাইসিস উইথ আর এবং আর্থিক অ্যাপ্লিকেশনগুলির" পাঠ্যপুস্তকে অন্তর্ভুক্ত করা যেতে পারে।
রিচার্ড হার্ডি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.