আমি আর্থিক সময়-সিরিজ ডেটা (অর্থাত্ টিকডাটা) থেকে আউটলিয়ার এবং ত্রুটিগুলি (কারণ যাই হোক না কেন) অপসারণের জন্য কিছু শক্ত কৌশল খুঁজছি।
টিক-টু-টিক আর্থিক সময়-সিরিজের ডেটা খুব অগোছালো। এক্সচেঞ্জটি বন্ধ হয়ে গেলে এতে বিশাল (সময়ের) ফাঁকগুলি থাকে এবং এক্সচেঞ্জ আবার খোলে যখন বিশাল লাফ দেয়। যখন এক্সচেঞ্জটি খোলা থাকে, সমস্ত ধরণের উপাদানগুলি ভুল স্তরের (যেগুলি ঘটেনি) এবং / বা বাজারের প্রতিনিধি নয় (ভুলভাবে বিডের কারণে স্পাইক বা উদাহরণ জিজ্ঞাসা করে দাম জিজ্ঞাসা করে) এমন ট্রেড চালু করে। টিকডাটা ডটকম (পিডিএফ) এর এই কাগজটি সমস্যার রূপরেখা তৈরি করার পক্ষে ভাল কাজ করে তবে কয়েকটি কংক্রিট সমাধান দেয়।
বেশিরভাগ কাগজপত্র আমি অনলাইনে খুঁজে পেতে পারি যা এই সমস্যার উল্লেখ করে তা এটিকে উপেক্ষা করুন (টিকডাটা ফিল্টারটি ধরে নেওয়া হয়) বা ফিল্টারিংকে কিছু বিশাল ট্রেডিং মডেলের অংশ হিসাবে অন্তর্ভুক্ত করে যা কোনও কার্যকর ফিল্টারিং পদক্ষেপগুলি লুকিয়ে রাখে।
এই অঞ্চলে আরও গভীরতার কাজ সম্পর্কে কি কেউ সচেতন?
আপডেট: এই প্রশ্নগুলি পৃষ্ঠের সমান মনে হয় তবে:
- আর্থিক সময় সিরিজটি হ'ল (অন্তত টিক স্তরে) অ পর্যায়ক্রমিক।
- প্রারম্ভিক প্রভাবটি একটি বড় সমস্যা কারণ আপনি সত্যিকারের মতো চাইলেও আপনি শেষ দিনের ডেটা সূচনা হিসাবে ব্যবহার করতে পারবেন না (কারণ অন্যথায় আপনার কিছুই নেই)। বাহ্যিক ইভেন্টগুলি নতুন দিনের উদ্বোধনকে পরম স্তরে এবং আগের দিন থেকে অস্থিরতায় উভয়ই নাটকীয়ভাবে আলাদা করতে পারে।
- আগত ডেটাগুলির বন্যভাবে অনিয়মিত ফ্রিকোয়েন্সি। দিনের খোলা এবং কাছাকাছি সময়ে ডেটাপয়েন্ট / সেকেন্ডের পরিমাণ দিনের গড়ের চেয়ে 10 গুণ বেশি হতে পারে। অন্যান্য প্রশ্ন নিয়মিত নমুনাযুক্ত ডেটা নিয়ে কাজ করে।
- আর্থিক তথ্যের "আউটলিয়ার্স" কিছু নির্দিষ্ট নিদর্শনগুলি প্রদর্শন করে যা নির্দিষ্ট ডোমেনগুলিতে প্রয়োগ করা যায় না এমন নির্দিষ্ট কৌশলগুলির সাথে সনাক্ত করা যেতে পারে এবং আমি সেই নির্দিষ্ট কৌশলগুলির সন্ধান করছি part
- আরও চরম ক্ষেত্রে (যেমন ফ্ল্যাশ ক্রাশ) আউটলিয়াররা দীর্ঘ বিরতিতে (> 10 মিনিট) over৫% এর বেশি ডেটা হতে পারে। এছাড়াও, আগত তথ্যের (উচ্চ) ফ্রিকোয়েন্সিতে পরিস্থিতির বহিরাগত দিক সম্পর্কে কিছু তথ্য থাকে।