মেসেজ বডিটির শীর্ষ লাইনগুলি আরও ভারীভাবে স্কোর করার জন্য কি স্প্যামাসাসিন পাওয়ার কোনও উপায় আছে?


9

মেল সার্ভারে ফিল্টারটি দিয়ে প্রচুর স্প্যাম পাচ্ছে আমি কয়েকটি লাইন (অবিশ্বাস্যভাবে সুস্পষ্ট) ওজন হ্রাস বা শীর্ষে অন্য কেলেঙ্কারী পাঠ্য দিয়ে শুরু করার অপেক্ষাকৃত সহজ কৌশলটি দিয়ে চলেছি, তারপরে প্রোগ্রামিং ডকুমেন্টেশন থেকে বড় আকারের পাঠ্য লেখা রয়েছে - বা, সর্বোপরি সবচেয়ে খারাপ, স্ট্যাক এক্সচেঞ্জ থেকে পাঠ্য স্ক্র্যাপ করা । সর্বোপরি স্প্যামাসাসিন এটিকে BAYES_50 হিসাবে সম্মান করে এবং এমনটি ঘটে যে বাকী বার্তাগুলি যথাযথভাবে তৈরি করা হয়েছে যাতে তারা অন্য ট্রিগারগুলিতে আঘাত না করে। (উদাহরণস্বরূপ, শিরোনামগুলি ন্যূনতম এবং সঠিক।

শীর্ষ অংশটি স্পষ্টতই স্প্যামি (এবং বাস্তবে স্প্যাম বার্তাগুলি হিসাবে পূর্বে প্রাপ্ত এবং প্রশিক্ষিত হওয়ার সাথে খুব সাদৃশ্যযুক্ত) যা আমি একরকম বিস্মিত হয়েছি যে এটি পেরিয়ে যাচ্ছে - তবে স্পষ্টতই এটি। এটি পৃথক পাসের মতো বলে মনে হচ্ছে যা বার্তাটির শীর্ষ 25 (বা তাই) লাইন অর্জন করেছিল এবং ওজন করেছিল যে ভারী সমস্যাটি সমাধান করবে। এই কাজ করতে একটি উপায় আছে কি?


বেশিরভাগ লোক কাস্টম নিয়মিত এক্সপ্রেশন লেখার পরামর্শ দিয়েছেন। আমি এটির মধ্যে যেতে চাই না, কারণ এটি একটি নিরন্তর হেরে যাওয়া যুদ্ধ। লোকেরা স্পর্শ বাছাইয়ের আগে বায়েশিয়ানদের ব্যাপক ব্যবহারের আগে এটি করেছিল এবং এটি সাধারণত ভয়াবহ ছিল। কোনও মানুষ ধরে রাখতে পারে না । প্রতিটি স্প্যাম বার্তার জন্য মুছুন কীটি চাপানো এবং আমার পক্ষ থেকে আরও অনেক কাজ করার চেয়ে এটি বেশি কার্যকর নয়।

বায়েশিয়ান স্প্যাম ফিল্টারিংয়ের কাজ করে। এমনকি এটি এই স্প্যামেও কাজ করে , যদি আমি " ভাঁজটির উপরে " অংশটি বিভক্ত করি এবং কেবল সেই অংশটি বিশ্লেষণ করি তবে ডিকোয়াই / চাফটি সরানো হবে। প্রশ্নটি হল: আমি কীভাবে স্প্যামাসাসিনকে এটি করতে পারি?


বায়সিয়ান ফিল্টার সক্ষম?
কনডিবাস

@ কনডিবাস হ্যাঁ এবং এটি সমস্যার অংশ, কারণ প্যাডিং পাঠ্য নিখরচায় পরিমাণে স্প্যামি অংশকে ছাড়িয়ে যায়।
mattdm

আপনি কোন এমটিএ ব্যবহার করেছেন?
কনডিবাস

আপনি এই স্প্যামগুলি সম্পর্কে বায়েশিয়ান প্রশিক্ষণ কত করেছেন? আমি প্রত্যাশা করব যে বায়েশিয়ান অ্যালগরিদম এটির আগে অনেক আগে কাজ করবে।
এমসি 0

@ এমসি0e এটি করতে পারে না। এটি ঠিক তেমন জাদুকরী স্মার্ট নয়। আরও পরিশীলিত মেশিন-লার্নিং সিস্টেমটি সম্ভবত এটি করতে পারে তবে আমি মনে করি যে, আমি এখানে একটি সাধারণ কৌশল "জিজ্ঞাসা করছি" এটিও করবে।
mattdm

উত্তর:


1

আমি নিজে একজন (অল্প) স্পষ্ট বিরোধী স্প্যাম যোদ্ধা। এবং আপনার সমস্যার মুখোমুখি হওয়ার কারণে, আমি বহু বছর আগে নিজেই নোংরা কাজগুলি শেষ করেছি।

এখন, এটি আপনার নির্দিষ্ট প্রশ্নের উত্তর নয়, তবে আপনার বিশেষ সমস্যার উত্তর। সুতরাং দয়া করে এর কারণে ডাউনভোট করবেন না।

আমি কীভাবে এই সমস্যার সমাধান করেছি তা হল এক্স-মেল সার্ভার দ্বারা ব্যবহৃত sa_filter-post.pl স্ক্রিপ্টটি সংশোধন করা, যা ইমেল ফাইলে স্প্যামকে কল করে এবং সেখানে কিছু ছোটখাট জিনিস করে, পুরো ফাইলটি নয়, তবে এর নির্দিষ্ট অংশগুলিকে ভিত্তিক করে কিছু নির্দিষ্ট নিয়ম (আমার দ্বারা হার্ডকডড) হ্যাঁ, রেজেক্স'স তবে এখনও পর্যন্ত তারা আমার পক্ষে কাজ করে (আমার কাছে এর আগে এবং পরে অন্যান্য স্ক্রিপ্টগুলি রয়েছে যাতে এটি ভূমিকা নিতে পারে)

উদাহরণস্বরূপ, আমার কাছে একটি রেজিেক্স রয়েছে যা ফোন নম্বরগুলি খুঁজে বের করে। স্প্যামারটি পুরোপুরি ছেড়ে গেছে, সুতরাং এটি কেবলমাত্র ফাইলের মাঝারি 400 অক্ষর প্রক্রিয়াজাতকরণের জন্য সোজা হয়ে যায় (আমি সত্যিই ট্রায়াল এবং ত্রুটির দ্বারা 400 এ পৌঁছলাম, 200 থেকে শুরু হয়েছিল)। নোট করুন যে ফাইলটি যা আছে তার তুলনায় আপনি যা দেখছেন তার মাঝখানে বাছাই করা বেশ শক্ত।

এখানে আরও একটি আছে যা "পণ্যগুলি" সহ এইচটিএমএল টেবিলের একই কাঠামোযুক্ত রয়েছে, এটি একটি ডামি শিরোনাম এবং ব্যবহারযোগ্য পাদচরণ নয়, তাই আমি সেগুলি সরিয়ে ফেলি, আমি "পণ্যগুলি" মন্তব্যগুলির কলামটি সরিয়ে ফেলি এবং তারপরে এটি স্প্যামকে ছাড়ি।

এবং তাই, আপনি ছবি পেতে।

তবে সমস্ত নিয়ম নিখুঁত নয়, সুতরাং নিয়মটি কীভাবে আচরণ করা হয় তার ভিত্তিতে আমি প্রতিটি নিয়মে একটি ব্যক্তিগত স্কোর বরাদ্দ করে একটি সামান্য যাদু করি যা প্রয়োজনের ভিত্তিতে আমি হার্ডকোড করে এবং টিউন করি (এবং একসাথে আমি সমস্ত টোগে নিয়মগুলি মুছে ফেলা শেষ করি )। আমি তখন ব্যক্তিগত স্কোর দ্বারা এসএ স্কোরটি সংশোধন করি। আমি এটি করার কারণটি ছিল কারণ কোনও কারণে এসএ কেবল 4 এর মতো স্কোর দিয়েছে rules এমন কিছু বিধিগুলিতে স্পষ্টভাবে স্প্যামের বিষয়বস্তু যা আমি তাদের সঠিকভাবে ধরার দৃ strong় অনুভূতিও বোধ করি। সুতরাং আমি তাদের 5.0 এর ওপরে যেতে সামান্য উত্সাহ দিয়েছিলাম, কিছু পোস্ট-প্রসেসিং স্ক্রিপ্টগুলির সাথে মিলিয়ে কিছু অন্যান্য ভেরিয়েবল বিবেচনায় নিয়ে আসে (ইমেলের উত্স, ইমেলের লক্ষ্য, শিরোনামের কাঠামো ইত্যাদি), এটি কমবেশি স্প্যামকে মেরে ফেলে বাইরে।

এখন আমি বুঝতে পেরেছি এটি আপনি যা প্রত্যাশা করেছিলেন তা নয়, তবে আমার ক্ষেত্রে এটি আমাকে স্ক্যান করার বিষয়ে পুরোপুরি শক্তি দেয়, এটাই ঠিক যে আমাকে নিজেই জিনিসগুলি সেট আপ করতে হবে এবং তারপরে এখনই সামান্য স্পর্শ করতে হবে- মান / রেজিক্স'জে আপগুলি।

তবে আপনার ক্ষেত্রে জিনিসগুলি অনেক সহজ কারণ আপনাকে যা করতে হবে তা হল একটি সরল বাশ স্ক্রিপ্ট ব্যবহার করা যা আপনার এমএক্সের দ্বারা স্প্যামকের পরিবর্তে ডাকা হবে এবং সেই স্ক্রিপ্টটি কেবলমাত্র যে পরিমাণ বাইট চান তার প্রথম পেতে কমান্ডটি ব্যবহার করবে এবং অস্থায়ী ফাইলটি স্প্যামকে পাস করুন।

স্ক্রিপ্টের বিষয়বস্তুগুলি আপনার মেল সার্ভারের উপর কিছুটা নির্ভর করবে, তবে এটি বের করা শক্ত হবে না।

(দ্রষ্টব্য যে আমি কেবলমাত্র আমার সেটআপটির অনেক বেশি কথা বলেছি যাতে আপনি এই বিকল্পটির সম্ভাবনাগুলি দেখতে পারেন)

পিএস: আমি ব্যক্তিগতভাবে এই জাতীয় স্প্যাম ইমেলগুলি কখনই পাইনি (সেগুলিতে প্রোগ্রামিং সম্পর্কিত গুডিসহ), তাই আমি অবাক হয়েছি যে আপনি যদি কাউকে হতাশ করেন না এবং এখন আপনার লক্ষ্যবস্তু হয়ে গেছে। এটি বিশেষভাবে তৈরি কারিগরী ইমেলগুলি ব্যাখ্যা করবে। এই সম্ভাবনাটি সম্পর্কে আমি যে কারণটি মনে করি তা হ'ল বহু বছর আগে, যখন আমি বিভিন্ন আইটি ফোরাম এবং গোষ্ঠীতে খুব সক্রিয় ছিলাম, তখন আমি কিছু লোককে বিস্মৃত করেছিলাম এবং তারপরে আমি ইমেল স্প্যামিং সহ আমার সার্ভারে বিভিন্ন ধরণের আক্রমণ পেয়েছি used । তবে তারপরে বোকা এই স্মার্ট ছিল না :)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.