কিভাবে একটি পৃষ্ঠা কত পুরানো?


15

আমি ভেবেছিলাম গুগল কম বেশি নির্ভুল ছিল তা নির্ধারণের ক্ষেত্রে প্রথমে কে কোনও পাঠ্য পোস্ট করেছেন এবং কে অনুলিপি করেছেন। তবে, যখন আমি "অনুসন্ধান সরঞ্জাম: কাস্টমাইজড ইন্টারভাল" ব্যবহার করি ফলাফলগুলি বেশ বিজোড়। আমি কেবলমাত্র দু'বছরের জন্য যে ওয়েবসাইটটি পেয়েছি তার জন্য পৃষ্ঠাগুলি 2002 সালে পেয়েছি।

গুগল কে অনুলিপি করেছে এবং কে মূলটি লিখেছিল তা সঠিকভাবে খুঁজে পাওয়া যায় না। কি?

এখানে চিত্র বর্ণনা লিখুন

যদি stackexchange.com2009 সালে তৈরি করা হয় তবে এটি কীভাবে সম্ভব? hermeneutics.seওভারফ্লো স্ট্যাকের চেয়ে পুরনো!


কেউ কি আপনার আগে ডোমেন নামটির মালিক? আপনি গুগলে যে পৃষ্ঠাগুলি তুলনা করছেন তা কী?
ক্লোজটোনক

আমি এসই ডেটা দিয়ে প্রশ্ন আপডেট করেছি। সময় স্ট্যাম্প সঠিক হতে পারে না।
রেনান

2
কি দারুন. আমি নিশ্চিত না. আমি সাধারণত এর যান্ত্রিকতাগুলি বুঝতে পারি তবে গুগল যা করে তা এখনও একটি রহস্য। গুগল কীভাবে তারিখগুলি নির্ধারণ করে সে সম্পর্কে নেটে খুব কম তথ্য রয়েছে। গুগল কীভাবে কিছুক্ষণ আগে পরিবর্তিত তারিখগুলি নির্ধারণ করে সে সম্পর্কে আমাদের একটি প্রশ্ন ছিল। আমি কিছু গবেষণা করেছি এবং প্রায় কিছুই নেই। তবুও, আমি আবার তাকান। তবে কয়েক দিন সময় লাগতে পারে। মনে রাখবেন যে সিএমএস সফ্টওয়্যার এবং সম্ভবত এসই কোডটি HTML পৃষ্ঠাগুলির জন্য অ্যাপাচি-র মতো তারিখগুলি তৈরি এবং সংশোধন করে না। এবং এটি উত্তর হতে পারে।
ক্লোজটনোক

এটি গুগল হতে হবে না তবে আমি সত্যই জানতে চাই যে আমার ব্যবহারকারীরা চুরি করা হচ্ছে বা চুরি করা হচ্ছে কিনা। = /
রেনান

এখনও অবধি, দেখে মনে হচ্ছে গুগল এইচটিএমএলের মধ্যে তারিখের ফর্ম্যাটটি বোঝে না তবে এটি চূড়ান্ত নয়। প্রথম উদাহরণ পৃষ্ঠার উত্স কোডটি গুগলে সুস্পষ্ট তারিখের ক্লু সরবরাহ করে না। গুগল (কমপক্ষে) দেখায় বা এই ক্রমে একটি তারিখ: ইউআরএল, শিরোনাম, বডি (সামগ্রী), মেটা ট্যাগস, এইচটিটিপি প্রতিক্রিয়া থেকে শেষ পরিবর্তিত তারিখ। একটি প্রধান অনুরোধটি তারিখ এবং শেষ পরিবর্তিত তারিখ তৈরি করে returns পাশাপাশি, যদি-সংশোধিত-সমেত একটি জিইটি হয় 200 ওকে দিয়ে রিসোর্স দেয় বা 304 সংশোধিত নয় returns এসই কোড এগুলি না ফিরিয়ে দিতে পারে এবং কেবলমাত্র URL, শিরোনাম, সামগ্রী এবং মেটা ট্যাগগুলি উপলভ্য।
ক্লোজটনক

উত্তর:


12

আমি এই প্রশ্নের উত্তরটি এভাবেই অনুসন্ধান করেছিলাম: গুগল ব্যবহার করা যেহেতু এটিই আমার একটি উদাহরণ, গুগল কীভাবে তৈরির তারিখ এবং পরিবর্তিত তারিখ এবং গুগল স্বীকৃত তারিখের ফর্ম্যাটগুলি পায়। দয়া করে বুঝতে পারেন যে এই তথ্যটি কেবলমাত্র কয়েকটি পৃষ্ঠায় বিদ্যমান নেই এবং আমাকে অনেকগুলি উত্স থেকে ডেটা বের করতে হয়েছিল যার মধ্যে কয়েকটি সরাসরি প্রয়োগ করে এবং এটি একসাথে টুকরো টুকরো করে মনে হয় না। কিছু ক্ষেত্রে, তথ্যটি বেশ কয়েকটি উত্স থেকে প্রাপ্ত এবং সর্বদা উদ্ধৃতযোগ্য নয়।

গুগল এই ক্রমে পৃষ্ঠা তারিখগুলি সন্ধান করে; ইউআরএল, শিরোনাম ট্যাগ, দেহ (সামগ্রী), মেটা ট্যাগস, এইচটিটিপি রেসপন্স শিরোনাম অন্তত গুগল অনুসন্ধান অ্যাপ্লায়েন্স সম্পর্কিত। অন্যান্য নথিতে অন্যান্য অনুচ্ছেদে, কোনও আদেশ নথিভুক্ত করা হয়নি, তবে তালিকাটি আলোচনা করা হয়েছিল এবং মনে হয় যে তালিকাটি নিশ্চিত করেছে। আপনি যদি এটির বিষয়ে চিন্তা করেন তবে এটি কোনও অনুসন্ধান ইঞ্জিনের ক্রমটি মিরর করে; একটি - আপনার পৃষ্ঠাটি আবিষ্কার করুন (লিঙ্ক) এবং দুটি - মেটা ট্যাগ (ছোট বিবরণ) এবং এইচটিটিপি রেসপন্স শিরোনাম ব্যতীত আপনার পৃষ্ঠাটি শীর্ষ থেকে নীচে (শিরোনাম, দেহ এবং মেটা ট্যাগ) পড়ুন। যতক্ষণ পর্যন্ত অ্যাপ্লায়েন্সের সাথে সম্পর্কিত হয় সেই তালিকা এখানে রয়েছে:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

দ্রষ্টব্য: প্রারম্ভের তারিখটি সেই তারিখ যা প্রথমবার গুগলে অনুরোধ করেছিল। কোনও সৃষ্টির তারিখের অভাবে, শুরু করার তারিখটি ব্যবহৃত হয়।

1] যে কোনও সার্চ ইঞ্জিন কোনও এইচটিটিপি জিইটি অনুরোধের মাধ্যমে কোনও সংস্থার জন্য অনুরোধ করতে পারে এবং ওয়েব সার্ভারটি ডেটা প্যাকেটের অভ্যন্তরে রিসোর্স সহ প্রতিক্রিয়া শিরোনামের মধ্যে সর্বশেষ পরিবর্তিত তারিখটি প্রদান করে।

2] যে কোনও সার্চ ইঞ্জিন কোনও এইচটিটিপি হেড অনুরোধের মাধ্যমে কোনও সংস্থার শিরোনামের তথ্যের জন্য অনুরোধ করতে পারে এবং ওয়েব সার্ভার ডেটা প্যাকেটের মধ্যে থাকা সংস্থান ছাড়াই প্রতিক্রিয়া শিরোনামের মধ্যে পরিবর্তিত তারিখটি ফেরত দেয়।

3] যে কোনও সার্চ ইঞ্জিন যদি কোনও তারিখ নির্ধারণ করে-যদি সংশোধিত-এর সাথে এইচটিটিপি জিইটি সহ কোনও সংস্থার অনুরোধ করে কোনও নির্দিষ্ট তারিখের পরে কোনও সংশোধন করা হয় তবে তা অনুরোধ করতে পারে। তারিখ নির্ধারণের পরে থেকে যদি সংস্থানটি সংশোধন করা হয়, ওয়েব সার্ভারটি 200 ওকে প্রতিক্রিয়া সহ প্রতিক্রিয়া জানায় এবং সংস্থানটি ফেরত দেয় বা যদি তারিখ সেট হওয়ার পরে থেকে সংস্থানটি পরিবর্তন করা হয় না, ওয়েব সার্ভারটি 304 সংস্থান করে রিসোর্সটি ফেরত না দিয়ে সংশোধিত নয় ।

গুগল ব্যান্ডউইথে সংরক্ষণ করতে পদ্ধতি # 3 ব্যবহার করে অনেক অনুরোধ করে। আপনি এটি আপনার ওয়েব সার্ভার লগ ফাইলগুলিতে দেখতে পাবেন।

দ্রষ্টব্য: এটি সম্ভব যে কোনও সামগ্রীর পরিচালনা ব্যবস্থা (সিএমএস) বা অন্যান্য সফ্টওয়্যার কোনও প্রতিক্রিয়া শিরোনামের মধ্যে যথাযথভাবে তারিখ সরবরাহ করতে পারে না।

এই তারিখের উদাহরণগুলি গুগল অ্যাপ্লায়েন্স ডকুমেন্টেশন থেকেও আসে তবে সাধারণ অনুসন্ধান সম্পর্কিত অন্যান্য স্থানেও রয়েছে। আমি এই বিবরণটি সরঞ্জামের ডকুমেন্টেশন থেকে কেবল এ কারণে নিয়েছি কারণ এটি কেটে কাটা যায় এবং এমন একটি তালিকা হিসাবে আটকানো যায় যেখানে অন্যান্য জায়গাগুলিতে এটি এতটা পরিষ্কার ছিল না।

4] গুগল URL এর মধ্যে একটি তারিখ সন্ধান করে for এটি নিম্নলিখিত ফর্ম্যাটগুলির সন্ধান করে; YYYMMDDHH - YYYY - YYYYMM।

5] গুগল শিরোনাম ট্যাগের মধ্যে একটি তারিখ সন্ধান করে। এটি নিম্নলিখিত ফর্ম্যাটগুলির সন্ধান করে; YYYMMDDHH - YYYY - YYYYMM যদিও আমি সন্দেহ করি অন্য ফর্ম্যাটগুলি স্বীকৃত হতে পারে। নিচে দেখ.

6] গুগল বডি ট্যাগ (সামগ্রী) এর মধ্যে একটি তারিখ সন্ধান করে। এটি নিম্নলিখিত ফর্ম্যাটগুলির সন্ধান করে; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY যদিও আমি সন্দেহ করি অন্য ফর্ম্যাটগুলি স্বীকৃত হতে পারে। নিচে দেখ.

দ্রষ্টব্য: এটি জানা যায় যে গুগল প্রথম H1ট্যাগের নিচে নির্দিষ্ট তারিখের জন্য বিশেষভাবে সন্ধান করে । এটি কারণ ব্লগগুলি প্রায়শই এই স্থানে তারিখ রাখে।

7] গুগল এই জাতীয় একটি মেটা ট্যাগ অনুসন্ধান করে। <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

গুগল এছাড়াও নিম্নলিখিত তারিখের ফর্ম্যাটগুলি স্বীকৃতি দিতে বলা হয়।

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - ডব্লিউ কে, মন ডি, ওয়াইআর - ডি মন, ওয়াইআর - মন ইয়াই - মোন ডি, ওয়াইআর - মন ইয়াই - ইয়িওয়াই-ডিএম - ইয়াইওয়াইডিএম - ইয়াইওয়াই / ডি / এম - ডিএম-ইয়াইওয়াই - ডিএমওয়াইওয়াই - ডি / এম / ইয়াইওয়াই - DD-MM-YY - MM-DD-YY - DD / MM / YY - MM / DD / YY - YYYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYY - MMDDYYYY - DYDMYY - MMDYYMY

আমি যে গবেষণাটি পেয়েছি তা সময়ের প্রশ্নের উত্তর দেয়নি।

উদ্ধৃত উদাহরণগুলির ক্ষেত্রে, পৃষ্ঠাগুলি একটি স্প্যান ট্যাগ বাদে তারিখের ক্লু সরবরাহ করে না যা উপেক্ষা করা হতে পারে। এটা সম্ভব যে এসই সফ্টওয়্যার / ওয়েব সার্ভার কোনও প্রতিক্রিয়া শিরোনামের মধ্যে তৈরি এবং পরিবর্তিত তারিখগুলি ফিরিয়ে দিতে পারে না।

গুগল কেন এবং কীভাবে এই তারিখগুলি উত্পন্ন করেছিল তা একটি ভাল প্রশ্ন যা কখনই সমাধান হতে পারে না। আমি তবে তাকাতে হবে।


3
"গুগল এই ক্রমে পৃষ্ঠাগুলির তারিখগুলি অনুসন্ধান করে; ইউআরএল, শিরোনাম ট্যাগ, বডি (সামগ্রী), মেটা ট্যাগস, এইচটিটিপি প্রতিক্রিয়া শিরোনাম?" এই গবেষণার জন্য আপনার কি কোনও সংখ্যা বা পরিসংখ্যান আছে ?. আপনি এখানে যে পোস্ট করেছেন তার জন্য যদি আপনি রেফারেন্স পোস্ট করতে পারেন তবে আমাদের সবার জন্য এটি আরও ভাল।
প্যাটোমাস

আমি আপনার এই জিজ্ঞাসা প্রশংসা করি। আমি যা পেয়েছি তার বেশিরভাগটি বিটস এবং টুকরোয় ছিল। তালিকাটি বেশ কয়েকটি জায়গায় পাওয়া গেছে, তবে গুগল অনুসন্ধানের জন্য ডকুমেন্টেশনে অর্ডারটি পাওয়া গেছে এবং অন্য জায়গাগুলিতে অনুচ্ছেদে ব্যাক আপ পাওয়া গেছে বলে মনে হয়। আমি আক্ষরিকভাবে বেশ কয়েকটি ডজন নথি দেখেছি যা খুঁজে পেতে বেশ খানিকটা সময় নিয়েছিল। আমি এই বিষয়ে সতর্কতার সাথে চেষ্টা করেছিলাম যে আমাকে বিভিন্ন উত্স থেকে ডেটা টুকরো টুকরো করে ফেলতে হয়েছিল যেহেতু এ সম্পর্কিত কোনও সরাসরি তথ্য বলে মনে হচ্ছে না। আমি বিবৃতিটি আরও পরিষ্কার করার জন্য সম্পাদনা করব।
ক্লটনেট

আমি এটিও নিশ্চিত করতে পারি যে কিছু article.post > div.post-content > h2 > pস্তরের অন্তর্ভুক্ত নিম্নলিখিত তারিখের ফর্ম্যাট স্ট্রিংটি সম্প্রতি গুগল গ্রহণ করেছে এবং তারিখটি প্রদর্শন করতে ব্যবহৃত হয়েছিল: "সর্বশেষ আপডেট: অক্টোবর 7, 2018"
ম্যাট

-2

আপনি যদি ডোমেনটির বয়স কত দেখতে চান তবে ওয়েবেব্যাক মেশিনের জন্য গুগলে অনুসন্ধান করুন । এই সাইটটি আপনি যা খুঁজছেন: http://archive.org/web/

আপনি যদি চৌর্যবৃত্তি সনাক্ত করতে চান তবে এই লিঙ্কটি আপনাকে সহায়তা করবে: http://copyscape.com/signup.php?pro=0&o=f

এছাড়াও, "লিগ্রিরিজম চেকার" এর জন্য গুগলে অনুসন্ধান করুন।

আশা করি আমি সাহায্য করেছি।


3
সম্মানের সাথে, আপনাকে প্রশ্নটি পুনরায় পড়তে হবে।
ক্লোজটনোক

প্রশ্নটি হল "একটি পৃষ্ঠা কত পুরানো তা কীভাবে বলা যায়?" দয়া করে আমার লিঙ্কটি অনুসরণ করুন এবং আপনি দেখতে পাবেন যে উত্তরটি ভাল। এটি পড়ার জন্য ধন্যবাদ।
পাসকুট

3
আপনি প্রশ্ন পড়ছেন না। আপনি শিরোনাম পড়ছেন। উপায় মেশিন প্রশ্নের উত্তর দেয় না।
ক্লোজটনোক

আপনি ঠিক বলেছেন, আমি আমার প্রশ্ন সম্পাদনা করেছি ..
পাসকুট

1
ওয়েব্যাক মেশিন ডোমেনে পৃষ্ঠাটির উপর নজর রাখে। নির্দিষ্ট পৃষ্ঠাগুলির মধ্যে তারিখগুলি তুলনা করা কার্যকর নয়। কোনটি আগে পোস্ট করা হয়েছিল তা বলার জন্য আমি সঠিক উপায়ের সন্ধান করছি।
রেনান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.