অ্যাপল কীভাবে ইমেলগুলিতে তারিখ, সময় এবং ঠিকানা খুঁজে পায়?


128

আইওএস ইমেল ক্লায়েন্টে, যখন কোনও ইমেলটিতে একটি তারিখ, সময় বা অবস্থান থাকে, পাঠ্যটি একটি হাইপারলিংক হয়ে যায় এবং কেবলমাত্র লিঙ্কটি ট্যাপ করে একটি অ্যাপয়েন্টমেন্ট তৈরি বা মানচিত্রের দিকে তাকানো সম্ভব হয়। এটি কেবল ইংরেজিতে ইমেলগুলির জন্যই নয়, অন্যান্য ভাষায়ও কাজ করে। আমি এই বৈশিষ্ট্যটি পছন্দ করি এবং তারা এটি কী করে তা বুঝতে চাই।

এটি করার সহজ উপায় হ'ল অনেকগুলি নিয়মিত ভাব প্রকাশ করা এবং সেগুলি চালানো। তবে আমি এটি খুব ভালভাবে স্কেল করতে যাচ্ছি না এবং কেবলমাত্র একটি নির্দিষ্ট ভাষা বা তারিখের ফর্ম্যাট ইত্যাদির জন্য কাজ করব etc. আমি মনে করি যে অ্যাপল অবশ্যই সত্ত্বা নিষ্কাশন করতে মেশিন লার্নিংয়ের কিছু ধারণা ব্যবহার করবে (8:00 pm, 8PM, 8:00, 0800, 20:00, 20 ঘন্টা, 20h00, 2000 ইত্যাদি)।

কোনও ধারণা কীভাবে অ্যাপল তার ইমেল ক্লায়েন্টে এত দ্রুত সত্তাগুলি সরিয়ে নিতে সক্ষম? কোন মেশিন লার্নিং অ্যালগরিদম আপনি এই ধরনের কাজ সম্পাদন করতে প্রয়োগ করবেন?


5
আমি এই সম্পর্কে বিশেষত রেজেক্স ট্রিকটিও ভেবেছিলাম। আমি জানি তাদের এটির পেটেন্ট রয়েছে, তাই আপনি এটি অনুসন্ধান করার চেষ্টা করতে পারেন। তবে আমি এটিতে খুব আগ্রহী হব। +1
থমাস জাংব্লুট

15
আসলে রিজেক্সপ ট্রিক সম্ভবত খুব কম ত্রুটি হারের সাথে 99% কেস ধরবে। এবং আপনি যখন নিয়মিত এক্সপ্রেশনগুলি ভালভাবে অনুকূল করেন তখন খুব দ্রুত হয়। সুতরাং আমি অবাক হব না যদি এটি সত্যিই কেবল নিয়মিত অভিব্যক্তিগুলির একটি সেট।
কিট আছে - অ্যানি-মৌসে

উত্তর:


153

তারা সম্ভবত এর জন্য তথ্য নিষ্কাশন কৌশল ব্যবহার করে।

স্ট্যানফোর্ডের সুতীম সরঞ্জামটির একটি ডেমো এখানে রয়েছে:

http://nlp.stanford.edu:8080/sutime/process

আপনি কোনও নথিতে এন-গ্রাম (একটানা শব্দ) সম্পর্কে গুণাবলী নিষ্কাশন করবেন:

  • numberOfLetters
  • numberOfSymbols
  • লম্বা
  • previousWord
  • nextWord
  • NextWordNumberOfSymbols
    ...

এবং তারপরে একটি শ্রেণিবদ্ধকরণ অ্যালগরিদম ব্যবহার করুন এবং এটি ইতিবাচক এবং নেতিবাচক উদাহরণগুলি খাওয়ান:

Observation  nLetters  nSymbols  length  prevWord  nextWord isPartOfDate  
"Feb."       3         1         4       "Wed"     "29th"   TRUE  
"DEC"        3         0         3       "company" "went"   FALSE  
...

আপনি প্রতিটির 50 টি উদাহরণ দিয়ে দূরে সরে যেতে পারেন তবে আরও মারিয়র। তারপরে, অ্যালগরিদম সেই উদাহরণগুলির উপর ভিত্তি করে শেখে এবং ভবিষ্যতে যে উদাহরণগুলি আগে দেখা যায়নি সেগুলি প্রয়োগ করতে পারে।

এটি যেমন নিয়ম শিখতে পারে

  • পূর্ববর্তী শব্দটি যদি কেবলমাত্র অক্ষর এবং সম্ভবত পিরিয়ড হয় ...
  • এবং বর্তমান শব্দটি "ফেব্রুয়ারি", "মার্চ", "দ্য" ...
  • এবং পরবর্তী শব্দটি "দ্বাদশ" এ, যে কোনও সংখ্যা ...
  • তারপর তারিখ

বিষয়টিতে গুগল ইঞ্জিনিয়ারের একটি শালীন ভিডিও এখানে


4
মজাদার! আমি এর আগে এমনটা করি না। আপনাকে ধন্যবাদ এল প্রধান।
মার্টিন

2
এল চিফ, আপনার মতে, কোন ধরণের মডেল এর জন্য সবচেয়ে ভাল হবে? Bayesian?
মার্টিন

5
আমি দৃ sure়ভাবে নিশ্চিত যে এ জাতীয় দৃষ্টিভঙ্গি প্রায়, এফ-পরিমাপের চেয়ে আরও ভাল সম্পাদন করবে না। 0.9। (দ্রষ্টব্য, এটি কেবল একটি অনুভূতি, আমি ভুল হতে পারি)। অন্যদিকে, আমি আরও ভালভাবে সঞ্চালনের জন্য সমস্ত সাধারণ ফর্ম্যাটগুলি এনকোডিংয়ের নজিরবিহীন পন্থাটি বাদ দিয়েছিলাম (সম্ভবত প্রায় 0.99+ প্রদত্ত যে সর্বাধিক ঘন ফর্ম্যাটগুলি কখনও মিস হবে না) এবং রানটাইম সময় + কার্যকর করতে আরও দ্রুত হবে।
বি। বুচোল্ড্ড

@ বি.বুকহোল্ড, সম্ভবত, তবে তারপরে আপনাকে পরবর্তী ভাষা এবং পরবর্তী ভাষার জন্য একই পরিমাণ কাজ করতে হবে, তবে আমার সমাধানটি সাধারণ।
নীল ম্যাকগুইগান

@ নীল ম্যাকগুইগান, সত্য। তবে আপনাকে সেই সমস্ত ফর্ম্যাট / ভাষাগুলির জন্য প্রচুর প্রশিক্ষণের ডেটা সরবরাহ করতে হবে যা অনেক বেশি কাজ।
বি। বুচোল্ড

110

এটা একটা প্রযুক্তি অ্যাপল আসলে একটি খুব দীর্ঘ সময় আগে বিকশিত নামক Apple Data Detectors। আপনি এখানে এটি সম্পর্কে আরও পড়তে পারেন:

http://www.miramontes.com/writing/add-cacm/

মূলত এটি পাঠ্যকে বিশ্লেষণ করে এবং নিদর্শনগুলি সনাক্ত করে যা নির্দিষ্ট নির্দিষ্ট ডেটা উপস্থাপন করে, তারপরে এটিতে ওএস-প্রাসঙ্গিক ক্রিয়াকলাপ প্রয়োগ করে। এটা ঝরঝরে।


24
এটা সঠিক উত্তর. অন্যান্য উত্তরগুলি আপনাকে কীভাবে এটি করতে পারে তা আপনাকে বলতে পারে তবে অ্যাপল কীভাবে এটি করে তা আপনাকে জানায় ।
লাও

2
আমরা কি লেখার ক্ষেত্রে আরও কিছু বিশদ পেতে পারি? একক লিঙ্ক এন্ট্রি যতটা যোগ করে না
শিগাটা

14
আহা, সুতরাং এটিই আমার ওয়েবসাইটের সমস্ত হিটগুলি এসেছে :) এফডাব্লুআইডাব্লু, এটিজি-র দিনগুলিতে আমি অ্যাপল ডেটা ডিটেক্টরগুলির প্রকল্পের নেতৃত্ব ছিলাম; আমি এখানে যা যুক্ত করতে পারি তা হ'ল এটি কেবল একটি ওএস 8 এবং 9 প্রযুক্তি ছিল - এটি কখনই ওএস এক্সে উঠেনি OS এবং তাই সত্যিই বলতে পারি না, আর্কিটেকচারটি কিছুটা আলাদা হলে আমি অবাক হব না। তবুও, আমি আশা করি কিছু ধরণের ব্যাকরণ / পার্সার সিস্টেম এখনও এটির কেন্দ্রবিন্দুতে রয়েছে। কম্পিউটারগুলি আজকাল দ্রুত, এবং সাধারণ ব্যাকরণগুলি খুব সস্তা।
জিম মিলার

18

এটাকে বলা হয় সময়গত অভিব্যক্তি সনাক্তকরণ এবং পার্সিং। আপনাকে শুরু করার জন্য এখানে কয়েকটি গুগল অনুসন্ধান রয়েছে:

https://www.google.com/#hl=en&safe=off&sclient=psy-ab&q=timebank+timeml+timex

https://www.google.com/#hl=en&safe=off&sclient=psy-ab&q=temporal+expression+tagger


+1 টি বলার অপেক্ষা রাখে না কি এর "এক্সপ্রেশন সেই সময় পড়ুন চিহ্নিতকরণের" নাম কিছু / সাহিত্য অনেক জন্য
arturomp

5

ধাঁধার একটি অংশ NSDataDetectorক্লাস হতে পারে । এটি ফোন নম্বরগুলির মতো কিছু মানক ধরণের স্বীকৃতি জানাতে ব্যবহৃত হয়েছিল।


2
দেখে মনে হচ্ছে NSDataDetectorক্লাসটি অ্যাপল এটি বাস্তবায়নের জন্য যে প্রচেষ্টা করেছে তার ফল is প্রশ্নটি হচ্ছে শ্রেণি অভ্যন্তরীণভাবে কীভাবে কাজ করে?
ওলে বেগম্যান

3
এটি এনএসআরগুলারএক্সপ্রেশন.হ.-এ রয়েছে, সুতরাং এটি বেশ সম্ভব বলে মনে হচ্ছে যে এটি নিয়মিত প্রকাশের এক সেট মাত্র।
রিফ্রাফ

2

আমি একবার পাইপার্সিং ব্যবহার করে এটি করার জন্য একটি পার্সার লিখেছিলাম। এটি সত্যিই খুব সহজ, আপনার কেবল সমস্ত বিভিন্ন উপায়ে সঠিকভাবে নেওয়া দরকার, তবে অনেকগুলি নেই। এটি কেবল কয়েক ঘন্টা সময় নিয়েছিল এবং বেশ দ্রুত ছিল।


থেকে এক্সট্র্যাক্ট Miramontes "এটা যেমন একটি URL হিসেবে একটি পারমাণবিক গঠন একটি শনাক্তকারী হার্ডকোড করা কঠিন নয়, কিন্তু সারগর্ভ কাজ এমন একটি নির্মাণ জটিল কাঠামো তৈরি করার প্রক্রিয়াকে খুলে যে নৈপুণ্য প্রয়োজন বোধ করা হয়।"
রেমি

1

তারা কীভাবে এটি করেছে সে সম্পর্কে অ্যাপলের একটি পেটেন্ট রয়েছে এবং কম্পিউটারের ডেটাতে কাঠামোয় কোনও ক্রিয়া সম্পাদনের জন্য পদ্ধতি এবং পদ্ধতি এবং এখানে এই পেটেন্ট আপেল-পেটেন্ট-অন-এনএসডিটাডেেক্টর সম্পর্কিত একটি গল্প রয়েছে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.