জেনে নিন কিভাবে Robots.txt ফাইল তৈরী করবেন

robots.txt ফাইল দিয়ে সার্চ ইন্জিনের বট ক্রাউলার এবং স্পাইডার সাইটের কোন্ কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা এসব নিয়ন্ত্রন করা যায়। এই নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস এক্সক্লুসন প্রটোকল (Robots Exclusion Protocol) বা রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots Exclusion Standard) .এই ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন চিনে নেয়া যাক

 Robots.txt Protocol – Standard Syntax & Semantics
অংশ/চিহ্ন বর্ননা
User-agent: নির্দেশকরেরোবট(সমূহ)কে
*
  1. এটারঅর্থসবরোবট
disallow: প্রতিটিলাইন disallow: দিয়েশুরুহয়।এরপরেআপনি / দিয়ে URL path ঠিককরেদিতেপারেন।এতেকরেওই path বাফাইলবাওইপেজআররোবটক্রাউলকরবেনা।যদিকোন path নাদেনঅথ্যাৎফাকাথাকেতাহলে disallow  কাজকরবে allow এর।
# কমেন্টকরারজন্য।এটারপরেকোনলাইনএজন্যলেখাহয়যাতেএইলাইনটিপরেবোঝাযায়যেনিচেরকোডগুলিকিবিষয়কহবে।

Disallow ফিল্ড আংশিক বা পূর্নাঙ্গ URL উপস্থাপন করতে পারে।/ চিহ্নের পর যে path উল্লেখ থাকবে সেই path রোবট ভিজিট করবেনা।যেমন
Disallow: /help
#disallows both /help.html and /help/index.html whereas

Disallow: /help/
# would disallow /help/index.html but allow /help.html

কিছু উদাহরন
সব রোবট অনুমোদন করবে করবে সব ফাইল ভিজিটের জন্য (wildcard “*” নির্দেশ করে সব রোবট)
User-agent: *
Disallow:

সব রোবট কোন ফাইল ভিজিট করবেনা
User-agent: *
Disallow: /

গুগলবট এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কেউ ভিজিট করতে পারবেনা
User-agent: GoogleBot
Disallow:

User-agent: *
Disallow: /

GoogleBot এবং yahoo Slurp এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কারো থাকবেনা
User-agent: GoogleBot
User-agent: Slurp
Disallow:

User-agent: *
Disallow: /

কোন একটা নির্দিষ্ট বটের ভিজিট যদি বন্ধ করতে চান তাহলে
User-agent: *
Disallow:

User-agent: ipage
Disallow: /

এই ফাইলটি দ্বারা যদি আপনার সাইটের কোন URL বা পেজ crawl করা বন্ধ করে দেন তারপরেও কিছু সমস্যার কারনে এই পেজগুলি কোথাও কোথাও দেখাতে পারে। যেমন Referral Log এ URL গুলি দেখাতে পারে। তাছাড়া কিছু কিছু Search Engine আছে যাদের Algorithm খুব উন্নত নয় ফলে এসব ইন্জিন থেকে যখন স্পাইডার/বোট crawl করার জন্য পাঠায় তখন এরা robots.txt ফাইলের নির্দেশনাকে উপেক্ষা করে আপনার সব URL crawl করে যাবে।

এসব সমস্যা এড়াতে আরেকটা ভাল পদ্ধতি হল এই সমস্ত কনটেন্টকে htaccess ফাইল দিয়ে পাসওয়ার্ড বা বন্ধ করে রাখা।

আরো পোস্ট দেখুন

comments