فایل robots.txt چیست؟
زمان مطالعه 2 دقیقه
۱۱ مهر ۱۴۰۰
نویسنده پایدار سامانه
تعداد کامنت 0

فایل robots.txt چیست؟

فایل robots.txt یک فایل متنی ساده است که با محتوایت آن می توانید به ربات های جستجوگر و خزنده های آنها بگویید چگونه صفحات سایت شما را فهرست بندی یا ایندکس کنند، یعنی کدام صفحات را می خواهید مورد توجه خزنده ها قرار گیرند و کدام صفحات از ساتتان را را نمی خواهید خزیده شوند و ایندکس نشوند. قواعد و قوانینی مشخص شده است که در این فایل می توانید بصورت شفاف این دستور را به خزنده های موتور های جستجوگر بدهید و آنها هم حتما تبعیت می کنند

robots.txt چیست؟

پروتکل حذف ربات ها که معادل فارسی عبارت robots exclusion protocol می باشد و بصورت مخفف REP نوشته می شود در این فایل خلاصه و پیاده سازی شده است، روال مشخص و راحتی دارد و با مشاهده نمونه هایی از این فایل می توانید به راحتی دستورات مد نظر خود را به روبات متنی سایتتان وارد کنید.

آموزش ساخت فایل robots.txt

شما به راحتی و بدون هیچ ابزار و نرم افزاری می توانید با Notepad خود ویندوز یک فایل متنی جدید باز کنید و محتویات فایل خود را که در ادامه با آن آشنا می شوید بنویسید و با ذخیره کردت آن فایل با نام Robots.txt به این فایل دست پیدا کنید، هیچ چیز اضافه ای وجود ندارد که بیشتر و بهتر از این باشد. فقط کافیست سینتکس کلی دسترات را رعایت کنید و محتویات فایل را مطابق الگو وارد کنید و نام آن را حتما همان که عنوان شد قرار دهید. بعد از ذخیره فقط کافیست که بر روی هاست خود آپلود کنید. البته سایت هایی هم برای این منظور ساخته شده اند که بصورت آنلاین فایل مدنظر شما را می سازند، می توانید در گوگل عبارت Robots.txt Generator را جستجو کنید و تعداد بسیاری از این سایت های سازنده robots.txt را مشاهده کنید.

محل قرار گیری و آپلود Robots.txt

فایل Robots.txt که در ادامه نمونه هایی از آن را بررسی خواهیم کرد در فهرست اصلی سایت یا دایرکتوری ریشه (Root Directory) باید بارگذاری شود و نام آن حتما و دقیقا Robots.txt باید باشد، خزنده ها می دانند که ممکن است فایلی با این نام در ریشه وب سایت شما قرار گرفته باشد و اگر اینچنین باشد محتوایت آن را مورد بازبینی قرار می دهند. منظور از ریشه وب سایت یعنی بدون در نظر گرفتن فولدر خاصی مستقیم در انتهای دامین در دسترس باشد، مطابق آدرس زیر:

https://paydarsamane.com/robots.txt

ساختار فایل Robots.txt

Robots.txt دارای ساختاری بسیار ساده و انعطاف پذیر است. سینتکس اصلی آن در زیر آورده شده است:

User-agent:
Disallow:

عبارت “User-agent” نمایانگر ربات موتور جستجو و “Disallow” صفحاتی را که نباید ایندکس شوند فهرست می شوند. همچنین می توانید Comment های خود را بعد از علامت # اضافه کنید که هیچ اثری در عملکرد این فایل ندارند و فقط جهت اضافه کردن توضیحاتی برای انسان می تواند اضافه شود، بعنوان مثال:

User-agent: *
Disallow: /temp/
# user agents are not allowed to see the /temp directory.

در کد بالا منظورمان این است که تمامی ربات ها مجاز به ورود هستند، دارکتوری temp باید نادیده گرفته شود و خط سوم هم فقط توضیحاتی در این خصوص است که می تواند جهت یادآوری یا آموزش و هر علت دیگری نوشته شود که هیچ تاثیری در مکانیزم آن ندارد.

نمونه فایلهای رایج Robots.txt

User-agent:*
Disallow:

فایل robots.txt فوق می گوید همه خزنده های وب مجاز به خزیدن یا فهرست بندی کل صفحات سایت هستند.

User-agent: *
Disallow: /

فایل راه اندازی robots.txt فوق برای جلوگیری از ایندکس کردن کل صفحات وب سایت برای تمامی خزنده های وب استفاده می شود.

User-agent: xyzbot
Disallow: /

پرونده robots.txt فوق برای مسدود کردن سایت از یک ربات بخصوص استفاده می شود که در اینجا بعنوان نمونه وارد شده است و هر ربات دیگری می تواند باشد.

User-agent: Googlebot
Disallow: /no-google/

فایل راه اندازی robots.txt فوق برای جلوگیری از خزیدن یک وب خزنده خاص که در اینجا خزنده گوگل است در یک پوشه خاص استفاده می شود.

User-agent: Googlebot
Disallow: /no-google/blocked-page.html

راه اندازی robots.txt فوق برای جلوگیری از خزیدن یک وب سایت خاص از یک صفحه وب خاص استفاده می شود.

اشتراک گذاری در شبکه های اجتماعی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *