فایل Robots.txt چیست؟
یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار میگیرد. در حقیقت وظیفه این فایل معرفی بخشهای قابل دسترسی و بخشهای محدود شده برای دسترسی رباتها یا با تعریفی دقیقتر، خزندگان سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایتها ایجاد شده اند میباشد.
از ایندکس شدن چه صفحاتی باید جلوگیری شود؟
با استفاده از فایل robots.txt میتوان از ایندکس شدن بسیاری از صفحات مانند دسته بندی ها، تگ ها و صفحات خاص جلوگیری کرد. برخی از صفحاتی که باید توسط robots.txt از ایندکس شدن جلوگیری شوند، موارد زیر است.
صفحاتی که محتوای تکراری دارند ( duplicate content)
تگ ها و برچسب هایی که باعث ایجاد محتوای تکراری و یا اضافه در سایت می شوند
فیلتر بندی صفحات محصول که شامل فیلتر های قیمت، رنگ و ... می شوند
صفحاتی که با سرچ کردن در خود سایت ایجاد می شوند ( در صورتی که صفحات اصلی و مهم شما توسط کاربران در سایت سرچ نشود)
تمامی صفحات ادمین و پنل سایت
صفحه پروفایل کاربران سایت
از ایندکس شدن چه صفحاتی باید جلوگیری شود؟
با استفاده از فایل robots.txt میتوان از ایندکس شدن بسیاری از صفحات مانند دسته بندی ها، تگ ها و صفحات خاص جلوگیری کرد. برخی از صفحاتی که باید توسط robots.txt از ایندکس شدن جلوگیری شوند، موارد زیر است.
صفحاتی که محتوای تکراری دارند ( duplicate content)
تگ ها و برچسب هایی که باعث ایجاد محتوای تکراری و یا اضافه در سایت می شوند
فیلتر بندی صفحات محصول که شامل فیلتر های قیمت، رنگ و ... می شوند
صفحاتی که با سرچ کردن در خود سایت ایجاد می شوند ( در صورتی که صفحات اصلی و مهم شما توسط کاربران در سایت سرچ نشود)
تمامی صفحات ادمین و پنل سایت
صفحه پروفایل کاربران سایت
چرا باید فایل Robots.txt داشته باشیم؟
صاحبان وبسایت و وبمسترها میتوانند ورود رباتها به وبسایت را از راههای مختلفی کنترل کنند. کنترل کردن هم دلایل مختلفی دارد.
فایل Robots.txt سایت من کجاست؟
در صورتی فایل Robots.txt در پرونده های سایت شما موجود باشد، با طریق وارد کردن آدرس domain.com/robots.txt در مرورگر، تصویری مشابه با عکس زیر مشاهده خواهید کرد: