فایل Robots.txt چیست و چه کاربردی دارد؟

          آی تی من 
            بازدید : 18
          یکشنبه 21 دی 1399
           نظرات (0)
        

اجازه دهید برای درک آسان‌تر فایل Robots.txt از یک مثال ساده شروع کنیم.

فرض کنید اولین بار برای انجام یک کار اداری وارد سازمان بزرگی می‌شوید؛ هیچ جایی را هم نمی‌شناسید. مدیران این سازمان هم چون می‌دانند مراجعه کننده‌ها همه‌جا را نمی‌شناسند، پس کنار در ورودی یک باجه اطلاعات درست کرده‌اند و یک یا چند نفر را مسئول راهنمایی و نگهبانی گذاشته‌اند. اگر این افراد راهنما و نگهبان نباشند، کل سازمان دچار هرج و مرج می‌شود. هرکسی برای انجام کارهایش راهروها را بالا و پایین می‌‌کند و کارمندان هم نمی‌توانند کارها را به درستی انجام دهند.

فایل Robots.txt در وبسایت‌ها نقش همین راهنماها و نگهبانان را دارد اما نه برای کاربرانی که وارد سایت می‌شوند، بلکه برای ربات‌هایی که برای بررسی سایت یا هر کار دیگری می‌خواهند در بخش‌های مختلف سایت سرک بکشند.

ربات؟!

خب بله دیگه. فقط آدم‌ها بازدید کننده سایت شما نیستند که. ربات‌هایی هستند که به دلایل مختلفی به سایت شما سر می‌زنند.

ربات‌ها در واقع نرم‌افزارهایی هستند که به صورت خودکار صفحه‌های مختلف را باز و بررسی می‌کنند.

ربات‌های موتور جستجوی گوگل مهم‌ترین ربات‌هایی هستند که در اینترنت می‌چرخند. این ربات‌ها هر روز چندین بار صفحه‌های سایت شما را بررسی می‌کنند. اگر وبسایت بزرگی داشته باشید، امکان دارد ربات‌های گوگل تا چند ده هزار بار در روز صفحه‌های سایت را بررسی کنند.

هر کدام از این ربات‌ها کار خاصی می‌کنند. مثلاً مهم‌ترین ربات گوگل یا همان Googlebot کارش پیدا کردن صفحه‌های جدید در اینترنت و دریافت آن برای بررسی‌های بیشتر توسط الگوریتم‌های رتبه‌بندی کننده است. پس ربات‌ها نه تنها ضرری برای سایت شما ندارند، بلکه باید خیلی هم از آنها استقبال کرد.

اما باید حواستان باشد که این ربات‌ها زبان آدمیزاد سرشان نمی‌شود! یعنی همینطور مثل چی سرشان را می‌ندازند پایین و سر تا پای سایت را بررسی می‌کنند. بعضی وقت‌ها هم ربات‌ها گوگل چیزهایی را که دوست نداریم هر کسی ببیند را برمی‌دارند می‌برند در سرورهای گوگل ذخیره می‌کنند و به عالم و آدم نشان می‌دهند. خب پس باید راهی باشد که جلوی آنها را بگیریم.

خوشبختانه دسترسی ربات‌ها به صفحه‌ها یا فایل‌ها را می‌توانیم کنترل کنیم.

می‌توانید با نوشتن دستورهایی ساده در یک فایل به نام Robots.txt جلوی ورود ربات را به بخش‌هایی از سایت بگیرید، به آنها بگویید اجازه ندارند وارد بخشی از سایت شوند یا دستوراتی خاص بدهید تا سرور میزبان سایت شما الکی مشغول ربات‌ها نشود و همینطور وبسایت خود را از نظر سئوی سایت بهینه‌سازی کنید.

در ادامه می‌خواهیم با جزئیات کامل درباره همین فایل مهم صحبت کنیم. قدم به قدم جلو می‌رویم تا ببینیم چطور می‌توان از فایل Robots.txt استفاده کرد؛ چطور می‌توانیم ربات‌ها را محدود کنیم، چطور از ایندکس شدن صفحه‌ها جلوگیری کنیم و در نهایت یک فایل Robots.txt عالی بسازیم.

اول ببینیم این فایل Robots.txt دقیقاً چیست و چه وظیفه‌ای دارد.
فایل Robots.txt چیست؟

فایل Robots.txt مثل یک مجوز دهنده به ربات‌ها است. وقتی ربات‌ها می‌خواهند صفحه‌هایی از سایت را بررسی کنند، اول فایل Robots.txt را می‌خوانند. در این فایل با چند دستور ساده مشخص می‌کنیم که ربات اجازه بررسی کدام صفحه‌ها را دارد و کدام صفحه‌ها را نباید بررسی کند.

مثل تصویر زیر که در آن اجازه دسترسی به پوشه‌ای به نام photos و اجازه دسترسی به صفحه‌ای به نام files.html را ندادیم.

همانطور که گفتیم مهم‌ترین ربات‌ها در اینترنت ربات‌های موتور جستجوی گوگل هستند پس ما در ادامه مقاله هرجا می‌گوییم ربات منظورمان ربات‌های گوگل است.

البته ربات‌های دیگری متعلق به سرویس ‌دهنده‌های مختلف اینترنتی هستند. بعد از خواندن این مقاله می‌توانید هر نوع رباتی را فقط با دانستن نامش محدود و کنترل کنید.
چرا باید فایل Robots.txt داشته باشیم؟

صاحبان وبسایت و وبمسترها می‌توانند ورود ربات‌ها به وبسایت را از راه‌های مختلفی کنترل کنند. کنترل کردن هم دلایل مختلفی دارد.
بررسی و تحلیل عملکرد محتوا و گزارش گیری از آنحتما بخوانید: بررسی و تحلیل عملکرد محتوا و گزارش گیری از آن

مثلاً تمام صفحات یک سایت از درجه اهمیت یکسانی برخوردار نیستند. بیشتر وب‌مسترها علاقه‌ای ندارند تا پنل مدیریت وب‌سایت‌شان در موتورهای جستجوگر ایندکس شود و در اختیار عموم قرار گیرد یا اینکه برخی از صفحات سایت‌شان محتوای قابل قبولی ندارد و به همین دلیل ترجیح می‌دهند آن صفحات توسط ربات‌ها بررسی نشوند. یا اگر وبسایتی دارید که هزاران صفحه دارد و بازدید کل سایت هم زیاد است، احتمالاً دوست ندارید منابع سرور شما (پهنای باند، قدرت پردازشی و ..) برای بازدید‌های پشت سرهم ربات‌ها مصرف شود.

robots.txt چیست؟

اینجا است که فایل Robots.txt نقش‌آفرینی می‌کند.

در حال حاضر، هدف اصلی فایل ربات محدود کردن درخواست‌های بیش از حد بازدید از صفحات وبسایت است. یعنی اگر ربات‌ها می‌‌خواهند روزی شونصد بار یک صفحه را بررسی کنند، ما با نوشتن یک دستور ساده در فایل Robot جلوی آنها را می‌گیریم تا بفهمند رئیس کیست!
آیا با فایل Robots.txt می‌توان صفحه‌ای را از نتایج جستجو حذف کرد؟

تا همین چند وقت پیش اگر می‌خواستید صفحه‌ای را به طور کامل از دید ربات‌های گوگل دور کنید و حتی در نتایج جستجو دیده نشود.، با دستور noindex در همین فایل امکان‌پذیر بود اما حالا کمی داستان پیچیده‌تر شده است.این فایل برای دور نگهداشتن صفحه‌ها از موتور جستجوی گوگل کمک زیادی به حذف صفحه از نتایج جستجو نمی‌کند.

گوگل اعلام کرد که برای حذف صفحه‌ها از نتایج جستجو، بهتر است از را‌ه‌های دیگری به جز فایل Robots.txt استفاده کنید. البته در حال حاضر می‌توان از این فایل برای خارج کردن فایل‌هایی مثل تصاویر، ویدیو یا صدا از نتایج جستجو استفاده کنید اما برای صفحات وب مناسب نیست.

راه‌های دیگر جایگزین برای حذف صفحه از نتایج جستجئی گوگل را در ادامه معرفی می‌کنیم.
آشنایی با ربات‌های گوگل

گوگل تعدادی ربات خزنده (Crawler) دارد که به صورت خودکار وبسایت‌ها را اسکن می‌کنند و صفحه‌ها را با دنبال کردن لینک‌ها از صفحه‌ای به صفحه دیگر پیدا می‌کنند.

لیست زیر شامل مهم‌ترین ربات‌های گوگل است که بهتر است بشناسید:

    AdSense - رباتی برای بررسی صفحه‌ها با هدف نمایش تبلیغات مرتبط
    Googlebot Image - رباتی که تصاویر را پیدا و بررسی می‌کند
    Googlebot News - رباتی برای ایندکس کردن سایت‌های خبری
    Googlebot Video - ربات بررسی ویدیوها
    Googlebot - این ربات صفحات وب را کشف و ایندکس می‌کند. دو نوع Desktop و Smartphone دارد

هر کدام از این ربات‌ها به صورت مداوم، صفحه‌های وبسایت را بررسی می‌کنند. شما می‌توانید در صورت نیاز هرکدام از ربات‌ها را محدود کنید.

این که ربات‌های خزنده هر چند وقت یک بار به سایت شما سر می‌زنند به چند فاکتور بستگی دارد. هر چه در طول روز تعداد بیشتری محتوا در وب‌سایت‌تان قرار بگیرد و تغییرات سایت اهمیت زیادی داشته باشد، ربات‌های جستجوگر دفعات بیشتری به سایت شما مراجعه می‌کنند. برای مثال، در وبسایت‌های خبری که همیشه در حال انتشار خبر و به‌روزرسانی اخبارشان هستند ربات‌ها با سرعت بیشتری صفحات را بررسی و ایندکس می‌کنند.

در سرچ کنسول بخشی به نام Crawl Stats وجود دارد که دفعات بررسی صفحه‌های سایت به صورت روزانه را نمایش می‌دهد. در همین صفحه، حجم دانلود شده توسط ربات‌ها و همینطور زمان بارگذاری صفحه‌ها را می‌توانید ببینید.
چرا فایل Robots.txt مهم است؟

این فایل به چند دلیل اهمیت دارد:
۱. مدیریت ترافیک ربات‌ها به وبسایت

مدیریت ترافیک ربات‌ها از این جهت اهمیت دارد که سرور میزبان وبسایت شما برای پردازش و بارگذاری صفحات برای ربات‌ها مشغول نشود. از طرف دیگر، اکثر سرورها یا میزبان‌های وبسایت از نظر پنهای باند و ترافیک محدودیت دارند؛ به همین دلیل مصرف ترافیک برای ربات‌ها مقرون به صرفه نیست.
۲. جلوگیری از نمایش صفحات یا فایل‌ها در نتایج جستجوی گوگل

اگر در فایل Robots دستور دهید که ربات‌های گوگل اجازه دسترسی به صفحاتی را ندارند، این صفحات کلاً بررسی نمی‌شوند اما هیچ تضمینی وجود ندراد که این صفحه در نتایج جستجوی گوگل ظاهر نشود. امکان دارد ربات‌ها از طریق لینک‌هایی که به همان صفحه داده شده‌اند و کمک گرفتن از همان انکر تکست لینک، صفحه را ایندکس کنند. در حال حاضر بهترین راه برای حذف صفحه‌ای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحه‌ها است. اگر از وردپرس استفاده می‌کنید افزونه‌هایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کد‌ها یا دستورات در قسمت هد هر صفحه فراهم کند.
گوگل ترندز چیست؛ آموزش استفاده از گوگل ترندز در سئو سایتحتما بخوانید: گوگل ترندز چیست؛ آموزش استفاده از گوگل ترندز در سئو سایت

در بخش‌های بعدی درباره حذف صفحه از نتایج جستجو کامل‌تر توضیح دادیم.
۳. مدیریت Crawl Budget

هرچه تعداد صفحات وبسایت شما بیشتر باشد، ربات‌های موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد. همین زمان طولانی، روی رتبه سایت‌تان در نتایج جستجو، تاثیر منفی خواهد گذاشت.

چرا؟ ربات خزنده موتور جستجوی گوگل (همان Googlebot خودمان!) دارای ویژگی به نام Crawl Budget است.

Crawl Budget در حقیقت تعداد صفحاتی از وب سایت‎تان است که ربات گوگل در یک روز آنها را خزیده و بررسی می‌کند. بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وب‌سایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بک‌لینک‌های سایت‌تان تعیین می‌شود.

Crawl Budget به دو بخش تقسیم می‌شود. اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand. خب ببینیم معنی هر کدام چیست و چه تاثیری دارند.

    Crawl Rate Limit

    ربات گوگل (Googlebot)، به شکلی طراحی شده است تا شهروند خوبی برای دنیای اینترنت باشد. خزیدن، اولویت اصلی این ربات است پس طوری طراحی شده که تا بر تجربه کاربری بازدیدکنندگان سایت تاثیری نگذارد. این بهینه‌سازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl در یک روز را محدود می‌کند.

    به طور خلاصه، Crawl Rate Limit نشانگر دفعات ارتباط همزمان ربات گوگل با یک سایت در کنار دفعات توقف این ربات در عملیات خزش یا Crawling وب‌سایت است. نرخ خزش (Crawl Rate) می‌تواند بر اساس چند عامل تغییر کند:

        سلامت خزش (Crawl Health): اگر وب‌سایت سریع باشد و بتواند سیگنال‌ها را به سرعت پاسخ دهد، مطمئناً Crawl Rate بالا می‌رود، اما اگر وب‌سایت شما کند باشد یا در حین Crawl خطاهای سروری به وجود بیاید، نرخ خزش ربات گوگل کاهش می‌یابد.
        تعیین محدودیت در Google Search Console: صاحبات وب‌سایت‌ها می‌توانند میزان خزش وب‌سایت‌شان را کاهش دهند.

خب، هنوز Crawl Budget را به یاد دارید؟ بخش دوم آن، Crawl Demand نام دارد. گوگل Crawl Demand را به این شکل توضیح می‌دهد:

    Crawl Demand

    حتی اگر ربات گوگل به حد Crawl Rate تعیین شده نرسد، در صورتی که تقاضایی برای ایندکس شدن وجود نداشته باشد، شما شاهد فعالیت کمی از سوی ربات گوگل خواهید بود. دو فاکتوری که نقش مهمی در تعیین Crawl Demand (تقاضای خزش) دارند، عبارتند از:

        محبوبیت: یعنی آدرس‌هایی که در اینترنت محبوب‌تر هستند، بیشتر از دیگر آدرس‌ها خزیده می‌شوند تا در ایندکس گوگل تازه‌تر باشند.
        بیات شدن! (Staleness): گوگل طوری آدرس‌ها را ذخیره می‌کند که از قدیمی شدن آنها جلوگیری کند.

    به علاوه، اتفاقاتی که بر کل سایت تاثیر می‌گذارند مانند جا‌به‌جایی وب‌سایت، ممکن است میزان Crawl Demand را جهت ایندکس دوباره وب‌سایت بر روی آدرس جدید، افزایش دهند.

    در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وب‌سایت را تعریف می‌کنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل می‌خواهد و می‌تواند ایندکس کند.

ارسال نظر برای این مطلب