راهنمای نحوه کار موتورهای جستجو موضوعات تحت پوشش شامل فرآیندهای خزیدن و ایندکس موتورهای جستجو و همچنین مفاهیمی مانند بودجه خزیدن، رتبه صفحه و لیست کامل الگوریتم های گوگل از ابتدا تا 2023 است.
شامل فرآیندهای خزیدن و نمایه سازی و همچنین مفاهیمی مانند بودجه خزیدن و رتبه صفحه می شود.
موتورهای جستجو با خزیدن صدها میلیارد صفحه با استفاده از خزنده های وب خود کار می کنند. این خزنده های وب معمولاً به عنوان ربات های موتور جستجو یا عنکبوت ها شناخته می شوند. یک موتور جستجو با دانلود صفحات وب و دنبال کردن پیوندهای موجود در این صفحات در وب حرکت می کند تا صفحات جدیدی را که در دسترس قرار گرفته اند را کشف کند.
فهرست موتور جستجو
صفحات وب که توسط موتور جستجو کشف شده اند به ساختار داده ای به نام شاخص اضافه می شوند. این فهرست شامل تمام URL های کشف شده به همراه تعدادی سیگنال کلیدی مرتبط در مورد محتوای هر URL است مانند:
کلمات کلیدی کشف شده در محتوای صفحه – صفحه چه موضوعاتی را پوشش می دهد؟
نوع محتوایی که خزیده می شود (با استفاده از ریزداده به نام Schema) – چه چیزی در صفحه گنجانده شده است؟
تازگی صفحه – چند وقت پیش به روز شده است؟
تعامل کاربر قبلی از صفحه و/یا دامنه – چگونه افراد با صفحه تعامل دارند؟
هدف یک الگوریتم موتور جستجو چیست؟
هدف از الگوریتم موتور جستجو ارائه مجموعه ای مرتبط از نتایج جستجو با کیفیت بالا است که در سریع ترین زمان ممکن پرسش/سوال کاربر را برآورده می کند.
سپس کاربر گزینهای را از لیست نتایج جستجو انتخاب میکند و این عمل، همراه با فعالیتهای بعدی، به آموختههای آینده وارد میشود که میتواند بر رتبهبندی موتورهای جستجو در آینده تأثیر بگذارد.
وقتی جستجو انجام می شود چه اتفاقی می افتد؟
هنگامی که یک درخواست جستجو توسط کاربر وارد موتور جستجو میشود، تمام صفحاتی که مرتبط تلقی میشوند از فهرست مشخص میشوند و از یک الگوریتم برای رتبهبندی سلسله مراتبی صفحات مربوطه در مجموعهای از نتایج استفاده میشود.
الگوریتم های مورد استفاده برای رتبه بندی مرتبط ترین نتایج برای هر موتور جستجو متفاوت است. برای مثال، صفحهای که برای یک عبارت جستجو در Google رتبه بالایی دارد، ممکن است برای همان جستجو در Bing رتبه بالایی نداشته باشد.
علاوه بر پرس و جو، موتورهای جستجو از داده های مرتبط دیگری برای برگرداندن نتایج استفاده می کنند، از جمله:
مکان – برخی از عبارتهای جستجو وابسته به مکان هستند، مثلاً «کافههای نزدیک من» یا «زمانهای فیلم».
زبان شناسایی شد – موتورهای جستجو نتایج را به زبان کاربر برمیگردانند ، در صورتی که قابل شناسایی باشد.
تاریخچه جستجوی قبلی – موتورهای جستجو نتایج متفاوتی را برای یک پرس و جو بسته به آنچه کاربر قبلاً جستجو کرده است برمی گرداند.
دستگاه – مجموعه متفاوتی از نتایج ممکن است بر اساس دستگاهی که درخواست از آن انجام شده است، بازگردانده شود.
چرا ممکن است یک صفحه ایندکس نشود؟
شرایطی وجود دارد که یک URL توسط موتور جستجو نمایه نمی شود. این ممکن است به دلیل:
حذف فایل Robots.txt – فایلی که به موتورهای جستجو می گوید که چه چیزی را نباید در سایت شما بازدید کنند.
دستورالعملهایی در صفحه وب که به موتورهای جستجو میگوید آن صفحه ( برچسب noindex ) یا صفحه مشابه دیگری ( برچسب متعارف ) را ایندکس نکنند.
الگوریتم های موتورهای جستجو که صفحه را به عنوان کیفیت پایین ، محتوای نازک یا حاوی محتوای تکراری قضاوت می کنند .
URL که یک صفحه خطا را برمی گرداند (مثلاً کد پاسخ HTTP 404 یافت نشد ).
خزیدن موتور جستجو
اکنون که درک سطح بالایی از نحوه عملکرد موتورهای جستجو دارید ، بیایید به فرآیندهایی که موتورهای جستجو و خزندههای وب برای درک وب استفاده میکنند عمیقتر بپردازیم. بیایید با فرآیند خزیدن شروع کنیم .
خزیدن موتور جستجو چیست؟
خزیدن فرآیندی است که توسط خزنده های وب موتورهای جستجو (ربات ها یا عنکبوت ها) برای بازدید و دانلود یک صفحه و استخراج لینک های آن به منظور کشف صفحات اضافی استفاده می شود.
صفحات شناخته شده برای موتور جستجو به صورت دوره ای خزیده می شوند تا مشخص شود که آیا از آخرین باری که خزیده شده است، تغییراتی در محتوای صفحه ایجاد شده است یا خیر. اگر یک موتور جستجو پس از خزیدن یک صفحه تغییرات را در یک صفحه تشخیص دهد، در پاسخ به این تغییرات شناسایی شده، فهرست خود را به روز می کند.
خزیدن وب چگونه کار می کند؟
موتورهای جستجو از خزنده های وب خود برای کشف و دسترسی به صفحات وب استفاده می کنند.
همه خزندههای موتورهای جستجوی تجاری با دانلود فایل robots.txt در یک وبسایت شروع به خزیدن میکنند. فایل robots.txt همچنین ممکن است حاوی اطلاعاتی در مورد نقشه سایت باشد. این شامل لیستی از URLهایی است که سایت می خواهد خزنده موتور جستجو آنها را بخزد.
خزنده های موتورهای جستجو از تعدادی الگوریتم و قوانین استفاده می کنند تا مشخص کنند که یک صفحه چقدر باید دوباره خزیده شود و چند صفحه در یک سایت باید ایندکس شود. به عنوان مثال، صفحه ای که به طور منظم تغییر می کند ممکن است بیشتر از صفحه ای که به ندرت اصلاح می شود خزیده شود.
اکنون که درک سطح بالایی از نحوه عملکرد موتورهای جستجو دارید ، بیایید به فرآیندهایی که موتورهای جستجو و خزندههای وب برای درک وب استفاده میکنند عمیقتر بپردازیم. بیایید با فرآیند خزیدن شروع کنیم .
خزیدن موتور جستجو چیست؟
خزیدن فرآیندی است که توسط خزنده های وب موتورهای جستجو (ربات ها یا عنکبوت ها) برای بازدید و دانلود یک صفحه و استخراج لینک های آن به منظور کشف صفحات اضافی استفاده می شود.
صفحات شناخته شده برای موتور جستجو به صورت دوره ای خزیده می شوند تا مشخص شود که آیا از آخرین باری که خزیده شده است، تغییراتی در محتوای صفحه ایجاد شده است یا خیر. اگر یک موتور جستجو پس از خزیدن یک صفحه تغییرات را در یک صفحه تشخیص دهد، در پاسخ به این تغییرات شناسایی شده، فهرست خود را به روز می کند.
چگونه می توان خزنده های موتورهای جستجو را شناسایی کرد؟
رباتهای موتور جستجو که در یک وبسایت میخزند را میتوان از رشته عامل کاربر که هنگام درخواست صفحات وب به سرور وب ارسال میکنند، شناسایی کرد.
در اینجا چند نمونه از رشته های عامل کاربر استفاده شده توسط موتورهای جستجو آورده شده است:
Googlebot User Agent
Mozilla/5.0 (سازگار؛ Googlebot/2.1؛ +https://www.google.com/bot.html)
User Agent Bingbot
Mozilla/5.0 (سازگار؛ bingbot/2.0؛ +https://www.bing.com/bingbot.htm)
Baidu User Agent
Mozilla/5.0 (سازگار؛ Baiduspider/2.0؛ +https://www.baidu.com/search/spider.html)
Yandex User Agent
Mozilla/5.0 (سازگار؛ YandexBot/3.0؛ +https://yandex.com/bots)
هر کسی میتواند از همان عامل کاربری که موتورهای جستجو استفاده میکنند استفاده کند. با این حال، آدرس IP که درخواست را ارائه کرده است نیز میتواند برای تأیید اینکه از موتور جستجو آمده است استفاده شود – فرآیندی به نام جستجوی معکوس DNS .
خزیدن تصاویر و سایر فایل های غیر متنی
موتورهای جستجو معمولاً سعی می کنند هر URL را که با آن مواجه می شوند خزیده و فهرست بندی کنند.
با این حال، اگر URL یک نوع فایل غیر متنی مانند تصویر، ویدیو یا فایل صوتی باشد، موتورهای جستجو معمولاً قادر به خواندن محتوای فایل به جز نام فایل و ابرداده مربوطه نخواهند بود.
اگرچه یک موتور جستجو ممکن است فقط بتواند مقدار محدودی از اطلاعات را در مورد انواع فایل های غیر متنی استخراج کند، اما همچنان می توان آنها را نمایه کرد، در نتایج جستجو رتبه بندی کرد و ترافیک دریافت کرد.
میتوانید فهرست کاملی از انواع فایلهای قابل فهرستبندی توسط Google را در اینجا پیدا کنید.
خزیدن و استخراج لینک از صفحات
خزنده ها صفحات جدید را با خزیدن مجدد صفحات موجودی که قبلاً در مورد آنها می دانند، کشف می کنند، سپس پیوندهای صفحات دیگر را استخراج می کنند تا URL های جدید را پیدا کنند. این نشانیهای اینترنتی جدید به صف خزیدن اضافه میشوند تا در آینده قابل دانلود باشند.
از طریق این فرآیند دنبال کردن پیوندها، موتورهای جستجو می توانند هر صفحه وب در دسترس عموم را در اینترنت که حداقل از یک صفحه دیگر پیوند داده شده است را کشف کنند.
نقشه های سایت
راه دیگری که موتورهای جستجو می توانند صفحات جدید را کشف کنند ، خزیدن نقشه های سایت است.
نقشههای سایت حاوی مجموعهای از URLها هستند و میتوانند توسط یک وبسایت ایجاد شوند تا فهرستی از صفحاتی را که باید خزیده شوند در اختیار موتورهای جستجو قرار دهد. اینها می توانند به موتورهای جستجو کمک کنند تا محتوای پنهان شده در عمق یک وب سایت را پیدا کنند و می توانند به مدیران وب سایت ها توانایی کنترل و درک بهتر زمینه های نمایه سازی و فرکانس سایت را بدهند.
ارسالی صفحه
متناوباً، ارسال صفحات منفرد اغلب می تواند مستقیماً از طریق رابط های مربوطه به موتورهای جستجو انجام شود. این روش دستی کشف صفحه را می توان زمانی استفاده کرد که محتوای جدیدی در سایت منتشر می شود، یا اگر تغییراتی رخ داده است و می خواهید زمان لازم برای مشاهده محتوای تغییر یافته را برای موتورهای جستجو به حداقل برسانید.
موتور جستجوی گوگل بیان می کند که برای حجم بالای URL باید از نقشه سایت XML استفاده کنید، اما گاهی اوقات روش ارسال دستی هنگام ارسال تعداد انگشت شماری از صفحات راحت است. همچنین مهم است که توجه داشته باشید که گوگل وب مسترها را به 10 URL ارسالی در روز محدود می کند.
علاوه بر این، گوگل می گوید که زمان پاسخ برای نمایه سازی برای نقشه های سایت مانند ارسال های فردی است.