موتورهای جستجو چگونه کار می کنند؟

تحریریه سایت

16 بهمن 1401

راهنمای نحوه کار موتورهای جستجو موضوعات تحت پوشش شامل فرآیندهای خزیدن و ایندکس موتورهای جستجو و همچنین مفاهیمی مانند بودجه خزیدن، رتبه صفحه و لیست کامل الگوریتم های گوگل از ابتدا تا 2023 است.

شامل فرآیندهای خزیدن و نمایه سازی و همچنین مفاهیمی مانند بودجه خزیدن و رتبه صفحه می شود.

موتورهای جستجو با خزیدن صدها میلیارد صفحه با استفاده از خزنده های وب خود کار می کنند. این خزنده های وب معمولاً به عنوان ربات های موتور جستجو یا عنکبوت ها شناخته می شوند. یک موتور جستجو با دانلود صفحات وب و دنبال کردن پیوندهای موجود در این صفحات در وب حرکت می کند تا صفحات جدیدی را که در دسترس قرار گرفته اند را کشف کند.

فهرست موتور جستجو

صفحات وب که توسط موتور جستجو کشف شده اند به ساختار داده ای به نام شاخص اضافه می شوند. این فهرست شامل تمام URL های کشف شده به همراه تعدادی سیگنال کلیدی مرتبط در مورد محتوای هر URL است مانند:

کلمات کلیدی کشف شده در محتوای صفحه – صفحه چه موضوعاتی را پوشش می دهد؟

نوع محتوایی که خزیده می شود (با استفاده از ریزداده به نام Schema) – چه چیزی در صفحه گنجانده شده است؟

تازگی صفحه – چند وقت پیش به روز شده است؟

تعامل کاربر قبلی از صفحه و/یا دامنه – چگونه افراد با صفحه تعامل دارند؟

هدف یک الگوریتم موتور جستجو چیست؟

هدف از الگوریتم موتور جستجو ارائه مجموعه ای مرتبط از نتایج جستجو با کیفیت بالا است که در سریع ترین زمان ممکن پرسش/سوال کاربر را برآورده می کند.

سپس کاربر گزینه‌ای را از لیست نتایج جستجو انتخاب می‌کند و این عمل، همراه با فعالیت‌های بعدی، به آموخته‌های آینده وارد می‌شود که می‌تواند بر رتبه‌بندی موتورهای جستجو در آینده تأثیر بگذارد.

وقتی جستجو انجام می شود چه اتفاقی می افتد؟

هنگامی که یک درخواست جستجو توسط کاربر وارد موتور جستجو می‌شود، تمام صفحاتی که مرتبط تلقی می‌شوند از فهرست مشخص می‌شوند و از یک الگوریتم برای رتبه‌بندی سلسله مراتبی صفحات مربوطه در مجموعه‌ای از نتایج استفاده می‌شود.

الگوریتم های مورد استفاده برای رتبه بندی مرتبط ترین نتایج برای هر موتور جستجو متفاوت است. برای مثال، صفحه‌ای که برای یک عبارت جستجو در Google رتبه بالایی دارد، ممکن است برای همان جستجو در Bing رتبه بالایی نداشته باشد.

علاوه بر پرس و جو، موتورهای جستجو از داده های مرتبط دیگری برای برگرداندن نتایج استفاده می کنند، از جمله:

مکان – برخی از عبارت‌های جستجو وابسته به مکان هستند، مثلاً «کافه‌های نزدیک من» یا «زمان‌های فیلم».

زبان شناسایی شد – موتورهای جستجو نتایج را به زبان کاربر برمی‌گردانند ، در صورتی که قابل شناسایی باشد.

تاریخچه جستجوی قبلی – موتورهای جستجو نتایج متفاوتی را برای یک پرس و جو بسته به آنچه کاربر قبلاً جستجو کرده است برمی گرداند.

دستگاه – مجموعه متفاوتی از نتایج ممکن است بر اساس دستگاهی که درخواست از آن انجام شده است، بازگردانده شود.

چرا ممکن است یک صفحه ایندکس نشود؟

شرایطی وجود دارد که یک URL توسط موتور جستجو نمایه نمی شود. این ممکن است به دلیل:

حذف فایل Robots.txt – فایلی که به موتورهای جستجو می گوید که چه چیزی را نباید در سایت شما بازدید کنند.

دستورالعمل‌هایی در صفحه وب که به موتورهای جستجو می‌گوید آن صفحه ( برچسب noindex ) یا صفحه مشابه دیگری ( برچسب متعارف ) را ایندکس نکنند.

الگوریتم های موتورهای جستجو که صفحه را به عنوان کیفیت پایین ، محتوای نازک یا حاوی محتوای تکراری قضاوت می کنند .

URL که یک صفحه خطا را برمی گرداند (مثلاً کد پاسخ HTTP 404 یافت نشد ).

خزیدن موتور جستجو

اکنون که درک سطح بالایی از نحوه عملکرد موتورهای جستجو دارید ، بیایید به فرآیندهایی که موتورهای جستجو و خزنده‌های وب برای درک وب استفاده می‌کنند عمیق‌تر بپردازیم. بیایید با فرآیند خزیدن شروع کنیم .

خزیدن موتور جستجو چیست؟

خزیدن فرآیندی است که توسط خزنده های وب موتورهای جستجو (ربات ها یا عنکبوت ها) برای بازدید و دانلود یک صفحه و استخراج لینک های آن به منظور کشف صفحات اضافی استفاده می شود.

صفحات شناخته شده برای موتور جستجو به صورت دوره ای خزیده می شوند تا مشخص شود که آیا از آخرین باری که خزیده شده است، تغییراتی در محتوای صفحه ایجاد شده است یا خیر. اگر یک موتور جستجو پس از خزیدن یک صفحه تغییرات را در یک صفحه تشخیص دهد، در پاسخ به این تغییرات شناسایی شده، فهرست خود را به روز می کند.

خزیدن وب چگونه کار می کند؟

موتورهای جستجو از خزنده های وب خود برای کشف و دسترسی به صفحات وب استفاده می کنند.

همه خزنده‌های موتورهای جستجوی تجاری با دانلود فایل robots.txt در یک وب‌سایت شروع به خزیدن می‌کنند. فایل robots.txt همچنین ممکن است حاوی اطلاعاتی در مورد نقشه سایت باشد. این شامل لیستی از URLهایی است که سایت می خواهد خزنده موتور جستجو آنها را بخزد.

خزنده های موتورهای جستجو از تعدادی الگوریتم و قوانین استفاده می کنند تا مشخص کنند که یک صفحه چقدر باید دوباره خزیده شود و چند صفحه در یک سایت باید ایندکس شود. به عنوان مثال، صفحه ای که به طور منظم تغییر می کند ممکن است بیشتر از صفحه ای که به ندرت اصلاح می شود خزیده شود.

خزیدن موتور جستجو چیست؟

چگونه می توان خزنده های موتورهای جستجو را شناسایی کرد؟

ربات‌های موتور جستجو که در یک وب‌سایت می‌خزند را می‌توان از رشته عامل کاربر که هنگام درخواست صفحات وب به سرور وب ارسال می‌کنند، شناسایی کرد.

در اینجا چند نمونه از رشته های عامل کاربر استفاده شده توسط موتورهای جستجو آورده شده است:

Googlebot User Agent

Mozilla/5.0 (سازگار؛ Googlebot/2.1؛ +https://www.google.com/bot.html)

User Agent Bingbot

Mozilla/5.0 (سازگار؛ bingbot/2.0؛ +https://www.bing.com/bingbot.htm)

Baidu User Agent

Mozilla/5.0 (سازگار؛ Baiduspider/2.0؛ +https://www.baidu.com/search/spider.html)

Yandex User Agent

Mozilla/5.0 (سازگار؛ YandexBot/3.0؛ +https://yandex.com/bots)

هر کسی می‌تواند از همان عامل کاربری که موتورهای جستجو استفاده می‌کنند استفاده کند. با این حال، آدرس IP که درخواست را ارائه کرده است نیز می‌تواند برای تأیید اینکه از موتور جستجو آمده است استفاده شود – فرآیندی به نام جستجوی معکوس DNS .

خزیدن تصاویر و سایر فایل های غیر متنی

موتورهای جستجو معمولاً سعی می کنند هر URL را که با آن مواجه می شوند خزیده و فهرست بندی کنند.

با این حال، اگر URL یک نوع فایل غیر متنی مانند تصویر، ویدیو یا فایل صوتی باشد، موتورهای جستجو معمولاً قادر به خواندن محتوای فایل به جز نام فایل و ابرداده مربوطه نخواهند بود.

اگرچه یک موتور جستجو ممکن است فقط بتواند مقدار محدودی از اطلاعات را در مورد انواع فایل های غیر متنی استخراج کند، اما همچنان می توان آنها را نمایه کرد، در نتایج جستجو رتبه بندی کرد و ترافیک دریافت کرد.

می‌توانید فهرست کاملی از انواع فایل‌های قابل فهرست‌بندی توسط Google را در اینجا پیدا کنید.

خزیدن و استخراج لینک از صفحات

خزنده ها صفحات جدید را با خزیدن مجدد صفحات موجودی که قبلاً در مورد آنها می دانند، کشف می کنند، سپس پیوندهای صفحات دیگر را استخراج می کنند تا URL های جدید را پیدا کنند. این نشانی‌های اینترنتی جدید به صف خزیدن اضافه می‌شوند تا در آینده قابل دانلود باشند.

از طریق این فرآیند دنبال کردن پیوندها، موتورهای جستجو می توانند هر صفحه وب در دسترس عموم را در اینترنت که حداقل از یک صفحه دیگر پیوند داده شده است را کشف کنند.

نقشه های سایت

راه دیگری که موتورهای جستجو می توانند صفحات جدید را کشف کنند ، خزیدن نقشه های سایت است.

نقشه‌های سایت حاوی مجموعه‌ای از URLها هستند و می‌توانند توسط یک وب‌سایت ایجاد شوند تا فهرستی از صفحاتی را که باید خزیده شوند در اختیار موتورهای جستجو قرار دهد. اینها می توانند به موتورهای جستجو کمک کنند تا محتوای پنهان شده در عمق یک وب سایت را پیدا کنند و می توانند به مدیران وب سایت ها توانایی کنترل و درک بهتر زمینه های نمایه سازی و فرکانس سایت را بدهند.

ارسالی صفحه

متناوباً، ارسال صفحات منفرد اغلب می تواند مستقیماً از طریق رابط های مربوطه به موتورهای جستجو انجام شود. این روش دستی کشف صفحه را می توان زمانی استفاده کرد که محتوای جدیدی در سایت منتشر می شود، یا اگر تغییراتی رخ داده است و می خواهید زمان لازم برای مشاهده محتوای تغییر یافته را برای موتورهای جستجو به حداقل برسانید.

موتور جستجوی گوگل بیان می کند که برای حجم بالای URL باید از نقشه سایت XML استفاده کنید، اما گاهی اوقات روش ارسال دستی هنگام ارسال تعداد انگشت شماری از صفحات راحت است. همچنین مهم است که توجه داشته باشید که گوگل وب مسترها را به 10 URL ارسالی در روز محدود می کند.

علاوه بر این، گوگل می گوید که زمان پاسخ برای نمایه سازی برای نقشه های سایت مانند ارسال های فردی است.

منبع: https://shetabdm.com/seo-tutorial/articles/