همه چیز درباره موتورهای ج...

how-search-engines-operate

موتورهای جست و جو چگونه کار می کنند؟

با مطالعه مقاله اول با نحوه کلی کارکرد موتورهای جست و جو آشنا شدید و متوجه شدید که ربات های گوگل به چه صورتی یک سایت را ایندکس می کنند و در نایج جست و جو به نمایش در می آورند اکنون در این مقاله به ادامه عمل کرد موتورهای جست و جو می پردازیم.

آیا ساختار اطلاعات منظمی دارید؟

ساختار اطلاعات، به سازماندهی و برچسب زدن محتوا در وب سایت گفته می شود که برای بهبود کارایی و دسترسی کاربران صورت می گیرد. بهترین ساختار اطلاعات، طراحی سایتی می باشد که دارای نشانه های بصری است، به این معنی که کاربران نباید برای پیدا کردن محتوا در سایت شما، مجبور شوند تا زیاد فکر کنند.

آیا از نقشه سایت (site map) استفاده می کنید؟

نقشه سایت، لیستی از URL هایی در سایت است که خزنده ها از آن برای کشف و ایندکس کردن محتوا استفاده می کنند. ساده ترین راه برای اطمینان داشتن از اینکه آیا گوگل صفحات پر اهمیت شما را پیدا می کند این است که یک فایلی مطابق با استاندارد های گوگل تهیه کنید و آن را در گوگل سرچ کنسول (Google Search Console) ثبت نمایید. ارسال نقشه به کراولر ها کمک می کند تا مسیر دستیابی به صفحات مهم سایت را به دست آورند.

اگر سایت شما هیچ لینک خارجی ندارد، شما همچنان می توانید با ثبت XML نقشه سایت خود در google search console آن را ایندکس کنید. البته هیچ تضمینی وجود ندارد که سایت شما ایندکس شود ولی ارزش امتحان کردن را دارد.

آیا کراولرها در هنگام تلاش برای دسترسی به URL شما با خطا مواجه می شوند؟

در طی فرآیند کراول کردن URL وب سایتتان، ممکن است کراولرها یا همان خزنده ها با خطا مواجه شود. شما می توانید برای تشخیص URL مورد نظر به Google Search Console و گزارش " Crawl Errors" مراجعه کنید. این گزارش به شما خطاهای سرور و not found error و ... را نشان می دهد.

قبل از اینکه بتوانید کار هدفمندی با گزارش خطاهای کراولر انجام دهید، بهتر است خطاهای سرور و خطاهای " not found " را بیاموزید.

کدهای 4xx: در صورتیکه کراولرهای موتور جستجو، به دلیل خطای کاربری نتوانند به محتوای شما دست یابند، این خطا ظاهر می شود.

خطای 4XX خطای کاربریست، به این معنی که URL درخواست شده دارای خطای ساختاری است یا نمی تواند تکمیل شود. یکی از رایج ترین خطاهای 4XX، خطای " 404 - not found " است. این اتفاق ممکن است به دلیل اشتباه تایپ کردن آدرس یا حذف شدن صفحه و... رخ دهد. زمانی که موتور جستجو به 404 برخورد می کند، نمی تواند به URL دسترسی پیدا کند. زمانی که کاربر به 404 برخورد می کند ناامید می شود و صفحه را ترک می کند.

کد 5xx: در صورتیکه کراولرهای موتور جستجو، به دلیل خطای سرور نتوانند به محتوای شما دست یابند، این خطا ظاهر می شود.

خطای 5xx، خطای سرور است و به این معنیست که سرور وب سایت دچار مشکل شده است. خطای 5xx معمولاً به این دلیل اتفاق می ‌افتد که درخواست برای نشانی اینترنتی منقضی شده ‌است، بنابراین ربات جستجو درخواست را نادیده می گیرد.

ریدایرکت 301 چیست؟

خوشبختانه، از طریق ریدایرکت 301 می توان هم به جستجو کنندگان و هم به موتورهای جستجو گفت که صفحه مورد نظر جا به جا شده است.

فرض کنید که از صفحه

example.com/young-dogs

به صفحه

example.com/puppies

منتقل شده اید، موتور جستجو و کاربران برای عبور از نشانی اینترنتی قدیمی به نشانی جدید به یک پل نیاز دارند. این پل ریدایرکت ۳۰۱ است.

مزایای ریدایرکت 301:

  • ظاهرشدن خطای 404 به تنهایی موجب افت رتبه سئو شما نمی شود اما به مرور و نمایش مکرر 404 باعث افت رتبه کلی می شود.
  • به گوگل در یافتن و ایندکس کردن آدرس جدید کمک می کند.
  • اطمینان می دهد که کاربران صفحه مورد نظرشان را خواهند یافت.

 

ریدایرکت 301 به این معنیست که صفحه برای همیشه به جای دیگری انتقال پیدا کرده است. اگر صفحه ای برای پاسخ به پرسش خاصی رتبه گرفته باشد و شما آن را به نشانی جدیدی با محتوای متفاوت منتقل کنید، احتمالاً رتبه آن افت پیدا خواهد کرد. شما همچنین گزینه ریدایرکت 302 را در اختیار دارید، امّا این کد باید برای انتقال های موقت رزرو شود. 302 بیشتر شبیه یک مسیر انحرافی است. شما به طور موقت ترافیک را به مسیر انحرافی خاصی هدایت می کنید، امّا همیشه اینطور نخواهند ماند.

 

مراقب زنجیره های ریدایرکت باشید

در صورتیکه صفحه شما چندین بار ریدایرکت شود، دستیابی به آن توسط موتورهای جستجو مشکل می شود. گوگل به این پدیده : "زنجیره ریدایرکت " می گوید و پیشنهاد می کند تا جای ممکن آن ها را مسدود کنید. اگر example.com/1 را به example.com/2 ریدایرکت کنید، سپس تصمیم می گیرید که آن را به example.com/3  ریدایرکت کنید، بهترین کار این است که صفحه میانی را حذف کنید و به سادگی example.com/1 را به example.com/3 ریدایرکت کنید

 
 

 

ایندکسینگ: موتورهای جستجوگر سایت شما را چگونه تفسیر و ذخیره می کنند؟

زمانی که مطمئن شدید سایت شما کراول شده است، مرحله بعدی این است که کاری کنید صفحه ها و محتوای شما ایندکس شود. ممکن است برخی از صفحات سایت شما کراول شود یعنی خزنده به آن سر بزنند اما آن را ایندکس نکنند .کشف و کراول شدن محتوای شما توسط موتور جستجو به معنی ذخیره شدن آن در ایندکس نیست. در بخش قبلی در باره‌ی چگونگی کشف شدن سایت شما توسط موتور جستجو بحث کردیم. حال به ذخیره محتوای کشف و بررسی شده شما، ایندکس گفته می شود. بعد از آن که که یک کراولر صفحه را پیدا می کند، موتورهای جستجو دقیقا آن را مانند یک مرورگر رندر می کنند. در طی پروسه انجام این کار، موتورهای جستجو محتوای آن صفحه را آنالیز می کنند. و در نهایت همه اطلاعات به عنوان ایندکس ذخیره می شود.

به مطالعه و یادگیری درباره نحوه کار ایندکسینگ ادامه دهید و اطمینان حاصل کنید که سایت شما به این دیتابیس مهم دست یافته است.

 

آیا من می ‌توانم متوجه شوم ربات های خزنده گوگل چگونه صفحه‌ی من را می‌بیند؟

بله، صفحه کش شده وب سایت شما، یک عکس از آخرین باری که توسط ربات گوگل کراول شده است ارائه می دهد. شما می توانید با کلیک بر روی فلش کشویی و انتخاب «Cached» که در نتایج صفحه ی جستجو وجود دارد کشی که گوگل از صفحه ی شما ذخیره کرده است را نگاه کنید.

گوگل صفحات وب را در فرکانس های مختلفی کراول و کش می کند. سایت های قدیمی و بیشتر شناخته شده مانند zoomit.ir  که بطور دائم بروزرسانی می شوند به محض انتشار یک پست سایت آن ها بررسی و ایندکس می شود ولی در مقایسه با آن ها سایت هایی که تازه راه اندازی شده اند و ناشناخته ترند یا فعالیت کمتری دارند دیرتر توسط کراولر ها بررسی و ایندکس می شوند.

آیا امکان دارد صفحات از ایندکس حذف شوند؟

بله، ممکن است صفحات از ایندکس حذف شوند! برخی از دلایل اصلی حذف URL از ایندکس در زیر آورده شده است:

  • آدرسی را در robot.txt قرار داده باشید.
  • صفحه کلا حذف شده باشد و خطای 404 به دلیل حذف آن از ایندکس ظاهر شود.
  • به URL، متاتگ noindex اضافه شده باشد – ‌این تگ می تواند توسط مدیر سایت اضافه شود و او از موتور جستجو می خواهد که صفحه را از ایندکس حذف کند.
  • URL به دلیل رعایت نکردن قوانین وبمسترهای موتور جستجو جریمه شده است، که نتیجه آن حذف از ایندکس است.
  • URL به دلیل نیاز داشتن به رمز عبور، کراولینگ را مسدود کرده است. در واقع سایت برای دسترسی کاربران به محتوا از آن ها در خواست رمز عبور می کند.
  • در صورتیکه یکی از صفحات وب سایتتان قبلا در نتایج گوگل وجود داشت و الان مشاهده نمی شود، می توانید برای بررسی وضعیت صفحه از ابزارURL Inspection یا همان Fetch as Google استفاده کنید.

 

به موتورهای جستجو بگویید که چطور سایت شما را ایندکس کنند

دستورالعمل ربات های متا

دستورالعمل‌های متا (یا "متا تگ ها") دستورالعمل‌هایی هستند که شما  به موتورهای جستجو می دهید تا به آن ها بگوئید که می‌خواهید چگونه صفحات شما را بررسی کنند.

به عنوان مثال شما می توانید به کراولرهای موتور جستجو بگوئید " این صفحه را در نتایج جستجو ایندکس نکن". این دستورالعمل‌ها توسط ربات های متا تگ در قسمت <head> صفحات HTML شما یا توسط X - Robots - Tag ها در HTTP اجرایی می‌شوند.

ربات های متا تگ

ربات های متا تگ می توانند در قسمت <head> صفحه HTML شما به کار روند. موارد زیر رایج‌ ترین دستورالعمل های متا هستند:

  • Index/noindex به موتورهای جستجو می‌گوید که آیا صفحه مورد نظر باید کراول شود و در موتور جستجو نگهداری شود یا نه. اگر noindex را انتخاب کنید در واقع به کراولرها می گوئید که می‌خواهید صفحه از نتایج جستجو حذف شود. به طور پیش فرض، موتور جستجو بر این باور است که توانایی ایندکس کردن تمامی صفحات شما را دارد.
  • Follow/nofollow به موتور جستجو می‌گوید که آیا لینک های یک صفحه باید دنبال شود یا نه. با انتخاب دستور Follow ربات‌های موتور جستجو از لینک ‌های روی صفحه عبور کنند و به URLهای آن‌ها دست می یابند. و یا، اگر دستور Nofollow را انتخاب کنید، موتور جستجو لینک ها را دنبال نخواهد کرد و وارد لینک ‌ها نخواهند شد. به طور پیش فرض، تمامی صفحات گزینه Follow را انتخاب می کنند.

    زمان استفاده از آن: زمانی که بخواهید جلوی ایندکس شدن صفحه ای را بگیرید یا مانع دنبال شدن لینک ها توسط کراولر ها شوید؛ معمولا باید از nofollow در کنار noindex استفاده کنید.

  • Noarchive برای محدود سازی موتور جستجو از ذخیره ‌سازی کش یک صفحه استفاده می‌شود. موتور جستجو، به طور خودکار از تمامی صفحاتی که ایندکس کرده کپی هایی نگهداری می کند.

چه زمانی می توان از آن استفاده کرد: اگر شما یک سایت تجاری دارید که دائما قیمت محصولات در حال تغییر است، ممکن است از دستور Noarchive استفاده کنید تا مانع شوید که کاربران قیمت های منسوخ شده را ببینند.

در اینجا نمونه استفاده از دستورات noindex  و nofollow آورده شده است:

<!DOCTYPE html>

<html>

<head>

<meta name="robots" content="noindex, nofollow" />

</head>

<body>...</body>

</html>

 

این مثال تمام موتورهای جستجو را از ایندکس کردن صفحه و دنبال کردن لینک های داخلی منع می کند. در صورتیکه تمایل دارید چندین کراولر، مثل ربات گوگل و بینگ را محدود کنید، می توانید از دستور محدودسازی چند ربات استفاده کنید.

X- Robots – Tag

X- Robots – Tag در HTTP Header شما مورد استفاده قرار می ‌گیرد. آن ها در زمینه مسدود کردن موتورهای جستجو، انعطاف‌ پذیری و کارایی بیشتری نسبت به متا تگ ها دارند. چرا که شما می توانید از عبارات منظم استفاده کنید، فایل های غیر HTML را مسدود کنید و تگ های noindex را در سراسر سایت اعمال کنید.

 

نکته وردپرس

در قسمت Dashboard >Settings >Reading مطمئن شوید تیک مربوط به «Search Engine Visibility» را زده اید، در صورتی که اینکار را انجام ندهید موتورهای جستجو به دلیل وجود فایل robots.txt از ورود به سایت شما صرف نظر می کنند.

 

آموختن راه های مختلف تاثیرگذاری بر کراولینگ و ایندکسینگ به شما کمک می کند تا از مشکلاتی که باعث می شود صفحه شما در نتیجه جستجو یافت نشود؛ جلوگیری کنید.

رنکینگ: موتور های جستجو چگونه URL ها را رتبه بندی می کنند؟

ربات های خزنده گوگل

وقتی کاربری در منوی جستجو سوالی را تایپ می کند، موتور جستجو چگونه جوابی مرتبط با سوال او آماده می کند؟ این فرآیند به عنوان رنکینگ یا مرتب سازی پاسخ ها از مرتبط ترین تا کم ارتباط ترین شناخته می شود.

برای تعیین ارتباط، موتورهای جستجو از الگوریتم ها استفاده می کنند، در واقع آن ها طی فرآیندی اطلاعات ذخیره شده را بازیابی کرده و به ترتیب مرتب می کنند. این الگوریتم‌ها در طول سال‌ها دست‌ خوش تغییرات زیادی شده‌اند تا کیفیت نتایج جستجو را بهبود بخشند. به عنوان مثال ، گوگل ، هر روز تنظیمات الگوریتم را تهیه می کند- برخی از این بروزرسانی ها کیفیت کمی دارند، در حالی که موارد دیگر به روز رسانی‌ های الگوریتم ها برای مقابله با یک مساله خاص به کار گرفته می شوند، مانند الگوریتم پنگوین که برای مقابله با لینک اسپم استفاده می شود یا الگوریتم گوگل پاندا به بررسی کیفیت محتوا می پردازد.

چرا الگوریتم ها زود به زود تغییر می کنند؟ آیا گوگل سعی دارد ما را گوش به زنگ نگه دارد؟ درحالی که گوگل هیچ وقت نمی گوید چرا این بروز رسانی را انجام می دهد. با این حال ما میدانیم که گوگل با این بروز رسانی ها می خواهد نتایج کلی جستجو را بهبود ببخشد. به همین دلیل است که به سوالاتی که در رابطه با بروزرسانی الگوریتم پرسیده می شود، اینگونه پاسخ می دهد: "ما همراه کیفیت خود را ارتقا می دهیم".

امیدوارریم با مطالعه قسمت دوم این مقاله متوجه شده باشید که موتورهای جست و جو چگونه کار میکنند با همراه باشید که در سری سوم (پایانی) این سری از مقالات آموزشی سئو به جزئیات بیشتر کارکرد موتورهای جست و جو بپردازیم.

 

مقالات مرتبط

راهنمای آموزش سئو برای افراد مبتدی
راهنمای آموزش سئو برای افراد مبتدی

7 بخش برای تبدیل شدن به یک کارشناس سئو حرفه ای! اگر برای بهبود ترافیک سایت جدی هستید و با مفهوم سئو نا آشنایید، پیشنهاد ما به شما این است که این مقاله را از اول تا آخر بخوانید. یادگیری اصول اولیه سئو قدمی مهم در جهت دستیابی به اهداف کسب و کار آنلاین شماست.

به مفاهیم اولیه و مقدماتی سئو، سئو 101 می گویند
سئو 101 چیست و چرا اهمیت دارد

در این مقاله مواردی هم چون قوانین موتورهای جستجو | مقایسه سئو کلاه سیاه با سئو کلاه سفید | دستورالعمل های وبمستر گوگل | کارهایی که باید از انجام آن ‌ها اجتناب کنید و ... بررسی کرده ایم.

everything-about-search-engines
همه چیز در مورد موتور های جستجو - [قسمت اول]

اگر میخواهید بدانید موتور های جستجو چگونه عمل می کنند حتما این مقاله را از دست ندهید. در اتمام این فصل شما خواهید آموخت تا به جای مقابله با موتورهای جستجو باید با آن ها دوست باشید . چرا که دوستی با موتور های جستجو همیشه برای شما مفید خواهد بود.

برچسب ها:

دوست دارید به اشتراک بذارید از طریق:

نظرات

  • سمیه خداوردی
    5 شهریور 1398

    سلام روز بخیر برای ریدایرکت تا چند تا سایت رو میتونیم بهم ریدایرکت کنیم؟

    پاسخ
    فراموج
    9 شهریور 1398

    سلام روز بخیر،
    برای ریدایرکت کردن میتونین هرچندتا صفحه ای که میخوایین رو بهم ریدایرکت کنین . ولی پیشنهاد میشه که اولین پیج رو به اخرین پیج ریدایرکت کنین. 

    پاسخ
  • یاور سلطانی
    10 شهریور 1398

    اگه URL امون حذف بشه چطور میتونیم برگردونیم ؟

    پاسخ
    فراموج
    12 شهریور 1398

    سلام روز بخیر 
    بهترین روش برای این کار این هست که لینک مورد نظرتون رو به صورت دستی در سچ کنسول وارد کنید و درخواست ایندکس شدن مجدد بدین . 

    پاسخ
  • ساناز حسینی
    27 شهریور 1398

    مقاله خیلی خوبی بود ممنون .

    پاسخ
    فراموج
    30 شهریور 1398

    سلام روز بخیر 
    ممنون از شما که وقت گذاشتید و مطالعه کردید . برای مطالعه سایر مقالات اینجا کلیک کنید. 

    پاسخ
  • جواد
    31 شهریور 1398

    چطور میتونیم متوجه بشیم که سایتمون در گوگل ایندکس شده یا نه ؟

    پاسخ
    فراموج
    1 مهر 1398

    سلام روز بخیر برای این کار راه های بسیاری وجود داره اما ساده ترین و مطمئن ترین راه چک کردن از طریق Google search console هستش. 

    پاسخ
نظر خود را وارد نمایید