محرك بحث
محرك البحث (الباحوث) هو برنامج حاسوبي مصمم للمساعدة في العثور على مستندات مخزنة على شبكات معلوماتيةالشبكة العنكبوتية العالمية (بالإنجليزية: World Wide Web)) أو على حاسوب شخصي. بنيت محركات البحث الأولى اعتمادا على التقنيات المستعملة في إدارة المكتبات الكلاسيكية. حيث يتم بناء فهارس للمستندات تشكل قاعدة للبيانات تفيد في البحث عن أي معلومة.
محركات البحث الأكثر استخداما ونسبة السيطرة على محركات البحث في اوخر 2010
يسمح محرك البحث للمستخدم أن يطلب المحتوى الذي يقابل معايير محددة (والقاعدة فيها تلك التي تحتوي على كلمة أو عبارة ما) ويستدعي قائمةً بالمراجع توافق تلك المعايير. تستخدم محركات البحث مؤشرات/فهارس/مسارد منتظمة التحديث لتشتغل بسرعة وفعالية.
تعرض النتائج على شكل قائمة بعناوين المستندات التي توافق الطلب. يرفق بالعناوين في الغالب مختصر عن النستند المشار إيه أو مقتطف منه للدالة علة موافقته للبحث. عناصر قائمة البحث ترتب على حسب معايير خاصة (قد تختلف من محرك لآخر) من أهمها مدى موافقة كل عنصر للطلب.
عند الحديث عن محركات البحث فغالبا ما يقصد محركات البحث على شبكة الإنترنت ومحركات الوِيب بالخصوص. محركات البحث في الويب تبحث عن المعلومات على الشبكة العنكبوتية العالمية، ومنها يستعمل على نطاق ضيق يشمل البحث داخل الشبكات المحلية للمؤسسات أي إنترانت (بالإنجليزية: Intranet). أما محركات البحث الشخصية فتبحث في الحواسيب الشخصية الفردية.
بعض محركات البحث أيضاً تحفر في البيانات المتاحة على المجموعات الإخبارية، وقواعد البيانات الضخمة، أو أدلة مواقع الوِب مثل دِموز دوت أورج. تشتغل محركات البحث عن طريق الخوارزميات، على عكس أدلة المواقع، والتي يقوم عليها محررون بشر.
محتويات
• 1 تاريخ
• 2 أشهر محركات البحث
• 3 كيف تعمل محركات البحث
• 4 محركات البحث على الشبكة الإنترنت
• 5 مشاكل تقنيات البحث
o 5.1 عدم طرح الأسئلة الصحيحة
o 5.2 الموازنة بين الكم والنوع
o 5.3 غموض الكلمات
o 5.4 الأسماء وأنواعها
• 6 المعالجة الطبيعية للغة
o 6.1 دراسة الجُمل
o 6.2 إزالة الالتباس: اختيار المعنى الصحيح
o 6.3 التصنيف التلقائي
o 6.4 زيادة دقة الاستعلامات
o 6.5 ربط المفاهيم
• 7 الصورة الحالية
o 7.1 ايكساليد Exalead
o 7.2 إنفراسيرتش Infrasearch
o 7.3 غوغل
o 7.4 آسك جيفز AskJeeves
o 7.5 أوبن كولا OpenCola
o 7.6 أوتونومي Autonomy
o 7.7 بريموس Primus
• 8 المستقبل
o 8.1 تطبيقات مستقبلية
o 8.2 محركات البحث عربيا
• 9 روابط داخلية
• 10 ارتباطات خارجية
تاريخ
أول محرك بحث كان واندكس (بالإنجليزية: Wandex) [بحاجة لمصدر]، وهو فهرس جمعه متجول وِب وهو زاحف عنكبوتي (بالإنجليزية: web crawler) طوره ماثيو جراي في معهد ماساشوستس للتكنولوجيا MIT في 1993. ويعد آليوِب (بالإنجليزية: Aliweb) محرك بحث آخر مبكر جدًا وقد ظهر في 1993 ويعمل حتى اليوم. وأول محرك بحث قائم على الزاحف العنكبوتي للنصوص الكاملة كان وبكراولر (بالإنجليزية: WebCrawler)، والذي خرج للوجود في 1994. وعلى عكس سابقيه، فقد ترك المستخدمين يبحثون عن أي كلمة على أي صفحة ويب، وهو ما صار القاعدة لكل محركات البحث الكبرى منذ ذلك الوقت. كان هو أيضا الأول في معرفة الجمهور به على نطاق واسع. في 1994 كذلك جاء لايكوس (بالإنجليزية: Lycos) (الذي بدأ في جامعة كارنيجي ميلون (بالإنجليزية: Carnegie Mellon University)) وصار مشروعًا تجاريًا كبيرًا.
بعد ذلك بقليل، ظهر العديد من محركات البحث وتزاحمت على الشعبية. وكان من ضمنها إكسايت (بالإنجليزية: Excite)، إنفوسيك (بالإنجليزية: Infoseek)، وإنكتومي (بالإنجليزية: Inktomi)، ونورثرن لايت (بالإنجليزية: Northern Light)، وألتافيستا (بالإنجليزية: Alta Vista). وفي بعض الحالات تنافست مع الأدلة ذات الشعبية مثل ياهو! (بالإنجليزية: !Yahoo). فيما بعد، أدمجت الأدلة أو أضافت إليها تقنية محرك البحث من أجل أداء أكبر للوظائف.
عرفت محركات البحث أيضا بكونها بعض ألمع النجوم في نوبة الاستثمار في الإنترنت التي وقعت في أواخر التسعينات. دخلت عدة شركات السوق في مشهد كبير، مسجلة مكاسب قياسية خلال طرح أسهمها العام الافتتاحي. وقد سحب البعض محركاتهم البحثية العامة، وهم يسوقون نسخا للشركات فقط، مثل نورثرن لايت التي كانت من ال8 أو 9 محركات بحث المبكرة بعد أن جاء لايكوس (بالإنجليزية: Lycos).
قبل مجيء الإنترنت، كانت هناك بواحيث لموافيق (بروتوكولات)أو استخدامات أخرى، مثل محرك بحث آركي لمواقع إف.تي.بي المجهولة (بالإنجليزية: anonymous FTP) ومحرك بحث ڤيرونيكا لبروتوكول جوفر.
وستأتي بعض محركات البحث الأخرى منها إيه ناين.كوم a9.com (أمازون.كوم)، آسك چيڤيز/تيوما (بالإنجليزية: Ask Jeeves/Teoma)، جيجابلاست، سناپ (بالإنجليزية: Snap)، والهاللو (بالإنجليزية: Walhello)، كازاز (بالإنجليزية: Kazazz)، ووايسنَت (بالإنجليزية: WiseNut). وبعض آخر آخر محركات البحث، والتي تبحث فقط أنواعا محددة من المحتوى هي پلازو Plazoo (لمردود الخلاصات RSS feeds)، وجوهوك GoHook (لملفات پي دي إف PDF بشكل رئيسي). ومن أشهر المحركات أيضا: Yooci و ThroughSearch
أشهر محركات البحث
• جوجل (بالإنجليزية: Google)
• ياهو (بالإنجليزية: Yahoo!)
• ألتافيستا (بالإنجليزية: AltaVista)
• إم إس إن ميكروسوفت (بالإنجليزية: Msn)
• بينج (بالإنجليزية: Bing)
• لايف سيرش (بالإنجليزية: LiveSearch)
كيف تعمل محركات البحث
تعمل محركات البحث عن طريق تخزين المعلومات عن عدد كبير من صفحات الوِب، والتي تستعيدها من الشبكة العالمية وورلد وايد وب نفسها. تستعاد هذه الصفحات بواسطة زاحف وِب (يعرف أحيانا أيضا بـ ’عنكبوت‘) – وهو مستعرض وِب آلي يتبع كل رابط يراه. بعد ذلك يجري تحليل كل صفحة لتحديد كيف ينبغي فهرستها (على سبيل المثال، تستخلص الكلمات من العناوين، رؤوس الموضوعات، أو حقول خاصة تعرف ب ميتا تاجز). تخزن البيانات عن صفحات الوِب في قاعدة بيانات فهرسية للاستخدام في عمليات البحث طلبا لللمعلومات لاحقا. بعض محركات البحث، مثل جوجل، تخزن كل أو بعض الصفحة المصدر (وتشير لها ب مخبوءة) وبالمثل معلومات عن صفحات الوِب، بينما بعضها تخزن كل كلمة من كل صفحة تجدها، مثل ألتاڤيستا. هذه الصفحة المخبوءة تمسك بنص البحث الفعلي بما أنه هو الذي تمت فهرسته فعليا، لذا فقد تكون مفيدة جدا عندما يكون محتوى الصفحة الحالية قد جرى تحديثه ولم تعد ألفاظ البحث فيه. ربما تعتبر هذه المشكلة شكلا خفيفا من تعفن الروابط، وتزيد معالجة جوجل لها من إمكانية الاستخدام بإرضاء توقعات المستخدم بأن ترد ألفاظ البحث في صفحات الوِب العائدة في الرد. وهو ما يرضي ’مبدأ مفاجأة أخف من مفاجأة‘ بما أن المستخدم يتوقع بشكل طبيعي ألفاظ البحث في النتيجة العائدة له. وهذه الصلة بالبحث تجعل هذه الصفحات المخبوءة مفيدة جدا، حتى أكثر من واقع أنها قد تحتوي على بيانات ربما لم تعد متاحة في موضع آخر.
عندما يتوجه مستخدم لمحرك البحث ويجري عملية بحث طلبا للمعلومات، كما هو سائد بإعطاء كلمات مفتاحية، يفتش المحرك في الفهرس ويقدم قائمة بصفحات الوِب الأفضل توافقا تبعا لمعاييره، في المعتاد مع ملخص قصير يحتوي على عنوان الوثيقة وأحيانا أجزاء من النص. معظم محركات البحث تدعم استخدام الاصطلاحات البولينية (نسبة للجبر البوليني وهو نوع من المتغيرات المنطقية): AND وOR وNOT لمزيد من تحديد طلب المعلومات. وهناك خدمة وظيفية متقدمة هي البحث بالتقارب، والتي تسمح لك بتحديد المسافة بين الكلمات المفتاحية، باستخدام ألفاظ مثل NEAR، NOT NEAR، FOLLOWED BY، NOT FOLLOWED BY، SENTENCE، FAR.
يعتمد مدى فائدة محرك بحث على مدى صلة النتائج التي يرد بها. فبينما قد تكون هناك ملايين صفحات الوِب التي تحتوي على كلمة أو عبارة محددة، قد تكون بعض أوثق صلة، أو أروج، أو معتمدة أكثر من غيرها. معظم محركات البحث توظف أساليب لوضع مراتب النتائج لتقدم أفضل النتائج أولا. الكيفية التي يقرر بها محرك بحث أي الصفحات هي الأفضل توافقا، وما النظام الذي يجب أن تظهر به النتائج، تختلف بشكل شاسع من محرك لآخر. الأساليب أيضا تتغير عبر الزمن بتغير استخدام إنترنت وتكنيكات جديدة تتطور.
معظم محركات البحث هي مضاربات تجارية يدعمها عائد إعلاني و، بالنتيجة، يوظف البعض الممارسة المثيرة للجدل بالسماح للمعلنين بدفع النقود ليرفعوا لهم قوائهم في مراتب نتائج البحث.
الأغلبية الكاسحة من محركات البحث تديرها شركات خاصة تستخدم خوارزميات ملكها وقواعد بيانات مغلقة، وأكثرها رواجا حاليا هي جوجل وباحث إمإسإن وياهو. توجد تقنية محركات بحث مفتوحة المصدر مثل إتشتيدِج، نتش، سيناز، إيجوثور وأوبنإفتيإس، ولكن ليس هناك خادم بحث وورلد وايد وِب مشاع يستخدم هذه التقنية.
جاء تطور محرك بحث الوِب من تطور محركات البحث على شبكات الأجهزة والشبكات الداخلية.
محركات البحث على الشبكة الإنترنت
يمكننا القول بأن الشبكة ومواقعها لن تكون ذات فائدة كبيرة بالنسبة لنا لو لم تكن محركات البحث على إنترنت موجودة. في البدء كانت محركات البحث عبارة عن أدلاء تقوم بفهرسة مواقع الإنترنت الجديدة. وقد كان ذلك فعالا عندما كان حجم إنترنت يقدر بملايين الصفحات. ثم تطورت إنترنت، وانضم إليها الملايين من مؤسسات الأعمال، والمؤسسات الحكومية، وبلايين الصفحات من أدلة استخدام المنتجات، والمعلومات الخاصة بالمستثمرين، وغير ذلك من المعلومات التي تقوم بتسيير عجلة اقتصاد إنترنت. ومع هذا النمو أصبح من الضروري، بل ومن الحتمي إضافة محرك بحث فعال إلى كافة مواقع إنترنت، يقوم بفهرسة وتصنيف المعلومات الموجودة ضمن هذه المواقع كي تتمكن من خدمة زوارها بشكل فعال. واليوم، وبعد أن أصبحت محركات البحث جزءا أساسيا في حضارتنا الإنترنتية، فإن هناك العشرات من الشركات العاملة في مجال إنتاج برمجيات، وتقنيات، وأساليب بحث جديدة موجهة نحو إنترنت وإنترانت. وبسبب الدور المتزايد الذي تلعبه التجارة والأعمال الإلكترونية في اقتصاد اليوم، فإن الحافز المادي على الأقل موجود. ولكن رغم النجاح الذي تدّعي الشركات المنتجة لتقنيات البحث تحقيقه، فإن المستخدمين لا زالوا يشكون من افتقار محركات البحث إلى الدقة المطلوبة، وتلبية النتائج التي يتم تحصيلها لمتطلبات المستخدمين
مشاكل تقنيات البحث
إن مفتاح النجاح في الحصول على نتائج بحث جيدة، تكمن في نوعية الاستفسارات، أو الأسئلة، أو العبارات أو الكلمات المفتاحية التي نقوم بإدخالها في محركات البحث. لكن المشكلة الأساسية هنا تكمن في أن الغالبية العظمى من المستخدمين لا يقومون عادة بإدخال الاستفسارات أو الكلمات المفتاحية الصحيحة، والتي تؤدي إلى الحصول على النتائج المطلوبة، وسنستعرض فيما يلي المشاكل الشائعة في عالم البحث عن المعلومات، والطرق التي يحاول بها الباحثون معالجة هذه المشكلات.
عدم طرح الأسئلة الصحيحة
من الحقائق الغريبة التي يؤكدها خبراء المعلومات هي أن المستخدمين نادرا ما يقومون بطرح الأسئلة التي تعبر عما يريدونه فعلا. والسبب الرئيس في ذلك هو الافتقار إلى الفهم الصحيح للموضوع قيد البحث، وبالتالي عدم استخدام الكلمات المفتاحية الصحيحة، والتي تؤدي إلى تكوين استعلامات وأسئلة صحيحة. فالمشكلة الأساسية هنا إذا، هي مساعدة المستخدمين على طرح الأسئلة وتكوين الاستعلامات الصحيحة. ومن مظاهر هذه المشكلة أيضا هي صغر حجم الاستعلامات التي يكونها المستخدم عادة للاستفسار عن موضوع معين. فإذا كان مستخدم ما يريد معلومات عن "السفر" مثلا، فإنه يبدأ بإدخال كلمة عامة في محرك البحث، ومن ثم، واعتمادا على النتائج التي يحصل عليها، يقوم بتضييق نطاق بحثه إلى أن يصل إلى ما يريده. والسبب في أن العديد من مستخدمي إنترنت يستعملون هذا الأسلوب يكمن في أنهم لا يعرفون حقا الحجم المهول للمعلومات الموجودة في قواعد البيانات الخاصة بمحركات البحث، والتي تفوق عادة ما يمكن لأي إنسان التعامل معه.
الموازنة بين الكم والنوع
عند التعامل مع تقنيات البحث فلا بد من الموازنة بين الكم والنوع، أو ما يدعوه الخبراء بالدقة والقدرة على الاسترجاع. وهي علاقة عكسية تماما، فكلما تم تضييق نطاق البحث سعيا عن نتائج أكثر دقة، كلما قل مقدار البيانات الذي يمكن استرجاعه. ولذلك فإن هناك حاجة لوجود محركات بحث تقدم دقة عالية دون التضحية بمقدار النتائج "الدقيقة" التي نسترجعها.
غموض الكلمات
معظم الكلمات تحمل أكثر من معنى، ومعظم محركات البحث المستخدمة اليوم تقوم بمطابقة الكلمات وليس معانيها، ولذلك فإن نتائج عمليات البحث التي نحصل عليها، تحتوي غالبا على الكلمات المفتاحية الصحيحة، ولكنها ذات المعنى الخاطئ. فإذا جربت مثلا أن تبحث عن معنى كلمة "جافا" مثلا، وهي إحدى لغات البرمجة الشائعة الاستخدام، فإنك ستحصل الكثير من النتائج المتعلقة بالجفاف، أو باسم جزيرة إندونيسية تحمل الاسم نفسه، إضافة إلى معلومات عن لغة البرمجة لانه يبحث عن البنية الصرفية والشكليه للكلمة وليس المعنى.
الأسماء وأنواعها
وماذا عن البحث في الأسماء، أي البحث عن معلومات عن الأشخاص والأماكن، وما إلى ذلك. خصوصا وأن الكتاب يغيرون عادة الطريقة التي يقومون بها بكتابة الأسماء. وإذا ما تحدثنا مثلا عن أسماء الشركات، فإنها تتغير باستمرار نتيجة عملية الاندماج والضم، مما يجعل عملية البحث صعبة. وقد يقول البعض أنه يمكن التغلب على هذه المشكلة نوعا ما باستخدام برمجيات الفهرسة، ولكن المشكلة هي أن المعلومات في عالمنا تتغير باستمرار مما يجعل الفهرسة اليدوية صعبة. وماذا عن الفهرسة الآلية؟ الإجابة هي أنه لا توجد بعد التقنية التي يمكنها القيام بذلك بدقة، بحيث يمكن التمييز مثلا بين مقال كامل عن شخص معين، ومقال آخر يذكر اسم الشخص بشكل عابر.
المعالجة الطبيعية للغة
يجمع العاملون في مجال محركات البحث بأن الحل لكافة هذه المشاكل يكمن في تصميم محركات البحث، وبرمجيات البحث عموما، بحيث تستفيد من برمجيات المعالجة الطبيعية للغة Natural Language Processingعموما، والمعالجة الطبيعية للمعنى Natural Meaning Processing، والاستفادة من قواعد اللغة. النقطة الأساسية هنا هي أن اللغة عموما مبنية على أساس قواعد ذات أساس شبيه بالمعادلات الرياضية، كما أن عبارات اللغة وكلماتها تكون مبنية حسب هيكلية معينة, فلكل جملة مبتدأ وخبر، أو فعل وفاعل ومفعول به، كما أن الكلمات تأتي عادة من جذور وأصول. وهذه الهيكلية المبنية ضمن اللغة تتناسب وطبيعة عمل برمجيات الحاسوب، والتي تحتاج إلى هيكلية معينة تنفذ على أساسها عملياتها. أما المعالجة الطبيعية للمعنى فهي أكثر صعوبة، فكلمة مثل "راحة" يمكن لها أن تعني عدة أشياء، كالارتياح بعد التعب، أو الراحة الأبدية والتي تعني الموت، أو راحة اليد. ولهذا فإن برمجيات البحث يجب أن تتمكن من فهم الكلمة ضمن سياق النص، ودور الكلمة في هذا السياق. ولكن حتى هذا الأسلوب لا يفلح دوما في فهم المعنى. جرب أن تقرأ ديوانا شعريا جيدا، وستجد أن هنالك الكثير من الكلمات الصعبة، والتي قد يحاول البعض فهمها من السياق، ولكننا عندما نعجز عن ذلك فإننا نتجه إلى القاموس. وهذا أسلوب يمكن لبرمجيات الحاسوب اتباعه، أي الاعتماد على قاموس أو فهرس بالكلمات والعبارات الشائعة الاستخدام، والبحث في السياق. وفيما يلي بعض مفاهيم البحث التي تعتمد على المعالجة الطبيعية للغة؛
دراسة الجُمل
تتميز الجُمل بأنها ذات هيكلية محددة وواضحة، مما يساعد في فهم المعنى بشكل سريع. ومن خلال تحديد نوع الجملة، يمكن لبرمجيات البحث أن تقوم بعملها بشكل أكثر دقة. ولعمل ذلك فإن هذه البرمجيات يجب أن تعتمد على كميات كبيرة من المصادر والمراجع اللغوية، كالمكانز، والتي تحتوي على عبارات وجمل ذات علاقات محددة مسبقا. وباستخدام هذه المكانز يمكن لبرمجيات البحث أن تفهم بشكل أفضل طبيعة العلاقة بين الكلمات المختلفة ومواقعها الصحيحة ضمن الجمل. ورغم الفائدة العظيمة للمكانز، فإن مدى فعاليتها يعتمد على تحديثها باستمرار، وإلا فإنها تفقد فاعليتها تدريجيا. وباستخدام المكانز، وتصريف الجمل وإعرابها يمكن الحصول على نظم بحث قوية يمكنها فهم عبارات البحث ومعاني الكلمات ضمن السياق بشكل أفضل.
إزالة الالتباس: اختيار المعنى الصحيح
أوضحنا في النقطة أعلاه كيف يمكن للمكانز ونظم تصريف وإعراب الجمل أن تسهم بشكل أفضل في فهم المعنى من خلال السياق. وهذه التقنية مفيدة إذا كنا نبحث ضمن نص معين، ولكنها ليست مفيدة عند إدخال الاستفسارات والاستعلامات ضمن محركات البحث، حيث تتكون هذه عادة من عدد محدود من الكلمات، وبالتالي فإن حجم النص غير كاف لتحليل معنى الكلمات. والحل لهذه المشكلة واضح إلى درجة الإحراج ويتمثل في سؤال المستخدم عن المعنى الذي يقصده؛ فعندما يُدخل المستخدم كلمة "راحة" مثلا ضمن مربع الاستعلام، فإن محرك البحث يسأله عن المعنى المقصود، أو المعنى المراد البحث عنه، قبل الشروع بعملية البحث. وتوجد اليوم العديد من محركات البحث التي تستخدم قواميس مضمنة تقوم بتقديم قوائم بالمعاني المختلفة التي تمثلها الكلمة الواحدة قبل الشروع في عملية البحث. ومن هذه المحركات هناك LexiGuide من شركة LexiQuest، و Oingo، و Simplifind على موقع Simpli.com.
التصنيف التلقائي
هذا الأسلوب هو الأقدم، حيث يتم تصنيف الوثائق حسب تصنيفات وفروع معينة، ومن ثم البحث بشكل منفصل ضمن كل تصنيف عن المعلومات المطلوبة. فمثلا، عند البحث عن كلمة "نواة" فإن بحثك قد يقودك إلى تصنيف يتعلق بعلوم الزراعة، وأنواع الحبوب، وما إلى ذلك، ولكنه في الوقت نفسه قد يقودك إلى تصنيف يقع ضمن علوم الفيزياء النووية. والحل هنا يكمن في تصنيف الوثائق المتعلقة بأنوية الحبوب والمزروعات في قسم الزراعة مثلا، والوثائق المتعلقة بأنوية الذرات في قسم الفيزياء الذرية. ولكن ماذا لو كانت لدينا وثيقة تتعلق بتأثير التجارب النووية على أنوية الحبوب والمزروعات؟ هل يجب عندها وضع الوثيقة في القسمين، أم ما هو الحل؟ وهنا تنشأ لدينا مشكلة المعنى المزدوج. ومن هنا تأتي أهمية التصنيف التلقائي، حيث يتم استخدام علوم النحو من تصريف وإعراب، واستخدام المكانز والقواميس، بحيث يتمكن النظام من "فهم" المواضيع الرئيسة في وثيقة ما. ويتم ذلك باستخدام أساليب إحصائية تقوم بدراسة تكرار الكلمات ضمن وثيقة ما، ومن ثم تحديد السياق، والذي يساعد في عملية البحث. وكمثال على ذلك لنأخذ كلمة، أو اسم مثل "فهد" أو "ليث" وهي أسماء عربية دارجة. ولنفترض أننا كتبنا موضوعا في مجلتنا عن شخص اسمه "فهد"، ولنفترض أن محرك بحث أراد تصنيف مقالنا هذا. في هذه الحال، وإذا كان محرك البحث يستخدم أسلوب التصنيف التلقائي، فإنه سيقوم من خلال دراسة النص ونوعية الكلمات الموجودة فيه وعلاقاتها وتكرارها، بتحديد أن المقال ينتمي إلى تصنيف علوم الحاسوب والإنترنت وليس الحيوانات والوحوش البرية. وتتبع برمجيات التصنيف التلقائي قواعد معينة يحددها المبرمجون، أو يمكن للآلة نفسها أن تتعلم ذاتيا كيف تقوم بتصنيف الكلمات. أو يمكن استخدام الأسلوبين، بحيث يتم تصنيف الوثائق التي تتبع نمطا معينا بشكل تلقائي، في حين يتم تحويل تلك التي يستحيل تصنيفها إلى عامل بشري كي يقوم بذلك.
زيادة دقة الاستعلامات
من يستعمل محركات البحث باستمرار يعلم أنه من المحتوم الحصول على مئات الألوف من النتائج على الأقل عند البحث عن موضوع معين بشكل عام. أما عند تضييق نطاق البحث، فإننا نحصل على مقدار أقل من النتائج الأكثر دقة. ولزيادة دقة الاستعلامات، فإن بعض محركات البحث يقوم بتعديل الاستعلام، وذلك بتقديم معان مرادفة لكلمات البحث إلى المستخدم، لمساعدته على تحديد موضوع بحثه بدقة أكبر. ففي مثل هذه النظم، وإذا كان موضوع استعلامك هو "الرياضة" مثلا، فإن النظام يقدم لك عددا من البدائل التي تساعد في تحديد موضوع البحث مثل "التربية البدنية"، "اللياقة البدنية" أو "اللياقة" وغير ذلك من المرادفات التي تساعد على توجيه العملية بحيث يحصل المستخدم على أكبر كم من النتائج الدقيقة التي تعبّر عن موضوع البحث.
ربط المفاهيم
إذا جربت اليوم أن تبحث عن العبارة "اسطوانات الليزر" (وهي العبارة العامية والقديمة للأقراص المدمجة) فإنك لن تحصل على الكثير من النتائج المفيدة من محركات البحث، حيث أن عبارة "الأقراص المدمجة" هي الكلمة الشائعة والمستخدمة في الغالبية العظمى من المطبوعات. ولهذا فإن العديد من محركات البحث هذه الأيام تستخدم أسلوب الربط بين المفاهيم، بحيث أنك إذا قمت بكتابة العبارة "أقراص الليزر" فإنك ستحصل على معلومات عن "الأقراص المدمجة". ويعتمد هذا الأسلوب على تحديد العلاقة بين الكلمات والعبارات في قاعدة البيانات بشكل مسبق، كما أنه مفيد عند البحث في وثائق متعددة اللغات، فالبحث عن كلمة "أقراص الليزر" يمكن أن يعطي نتائج لوثائق باللغة الإنجليزية عن Compact Disks أو CDs وما إلى ذلك، وهذا أسلوب مفيد جدا في عالم إنترنتي لم تعد فيه اللغة الإنجليزية هي السائدة.
الصورة الحالية
انظر إلى أي موقع للتجارة الإلكترونية، وستجد أنه غير ذا فائدة تُذكر إذا لم يكن محرك البحث المستخدم به قادرا على نقلك إلى صفحة المنتج، أو المنتجات، التي تريدها خلال أسرع وقت ممكن. ولذلك نجد أن بوابات التجارة والأعمال الإلكترونية العالمية مثل Ebay وأمازون تعتبر برمجيات البحث أحد أهم موجوداتها وتسعى باستمرار إلى تحديثها. وقد قامت شركة Ebay قبل سنوات بشراء نظام بحث متقدم من شركة Fast Search & Transfer النرويجية، والتي كانت تنتج تقنية بحث جديدة تقوم بتقديم أحدث المعلومات للباحثين عن نتائج المزادات والأسعار المتداولة. كما أن أمازون ومواقع مثل Marthastewar.com تقوم بالتعامل مع شركة Google و AskJeeves بحيث يتم ربط المستخدمين بالبضائع التي يريدون شرائها من خلال كتابة سؤال اعتيادي ضمن مربع الاستعلام. وتقول الخبيرة مارثا فراي، وهي باحثة في شؤون التجارة الإلكترونية في مجموعة باتريشيا سيبولد، "يمكن القول بأن السبب الرئيس في فشل معظم مواقع التجارة الإلكترونية، يعود إلى اعتمادها لتقنيات بحث ضعيفة." كما اكتشفت مؤسسة ميديا ميتريكس للأبحاث بأن 80% من مستخدمي إنترنت، يتوقفون عن استخدام موقع ما إذا لم تعمل وظيفة البحث المضمنة فيه بالشكل الصحيح. ومن هنا كان السباق بين عدد من الشركات لتطوير تقنيات بحث متقدمة، يمكن للبشر الاعتياديين التعامل معها، والحصول على النتائج التي يريدونها تماما. وسنستعرض فيما يلي عددا من الشركات العالمية التي ابتكرت تقنيات يمكن لها أن تغير وجه إنترنت إلى الأبد.
[عدل] ايكساليد Exalead
ايكساليد (Exalead) محرك بحث فرنسي متخصص في التقنيات الحديتة للبحث : نوعية نتائج البحث, تصنيف النتائج, صور تمهيدية لكل صفحة.(Exalead)
إنفراسيرتش Infrasearch
تجمع هذه الشركة ما بين تقنيات البحث المتقدمة التي تحدثنا عنها في الصفحات السابقة، وبين تقنيات برمجيات مشاركة الملفات، وهي ما يطلق عليه البعض برمجيات الند إلى الند، أو ما يُعرف بالإنجليزية باسم P2P، (انظر مقالنا في هذا العدد والمتعلق بهذا الموضوع). وقد قامت شركة صن مايكروسيستمز العملاقة مؤخرا بشراء هذه الشركة الشابة بمؤسسيها (المراهقين الثلاث) وطاقم عملها الذي يتكون من 15 مبرمجا. وتعد هذه التقنية، إذا ما كُتب لها النجاح في مختبرات صن فإن تقنية إنفراسيرتش تعد بالسيطرة على عالم البحث عبر إنترنت. وتعمل تقنية إنفراسيرتش بالشكل التالي؛ يقوم المستخدم بتنزيل برنامج صغير الحجم على جهازه، ومشاركة دليل معين، أو عدة أدلة على جهازه، يريد أن يمكّن المستخدمين الآخرين من البحث فيها. وهذا البرنامج شبيه ببرنامج نابستر، ولكن قدراته لا تقتصر على ملفات MP3 فقط، بل تتعداها لتشمل جميع أنواع الملفات، فإذا كنت تبحث عن الحل لمسألة رياضية معينة مثلا، وكان أحد الطلبة قد قام بحل هذه المسألة أو المعادلة، ووضع الحل ضمن ملف على جهازه، فإنه يمكنك عند البحث باستخدام إنفراسيرتش أن تعثر على هذا الملف وحل المعادلة، إذا كان هذا المستخدم قد اختار مشاركته مع الغير عبر الشبكة. ولا تتوقف قدرات إنفراسيرتش هنا، فإذا كنت تريد شراء سيارة معينة، فإن برنامج إنفراسيرتش يأخذك إلى دليل على موقع الشركة، ومن ثم توجيهك إلى القسم الخاص بالسيارة التي تريدها، والحصول على آخر المعلومات عن هذه السيارة، بما في ذلك صورة لأحدث موديل لها قام أحد المستخدمين بالتقاطها ووضعها على جهازه ليشاركها مع الغير. كما يمكن للوكيل مثلا أن يشارك ملفا على جهازه يحتوي على عقد البيع وإجراءات التسجيل وما إلى ذلك. وبما أن برنامج إنفراسيرتش مجاني، فقد كان المخطط الأصلي للشركة هو جعل المؤسسات التجارية، التي تختار استخدام البرنامج في عملياتها، تقوم بدفع مقابل مادي بسيط جدا مقابل كل عملية بحث تقوم أجهزة إنفراسيرتش المزودة بتوجيهها إلى المؤسسة التجارية. وهذا يعني أن عوائد الشركة تعتمد على عدد الأشخاص الذين يقومون بالبحث في شبكتها. وإضافة إلى ذلك، فإن إنفراسيرتش كانت تخطط للتعاون مع محركات البحث الشائعة الاستخدام، وذلك لجعل نتائج بحثها "طازجة" وحديثة بأكبر قدر ممكن، حيث أن نتائج البحث التي نحصل عليها عادة من هذه المحركات تعتمد على مدى نشاط الروبوتات التي تقوم بفهرسة مواقع إنترنت، وهي عادة متأخرة حوالي 24 ساعة عما نُشر على الشبكة. أما باستخدام تقنية إنفراسيرتش فإن النتائج تكون طازجة بالدقيقة والثانية. وكما قلنا أعلاه، فإن إنفراسيرتش الآن ملك لصن مايكروسيتمز، ونرجو أن نرى منتجها عما قريب على إنترنت.
غوغل
بدأ محرك البحث هذا Google.com كمشروع لرسالة دكتوراة حول تقنيات الذكاء الاصطناعي والمعالجة الطبيعية للغة في جامعة ستانفورد في الولايات المتحدة، وتحول اليوم إلى بوابة إنترنت عالمية كبرى تخدم البحث بـ 66 لغة (منها العربية)، تقوم بمعالجة 120 مليون طلب بحث يوميا (حسب إحصائيات مؤسسة ميديا ميتركس للأبحاث)، كما أن الموقع أصبح مؤخرا ضمن أكبر 15 موقعا في الولايات المتحدة. ولا يتوقف الأمر هنا، حيث أن عوائده تصل إلى 50 مليون دولار سنويا، ويتوقع البعض أن يصل حجم هذه العوائد في المستقبل القريب إلى مليار دولار أمريكي حسب مجلة بيزنس ويك الأمريكية. والمستخدم لهذا الموقع يعرف تمام المعرفة مدى دقته في تقديم النتائج المطلوبة، ومن المرة الأولى، كما أنه لا يتطلب خبرة كبرى من المستخدم في صياغة الأسئلة والاستعلامات. ويعتمد هذا الموقع تقنيات إحصائية ورياضية متقدمة تقوم بدراسة الوثائق المفهرسة، وتكرار الكلمات ضمن كل وثيقة، وبالتالي الحكم على موضوعها وعلاقتها بعبارة البحث التي يقوم المستخدم باستعمالها. ومهما كانت الوصفة السحرية التي يستخدمها موقع غوغل فإنه يعتبر الأفضل بين كافة مواقع البحث المستخدمة اليوم
] آسك جيفز AskJeeves
موقع AskJeeves.com يستخدم اللغة الطبيعية في البحث ويعتمد قاعدة بيانات وتقنيات تمكّن المستخدم من توجيه سؤال البحث "باللغة الإنجليزية" بلغة سهلة(وعامية أيضاً) لتقوم قاعدة البيانات بالمطابقة بين الكلمات المفتاحية في السؤال، وبين ما هو موجود في قاعدة بياناتها. ورغم ذلك فإن جيفز يعتمد جزئيا على التدخل البشري لتصنيف المعلومات وفهرستها إذا لم تكن موجودة في قاعدة البيانات. فعند حصول حدث إخباري ما مثلا، فإن جيفز لن يتمكن من التعامل مع أي سؤال يتعلق بهذا الحدث إلا إذا قام مدراء قواعد البيانات بتحديث النظام. وقد قامت الشركة المسئولة عن الموقع بطرح نظام مستقل، يمكن للمؤسسات العاملة في مجالات التجارة والأعمال الإلكترونية تضمينه في مواقعها بحيث يمكن لعملائها توجيه أسئلة واستفسارات باللغة الطبيعية، والحصول على أجوبة لها دون أي تدخل بشري.
أوبن كولا OpenCola
نعود هنا إلى شركة أخرى تستخدم تقنيات مشاركة الملفات، والمعالجة الطبيعية للغة، إضافة إلى أسلوب المجتمعات الخبيرة Expert Communities، لخدمة عملية البحث. وتنتج هذه الشركة برنامجا صغيرا مجانيا يقوم المستخدم بتنزيله وتثبيته على جهازه، ومن ثم يمكن له سحب وإسقاط ملف ما (سواء نص، أو موسيقى، أو صورة، أو أي نسق كان) ضمن هذا البرنامج، والذي يقوم بالبحث ضمن أجهزة كمبيوتر أخرى مشاركة في الشبكة، عن ملفات مشابهة. فإذا كنتم مثلي، من هواة جمع اللوحات الإلكترونية للمدرسة الانطباعية أو التكعيبية، وكانت لديكم صورة تمثل إحدى هذه المدارس الفنية، فيمكن وضع هذه الصورة ضمن البرنامج، والذي يبحث بعدها في أجهزة الكومبيوتر المشاركة ضمن الشبكة ليحصل على ملفات مماثلة. وماذا عن فكرة المجتمعات الخبيرة؟ تهدف أوبن كولا إلى تشجيع المشاركين في شبكتها على مشاركة أجهزتهم مع أشخاص يشابهونهم في الاهتمامات، فإذا كان لدي مجلد على جهازي يحتوي على لوحات إلكترونية للمدرسة التكعيبية مثلا، فإنني أقوم بمشاركتها ضمن موقع أوبن كولا وضمن تصنيف خاص بهذه النوعية من اللوحات. كما أن أوبن كولا تستخدم روبوتات موزعة، أو عناصر آلية، تعتمد أسلوب البحث في العناصر البرمجية. ويمكن للمستخدمين تحسين دقة النتائج التي يحصلون عليها بتدريب هذه الروبوتات الباحثة، والتي تتعلم من خلال التجربة.
أوتونومي Autonomy
تعتمد البرمجيات التي تستخدمها هذه الشركة Autonomy.com على تقنية المطابقة ما بين أنساق النص وتكرار العبارات والكلمات، وذلك لتحديد المفاهيم الرئيسية المميِّزة لوثيقة ما، وتشفيرها ضمن هذه الوثيقة، ومن ثم البحث عن وثائق تحتوي على مفاهيم مشابهة في نصوص أخرى. وباستخدام هذا الأسلوب يمكن للباحث أن يقوم بكتابة جمل تصف ما يبحث عنه بلغة سهلة، والبحث على هذا الأساس. كما أن محرك بحث أوتونومي يمكنه أن يتعلّم ما يريده المستخدم، بناء على نوعية المواد التي يقرأها أو يستعرضها هذا المستخدم.
بريموس Primus
تركز برمجيات البحث الخاصة بهذه الشركة على المواد التي تتعامل مع خدمة الزبائن، أو المواد الموجودة ضمن نماذج إلكترونية، وهي على هذا الأساس مكملة لما تقوم به شركة أوتونومي. وتسمح هذه البرمجيات للمستخدمين بأن يقوموا بتوجيه أسئلة إلى قاعدة البيانات باستخدام اللغة الطبيعية. ويقوم النظام بجمع نتائج البحث، وتقديمها للمستخدمين الذين يقومون بطرح أسئلة مشابه
لمستقبل
يوجد على إنترنت اليوم بلايين الصفحات، وحسب المصادر المتوفرة فإنه قد تم حتى اليوم فهرسة ما يزيد قليلا على البليون صفحة. وتتسابق الشركات التي تقوم بفهرسة هذه الصفحات في إتاحتها لمستخدمي إنترنت، والحفاظ على سرعة الاستجابة التي يحصل عليها المستخدم. وإضافة إلى السرعة فإن على قواعد البيانات هذه أن تثبت وجودها بتقديم أجوبة "طازجة"، ومتناسقة، وذات علاقة بما يبحث عنه المستخدم. كما أن عجلة الابتكار لا تتوقف في مجال البحث، فموقع
www.hotlinks.com يتيح للمستخدمين إمكانية حفظ مفضلاتهم Favorites ضمن دليل على إنترنت، وذلك كي تكون هذه المفضلات متاحة للمستخدم أينما كان، ويمكن للمستخدمين أن يختاروا مشاركة مفضلاتهم مع مستخدمي إنترنت الآخرين، وتمكين زوار الموقع من البحث على إنترنت من خلال البحث في مفضلات الآخرين، وبالتالي الحصول على معلومات رأى مستخدمون آخرون أنها مفيدة لدرجة وضع المواقع التي تحتويها ضمن مفضلاتهم. كما أن هناك مواقع للبحث مثل
www.expertcentral.com والتي تقدم للباحثين إجابات متخصصة. وإضافة إلى ذلك فهناك العديد من محركات البحث التي تعتمد تقنيات الشبكات العصبية Neural Networks، ومحركات البحث التي يمكن تثبيتها على أجهزة المستخدمين، وفهرسة محتويات أقراصهم الصلبة. ونظرا للأهمية المتواصلة لمحركات البحث، فإن التقنيات الجديدة ستواصل ظهورها، وستواصل التقنية تطورها لتقديم نتائج أفضل للمستخدمين. وبظهور هذه التقنيات فإن بعضها سيفشل وبعضها سينجح، وستصبح التقنيات الناجحة جزءا من محركات البحث المستخدمة اليوم.
تطبيقات مستقبلية
إذا لم تكن تريد إنفاق الملايين في ابتكار تقنيات للذكاء الاصطناعي والمعالجة الطبيعية للغة، فإن الحل الأسهل هو استخدام الميزات التي تقدمها لغة XML لجعل عملية البحث أكثر دقة. فهذه اللغة كما هو معروف تعتمد على توصيف الوثائق والبيانات عند نشرها على الشبكة. فالمادة المتعلقة بالأسعار مثلا يتم توصيفها بعلامات تدل على أنها تمثل السعر، والمادة التي تصف أبعاد بضاعة معينة يتم توصيفها بهذا الشكل. وباستخدام XML يمكن للروبوتات التي تقوم بفهرسة مواقع إنترنت أن تفهم المحتوى الموجود ضمن الصفحات. وبالتالي فعندما تبحث عن تذكرة سفر بسعر معين مثلا، فإن الروبوتات لا تقوم فقط بالعثور على التذكرة بأفضل الأسعار، ولكنها تعثر أيضا على أفضل سعر لغرفة فندق، أو سيارة مستأجرة. ومن التطبيقات الأخرى مثلا هي أنك إذا عرضت سيرتك الذاتية على الروبوت فإنه يقترح عليك أفضل وظيفة تناسب مؤهلاتك. أو إذا عرضت على الروبوت ملفك الصحي فإنه يقترح عليك الفيتامينات التي يجب عليك تناولها، أو النوادي الصحية التي يمكنك الانضمام إليها. وبالطبع فإننا لا نعتقد أن XML هي الحل السحري، ولكنها يمكن أن تؤدي إلى زيادة نجاعة عمليات البحث إذا ما اقترنت بالتقنيات الأخرى المذكورة في موضوعنا هذا