正文

是google提出的用于處理海量數(shù)據(jù)（是google提出的用于處理海量數(shù)據(jù)的方法）

發(fā)布時(shí)間：2023-04-08 08:38:45 稿源：創(chuàng)意嶺閱讀： 89

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于是google提出的用于處理海量數(shù)據(jù)的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、大數(shù)據(jù)分析工具詳盡介紹&數(shù)據(jù)分析算法
2、常用的搜索引擎有哪些
3、大數(shù)據(jù)概念是在哪一年由誰首次提出的
4、介紹一下云計(jì)算的核心技術(shù)

是google提出的用于處理海量數(shù)據(jù)（是google提出的用于處理海量數(shù)據(jù)的方法）

一、大數(shù)據(jù)分析工具詳盡介紹&數(shù)據(jù)分析算法

大數(shù)據(jù)分析工具詳盡介紹&數(shù)據(jù)分析算法

1、 Hadoop

Hadoop 是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop 是可靠的，因?yàn)樗僭O(shè)計(jì)算元素和存儲會(huì)失敗，因此它維護(hù)多個(gè)工作數(shù)據(jù)副本，確保能夠針對失敗的節(jié)點(diǎn)重新分布處理。Hadoop 是高效的，因?yàn)樗圆⑿械姆绞焦ぷ?，通過并行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數(shù)據(jù)。此外，Hadoop 依賴于社區(qū)服務(wù)器，因此它的成本比較低，任何人都可以使用。

Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn)：

⒈高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

⒉高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

⒊高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非常快。

⒋高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。

Hadoop帶有用 Java 語言編寫的框架，因此運(yùn)行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫，比如 C++。

2、 HPCC

HPCC，High Performance Computing and Communications（高性能計(jì)算與通信）的縮寫。1993年，由美國科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會(huì)向國會(huì)提交了“重大挑戰(zhàn)項(xiàng)目：高性能計(jì)算與通信”的報(bào)告，也就是被稱為HPCC計(jì)劃的報(bào)告，即美國總統(tǒng)科學(xué)戰(zhàn)略項(xiàng)目，其目的是通過加強(qiáng)研究與開發(fā)解決一批重要的科學(xué)與技術(shù)挑戰(zhàn)問題。HPCC是美國實(shí)施信息高速公路而上實(shí)施的計(jì)劃，該計(jì)劃的實(shí)施將耗資百億美元，其主要目標(biāo)要達(dá)到：開發(fā)可擴(kuò)展的計(jì)算系統(tǒng)及相關(guān)軟件，以支持太位級網(wǎng)絡(luò)傳輸性能，開發(fā)千兆比特網(wǎng)絡(luò)技術(shù)，擴(kuò)展研究和教育機(jī)構(gòu)及網(wǎng)絡(luò)連接能力。

該項(xiàng)目主要由五部分組成：

1、高性能計(jì)算機(jī)系統(tǒng)（HPCS），內(nèi)容包括今后幾代計(jì)算機(jī)系統(tǒng)的研究、系統(tǒng)設(shè)計(jì)工具、先進(jìn)的典型系統(tǒng)及原有系統(tǒng)的評價(jià)等；

2、先進(jìn)軟件技術(shù)與算法（ASTA），內(nèi)容有巨大挑戰(zhàn)問題的軟件支撐、新算法設(shè)計(jì)、軟件分支與工具、計(jì)算計(jì)算及高性能計(jì)算研究中心等；

3、國家科研與教育網(wǎng)格（NREN），內(nèi)容有中接站及10億位級傳輸?shù)难芯颗c開發(fā)；

4、基本研究與人類資源（BRHR），內(nèi)容有基礎(chǔ)研究、培訓(xùn)、教育及課程教材，被設(shè)計(jì)通過獎(jiǎng)勵(lì)調(diào)查者-開始的，長期的調(diào)查在可升級的高性能計(jì)算中來增加創(chuàng)新意識流，通過提高教育和高性能的計(jì)算訓(xùn)練和通信來加大熟練的和訓(xùn)練有素的人員的聯(lián)營，和來提供必需的基礎(chǔ)架構(gòu)來支持這些調(diào)查和研究活動(dòng)；

5、信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應(yīng)用（IITA ），目的在于保證美國在先進(jìn)信息技術(shù)開發(fā)方面的領(lǐng)先地位。

3、 Storm

Storm是自由的開源軟件，一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)。Storm可以非?？煽康奶幚睚嫶蟮臄?shù)據(jù)流，用于處理Hadoop的批量數(shù)據(jù)。Storm很簡單，支持許多種編程語言，使用起來非常有趣。Storm由Twitter開源而來，其它知名的應(yīng)用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。

Storm有許多應(yīng)用領(lǐng)域：實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、不停頓的計(jì)算、分布式RPC（遠(yuǎn)過程調(diào)用協(xié)議，一種通過網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請求服務(wù)）、 ETL（Extraction-Transformation-Loading的縮寫，即數(shù)據(jù)抽取、轉(zhuǎn)換和加載）等等。Storm的處理速度驚人：經(jīng)測試，每個(gè)節(jié)點(diǎn)每秒鐘可以處理100萬個(gè)數(shù)據(jù)元組。Storm是可擴(kuò)展、容錯(cuò)，很容易設(shè)置和操作。

4、 Apache Drill

為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法，Apache軟件基金會(huì)近日發(fā)起了一項(xiàng)名為“Drill”的開源項(xiàng)目。Apache Drill 實(shí)現(xiàn)了 Google’s Dremel.

據(jù)Hadoop廠商MapR Technologies公司產(chǎn)品經(jīng)理Tomer Shiran介紹，“Drill”已經(jīng)作為Apache孵化器項(xiàng)目來運(yùn)作，將面向全球軟件工程師持續(xù)推廣。

該項(xiàng)目將會(huì)創(chuàng)建出開源版本的谷歌Dremel Hadoop工具（谷歌使用該工具來為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應(yīng)用提速）。而“Drill”將有助于Hadoop用戶實(shí)現(xiàn)更快查詢海量數(shù)據(jù)集的目的。

“Drill”項(xiàng)目其實(shí)也是從谷歌的Dremel項(xiàng)目中獲得靈感：該項(xiàng)目幫助谷歌實(shí)現(xiàn)海量數(shù)據(jù)集的分析處理，包括分析抓取Web文檔、跟蹤安裝在Android Market上的應(yīng)用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測試結(jié)果等等。

通過開發(fā)“Drill”Apache開源項(xiàng)目，組織機(jī)構(gòu)將有望建立Drill所屬的API接口和靈活強(qiáng)大的體系架構(gòu)，從而幫助支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語言。

5、 RapidMiner

RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案，在一個(gè)非常大的程度上有著先進(jìn)技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛，包括各種數(shù)據(jù)藝術(shù)，能簡化數(shù)據(jù)挖掘過程的設(shè)計(jì)和評價(jià)。

功能和特點(diǎn)

免費(fèi)提供數(shù)據(jù)挖掘技術(shù)和庫

100%用Java代碼（可運(yùn)行在操作系統(tǒng)）

數(shù)據(jù)挖掘過程簡單，強(qiáng)大和直觀

內(nèi)部XML保證了標(biāo)準(zhǔn)化的格式來表示交換數(shù)據(jù)挖掘過程

可以用簡單腳本語言自動(dòng)進(jìn)行大規(guī)模進(jìn)程

多層次的數(shù)據(jù)視圖，確保有效和透明的數(shù)據(jù)

圖形用戶界面的互動(dòng)原型

命令行（批處理模式）自動(dòng)大規(guī)模應(yīng)用

Java API（應(yīng)用編程接口）

簡單的插件和推廣機(jī)制

強(qiáng)大的可視化引擎，許多尖端的高維數(shù)據(jù)的可視化建模

400多個(gè)數(shù)據(jù)挖掘運(yùn)營商支持

耶魯大學(xué)已成功地應(yīng)用在許多不同的應(yīng)用領(lǐng)域，包括文本挖掘，多媒體挖掘，功能設(shè)計(jì)，數(shù)據(jù)流挖掘，集成開發(fā)的方法和分布式數(shù)據(jù)挖掘。

6、 Pentaho BI

Pentaho BI 平臺不同于傳統(tǒng)的BI 產(chǎn)品，它是一個(gè)以流程為中心的，面向解決方案（Solution）的框架。其目的在于將一系列企業(yè)級BI產(chǎn)品、開源軟件、API等等組件集成起來，方便商務(wù)智能應(yīng)用的開發(fā)。它的出現(xiàn)，使得一系列的面向商務(wù)智能的獨(dú)立產(chǎn)品如Jfree、Quartz等等，能夠集成在一起，構(gòu)成一項(xiàng)項(xiàng)復(fù)雜的、完整的商務(wù)智能解決方案。

Pentaho BI 平臺，Pentaho Open BI 套件的核心架構(gòu)和基礎(chǔ)，是以流程為中心的，因?yàn)槠渲袠锌刂破魇且粋€(gè)工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執(zhí)行的商業(yè)智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平臺包含組件和報(bào)表，用以分析這些流程的性能。目前，Pentaho的主要組成元素包括報(bào)表生成、分析、數(shù)據(jù)挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術(shù)集成到Pentaho平臺中來。 Pentaho的發(fā)行，主要以Pentaho SDK的形式進(jìn)行。

Pentaho SDK共包含五個(gè)部分：Pentaho平臺、Pentaho示例數(shù)據(jù)庫、可獨(dú)立運(yùn)行的Pentaho平臺、Pentaho解決方案示例和一個(gè)預(yù)先配制好的 Pentaho網(wǎng)絡(luò)服務(wù)器。其中Pentaho平臺是Pentaho平臺最主要的部分，囊括了Pentaho平臺源代碼的主體；Pentaho數(shù)據(jù)庫為 Pentaho平臺的正常運(yùn)行提供的數(shù)據(jù)服務(wù)，包括配置信息、Solution相關(guān)的信息等等，對于Pentaho平臺來說它不是必須的，通過配置是可以用其它數(shù)據(jù)庫服務(wù)取代的；可獨(dú)立運(yùn)行的Pentaho平臺是Pentaho平臺的獨(dú)立運(yùn)行模式的示例，它演示了如何使Pentaho平臺在沒有應(yīng)用服務(wù)器支持的情況下獨(dú)立運(yùn)行；

Pentaho解決方案示例是一個(gè)Eclipse工程，用來演示如何為Pentaho平臺開發(fā)相關(guān)的商業(yè)智能解決方案。

Pentaho BI 平臺構(gòu)建于服務(wù)器，引擎和組件的基礎(chǔ)之上。這些提供了系統(tǒng)的J2EE 服務(wù)器，安全，portal，工作流，規(guī)則引擎，圖表，協(xié)作，內(nèi)容管理，數(shù)據(jù)集成，分析和建模功能。這些組件的大部分是基于標(biāo)準(zhǔn)的，可使用其他產(chǎn)品替換之。

7、 SAS Enterprise Miner

§ 支持整個(gè)數(shù)據(jù)挖掘過程的完備工具集

§ 易用的圖形界面,適合不同類型的用戶快速建模

§ 強(qiáng)大的模型管理和評估功能

§ 快速便捷的模型發(fā)布機(jī)制, 促進(jìn)業(yè)務(wù)閉環(huán)形成

數(shù)據(jù)分析算法

大數(shù)據(jù)分析主要依靠機(jī)器學(xué)習(xí)和大規(guī)模計(jì)算。機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等，而監(jiān)督學(xué)習(xí)又包括分類學(xué)習(xí)、回歸學(xué)習(xí)、排序?qū)W習(xí)、匹配學(xué)習(xí)等（見圖1）。分類是最常見的機(jī)器學(xué)習(xí)應(yīng)用問題，比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網(wǎng)頁歸類等，本質(zhì)上都是分類問題。分類學(xué)習(xí)也是機(jī)器學(xué)習(xí)領(lǐng)域，研究最徹底、使用最廣泛的一個(gè)分支。

最近、Fernández-Delgado等人在JMLR（Journal of Machine Learning Research，機(jī)器學(xué)習(xí)頂級期刊）雜志發(fā)表了一篇有趣的論文。他們讓179種不同的分類學(xué)習(xí)方法（分類學(xué)習(xí)算法）在UCI 121個(gè)數(shù)據(jù)集上進(jìn)行了“大比武”（UCI是機(jī)器學(xué)習(xí)公用數(shù)據(jù)集，每個(gè)數(shù)據(jù)集的規(guī)模都不大）。結(jié)果發(fā)現(xiàn)Random Forest（隨機(jī)森林）和SVM（支持向量機(jī)）名列第一、第二名，但兩者差異不大。在84.3%的數(shù)據(jù)上、Random Forest壓倒了其它90%的方法。也就是說，在大多數(shù)情況下，只用Random Forest 或 SVM事情就搞定了。

KNN

K最近鄰算法。給定一些已經(jīng)訓(xùn)練好的數(shù)據(jù)，輸入一個(gè)新的測試數(shù)據(jù)點(diǎn)，計(jì)算包含于此測試數(shù)據(jù)點(diǎn)的最近的點(diǎn)的分類情況，哪個(gè)分類的類型占多數(shù)，則此測試點(diǎn)的分類與此相同，所以在這里,有的時(shí)候可以復(fù)制不同的分類點(diǎn)不同的權(quán)重。近的點(diǎn)的權(quán)重大點(diǎn)，遠(yuǎn)的點(diǎn)自然就小點(diǎn)。詳細(xì)介紹鏈接

Naive Bayes

樸素貝葉斯算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡單的分類算法，用到了一個(gè)比較重要的貝葉斯定理，用一句簡單的話概括就是條件概率的相互轉(zhuǎn)換推導(dǎo)。詳細(xì)介紹鏈接

樸素貝葉斯分類是一種十分簡單的分類算法，叫它樸素貝葉斯分類是因?yàn)檫@種方法的思想真的很樸素，樸素貝葉斯的思想基礎(chǔ)是這樣的：對于給出的待分類項(xiàng)，求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率，哪個(gè)最大，就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。通俗來說，就好比這么個(gè)道理，你在街上看到一個(gè)黑人，我問你你猜這哥們哪里來的，你十有八九猜非洲。為什么呢？因?yàn)楹谌酥蟹侵奕说谋嚷首罡?，?dāng)然人家也可能是美洲人或亞洲人，但在沒有其它可用信息下，我們會(huì)選擇條件概率最大的類別，這就是樸素貝葉斯的思想基礎(chǔ)。

SVM

支持向量機(jī)算法。支持向量機(jī)算法是一種對線性和非線性數(shù)據(jù)進(jìn)行分類的方法，非線性數(shù)據(jù)進(jìn)行分類的時(shí)候可以通過核函數(shù)轉(zhuǎn)為線性的情況再處理。其中的一個(gè)關(guān)鍵的步驟是搜索最大邊緣超平面。詳細(xì)介紹鏈接

Apriori

Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法，通過連接和剪枝運(yùn)算挖掘出頻繁項(xiàng)集，然后根據(jù)頻繁項(xiàng)集得到關(guān)聯(lián)規(guī)則，關(guān)聯(lián)規(guī)則的導(dǎo)出需要滿足最小置信度的要求。詳細(xì)介紹鏈接

PageRank

網(wǎng)頁重要性/排名算法。PageRank算法最早產(chǎn)生于Google,核心思想是通過網(wǎng)頁的入鏈數(shù)作為一個(gè)網(wǎng)頁好快的判定標(biāo)準(zhǔn)，如果1個(gè)網(wǎng)頁內(nèi)部包含了多個(gè)指向外部的鏈接，則PR值將會(huì)被均分，PageRank算法也會(huì)遭到LinkSpan攻擊。詳細(xì)介紹鏈接

RandomForest

隨機(jī)森林算法。算法思想是決策樹+boosting.決策樹采用的是CART分類回歸數(shù),通過組合各個(gè)決策樹的弱分類器,構(gòu)成一個(gè)最終的強(qiáng)分類器,在構(gòu)造決策樹的時(shí)候采取隨機(jī)數(shù)量的樣本數(shù)和隨機(jī)的部分屬性進(jìn)行子決策樹的構(gòu)建,避免了過分?jǐn)M合的現(xiàn)象發(fā)生。詳細(xì)介紹鏈接

Artificial Neural Network

“神經(jīng)網(wǎng)絡(luò)”這個(gè)詞實(shí)際是來自于生物學(xué)，而我們所指的神經(jīng)網(wǎng)絡(luò)正確的名稱應(yīng)該是“人工神經(jīng)網(wǎng)絡(luò)（ANNs）”。

人工神經(jīng)網(wǎng)絡(luò)也具有初步的自適應(yīng)與自組織能力。在學(xué)習(xí)或訓(xùn)練過程中改變突觸權(quán)重值，以適應(yīng)周圍環(huán)境的要求。同一網(wǎng)絡(luò)因?qū)W習(xí)方式及內(nèi)容不同可具有不同的功能。人工神經(jīng)網(wǎng)絡(luò)是一個(gè)具有學(xué)習(xí)能力的系統(tǒng)，可以發(fā)展知識，以致超過設(shè)計(jì)者原有的知識水平。通常，它的學(xué)習(xí)訓(xùn)練方式可分為兩種，一種是有監(jiān)督或稱有導(dǎo)師的學(xué)習(xí)，這時(shí)利用給定的樣本標(biāo)準(zhǔn)進(jìn)行分類或模仿；另一種是無監(jiān)督學(xué)習(xí)或稱無為導(dǎo)師學(xué)習(xí)，這時(shí)，只規(guī)定學(xué)習(xí)方式或某些規(guī)則，則具體的學(xué)習(xí)內(nèi)容隨系統(tǒng)所處環(huán)境（即輸入信號情況）而異，系統(tǒng)可以自動(dòng)發(fā)現(xiàn)環(huán)境特征和規(guī)律性，具有更近似人腦的功能。

二、常用的搜索引擎有哪些

索引擎（search engines）是對互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理，然后供你查詢的系統(tǒng)，它包括信息搜集、信息整理和用戶查詢?nèi)糠帧?/p>

搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站，它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們在茫茫網(wǎng)海中搜尋到所需要的信息。

早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來，由其提供的資源的類型不同而分成不同的目錄，再一層層地進(jìn)行分類。

人們要找自己想要的信息可按他們的分類一層層進(jìn)入，就能最后到達(dá)目的地，找到自己想要的信息。

這其實(shí)是最原始的方式，只適用于因特網(wǎng)信息并不多的時(shí)候。

隨著因特網(wǎng)信息按幾何式增長，出現(xiàn)了真正意義上的搜索引擎，這些搜索引擎知道網(wǎng)站上每一頁的開始，隨后搜索因特網(wǎng)上的所有超級鏈接，把代表超級鏈接的所有詞匯放入一個(gè)數(shù)據(jù)庫。

這就是現(xiàn)在搜索引擎的原型。

隨著yahoo!的出現(xiàn)，搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代，相比以前其性能更加優(yōu)越。

現(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁的信息了，它們已經(jīng)變得更加綜合化，完美化了。

以搜索引擎權(quán)威yahoo!為例，從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦yahoo!開始，到現(xiàn)在，他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù)，充分說明了搜索引擎的發(fā)展從單一到綜合的過程。

然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展，使其搜索的結(jié)果讓人越來越不滿意。

例如，搜索“電腦”這個(gè)詞匯，就可能有數(shù)百萬頁的結(jié)果。

這是由于搜索引擎通過對網(wǎng)站的相關(guān)性來優(yōu)化搜索結(jié)果，這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、標(biāo)簽等公式來決定的。

這就是使搜索引擎搜索結(jié)果多而雜的原因。

而搜索引擎中的數(shù)據(jù)庫因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。

這篇文章中，我們介紹了google，它是一個(gè)大型的搜索引擎（of a large-scale search engine）的原型，搜索引擎在超文本中應(yīng)用廣泛。

Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁并建立索引，它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。

這個(gè)原型的全文和超連接的數(shù)據(jù)庫至少包含24‘000‘000個(gè)網(wǎng)頁。

我們可以從://google.stanford.edu/ 下載。

設(shè)計(jì)搜索引擎是一項(xiàng)富有挑戰(zhàn)性的工作。

搜索引擎為上億個(gè)網(wǎng)頁建立索引，其中包含大量迥然不同的詞匯。

而且每天要回答成千上萬個(gè)查詢。

在網(wǎng)絡(luò)中，盡管大型搜索引擎非常重要，但是學(xué)術(shù)界卻很少研究它。

此外由于技術(shù)的快速發(fā)展和網(wǎng)頁的大量增加，現(xiàn)在建立一個(gè)搜索引擎和三年前完全不同。

本文詳細(xì)介紹了我們的大型搜索引擎，據(jù)我們所知，在公開發(fā)表的論文中，這是第一篇描述地如此詳細(xì)。

除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應(yīng)用到如此大量級網(wǎng)頁中所遇到的問題，還有許多新的技術(shù)挑戰(zhàn)，包括應(yīng)用超文本中的附加信息改進(jìn)搜索結(jié)果。

本文將解決這個(gè)問題，描述如何運(yùn)用超文本中的附加信息，建立一個(gè)大型實(shí)用系統(tǒng)。

任何人都可以在網(wǎng)上隨意發(fā)布信息，如何有效地處理這些無組織的超文本 *** ，也是本文要關(guān)注的問題。

關(guān)鍵詞 World Wide Web，搜索引擎，信息檢索，PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰(zhàn)。

Web上的信息量快速增長，同時(shí)不斷有毫無經(jīng)驗(yàn)的新用戶來體驗(yàn)Web這門藝術(shù)。

人們喜歡用超級鏈接來網(wǎng)上沖浪，通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。

大家認(rèn)為List(目錄)有效地包含了大家感興趣的主題，但是它具有主觀性，建立和維護(hù)的代價(jià)高，升級慢，不能包括所有深?yuàn)W的主題。

基于關(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。

使問題更遭的是，一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動(dòng)搜索引擎。

我們建立了一個(gè)大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。

應(yīng)用超文本結(jié)構(gòu)，大大提高了查詢質(zhì)量。

我們的系統(tǒng)命名為google，取名自googol的通俗拼法，即10的100次方，這和我們的目標(biāo)建立一個(gè)大型搜索引擎不謀而合。

1.1網(wǎng)絡(luò)搜索引擎—升級換代（scaling up）：1994-2000 搜索引擎技術(shù)不得不快速升級（scale dramatically）跟上成倍增長的web數(shù)量。

1994年，第一個(gè)Web搜索引擎，World Wide Web Worm(WWWW)可以檢索到110，000個(gè)網(wǎng)頁和Web的文件。

到1994年11月，頂級的搜索引擎聲稱可以檢索到2‘000’000（WebCrawler）至100‘000’000個(gè)網(wǎng)絡(luò)文件（來自 Search Engine Watch）。

可以預(yù)見到2000年，可檢索到的網(wǎng)頁將超過1‘000’000‘000。

同時(shí)，搜索引擎的訪問量也會(huì)以驚人的速度增長。

在1997年的三四月份，World Wide Web Worm 平均每天收到1500個(gè)查詢。

在1997年11月，Altavista 聲稱它每天要處理大約20’000’000個(gè)查詢。

隨著網(wǎng)絡(luò)用戶的增長，到2000年，自動(dòng)搜索引擎每天將處理上億個(gè)查詢。

我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問題，包括質(zhì)量和可升級性，引入升級搜索引擎技術(shù)（scaling search engine technology），把它升級到如此大量的數(shù)據(jù)上。

1.2 Google：跟上Web的步伐（Scaling with the Web）建立一個(gè)能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會(huì)面臨許多挑戰(zhàn)。

抓網(wǎng)頁技術(shù)必須足夠快，才能跟上網(wǎng)頁變化的速度（keep them up to date）。

存儲索引和文檔的空間必須足夠大。

索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。

處理查詢必須快，達(dá)到每秒能處理成百上千個(gè)查詢（hundreds to thousands per second.）。

隨著Web的不斷增長，這些任務(wù)變得越來越艱巨。

然而硬件的執(zhí)行效率和成本也在快速增長，可以部分抵消這些困難。

還有幾個(gè)值得注意的因素，如磁盤的尋道時(shí)間（disk seek time），操作系統(tǒng)的效率（operating system robustness）。

在設(shè)計(jì)Google的過程中，我們既考慮了Web的增長速度，又考慮了技術(shù)的更新。

Google的設(shè)計(jì)能夠很好的升級處理海量數(shù)據(jù)集。

它能夠有效地利用存儲空間來存儲索引。

優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存?。▍⒖?.2節(jié)）。

進(jìn)一步，我們希望，相對于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言，存儲和建立索引的代價(jià)盡可能的?。▍⒖几戒汢）。

對于象Google這樣的集中式系統(tǒng)，采取這些措施得到了令人滿意的系統(tǒng)可升級性（scaling properties）。

1. 3設(shè)計(jì)目標(biāo) 1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。

1994年，有人認(rèn)為建立全搜索索引（a plete search index）可以使查找任何數(shù)據(jù)都變得容易。

根據(jù)Best of the Web 1994 -- Navigators ，“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易（當(dāng)時(shí)所有的數(shù)據(jù)都可以被登錄）”。

然而1997年的Web就迥然不同。

近來搜索引擎的用戶已經(jīng)證實(shí)索引的完整性不是評價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。

用戶感興趣的搜索結(jié)果往往湮沒在“垃圾結(jié)果Junk result”中。

實(shí)際上，到1997年11月為止，四大商業(yè)搜索引擎中只有一個(gè)能夠找到它自己（搜索自己名字時(shí)返回的前十個(gè)結(jié)果中有它自己）。

導(dǎo)致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個(gè)數(shù)量級，但是用戶能夠看的文檔數(shù)卻沒有增加。

用戶仍然只希望看前面幾十個(gè)搜索結(jié)果。

因此，當(dāng) *** 增大時(shí)，我們就需要工具使結(jié)果精確（在返回的前幾十個(gè)結(jié)果中，有關(guān)文檔的數(shù)量）。

由于是從成千上萬個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè)，實(shí)際上，相關(guān)的概念就是指最好的文檔。

高精確非常重要，甚至以響應(yīng)（系統(tǒng)能夠返回的有關(guān)文檔的總數(shù)）為代價(jià)。

令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用。

尤其是鏈接結(jié)構(gòu)和鏈接文本，為相關(guān)性的判斷和高質(zhì)量的過濾提供了大量的信息。

Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本（見2.1和2.2節(jié)）。

1.3.2搜索引擎的學(xué)術(shù)研究隨著時(shí)間的流逝，除了發(fā)展迅速，Web越來越商業(yè)化。

1993年，只有1.5%的Web服務(wù)是來自域名。

到1997年，超過了60%。

同時(shí)，搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。

到現(xiàn)在大多數(shù)搜索引擎被公司所有，很少技公開術(shù)細(xì)節(jié)。

這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作，并傾向做廣告（見附錄A）。

Google的主要目標(biāo)是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展，和對它的了解。

另一個(gè)設(shè)計(jì)目標(biāo)是給大家一個(gè)實(shí)用的系統(tǒng)。

應(yīng)用對我們來說非常重要，因?yàn)楝F(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)（us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems）。

例如，每天有幾千萬個(gè)研究。

然而，得到這些數(shù)據(jù)卻非常困難，主要因?yàn)樗鼈儧]有商業(yè)價(jià)值。

我們最后的設(shè)計(jì)目標(biāo)是建立一個(gè)體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。

為了支持新研究，Google以壓縮的形式保存了實(shí)際所抓到的文檔。

設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域，處理海量Web數(shù)據(jù)，得到滿意的結(jié)果，而通過其它方法卻很難得到結(jié)果。

系統(tǒng)在短時(shí)間內(nèi)被建立起來，已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫，更多的在起步中。

我們的另一個(gè)目標(biāo)是建立一個(gè)宇宙空間實(shí)驗(yàn)室似的環(huán)境，在這里研究者甚至學(xué)生都可以對我們的海量Web數(shù)據(jù)設(shè)計(jì)或做一些實(shí)驗(yàn)。

2. 系統(tǒng)特點(diǎn) Google搜索引擎有兩個(gè)重要特點(diǎn)，有助于得到高精度的搜索結(jié)果。

第一點(diǎn)，應(yīng)用Web的鏈接結(jié)構(gòu)計(jì)算每個(gè)網(wǎng)頁的Rank值，稱為PageRank，將在98頁詳細(xì)描述它。

第二點(diǎn)，Google利用超鏈接改進(jìn)搜索結(jié)果。

2.1 PageRank:給網(wǎng)頁排序 Web的引用（鏈接）圖是重要的資源，卻被當(dāng)今的搜索引擎很大程度上忽視了。

我們建立了一個(gè)包含518‘000’000個(gè)超鏈接的圖，它是一個(gè)具有重要意義的樣本。

這些圖能夠快速地計(jì)算網(wǎng)頁的PageRank值，它是一個(gè)客觀的標(biāo)準(zhǔn)，較好的符合人們心目中對一個(gè)網(wǎng)頁重要程度的評價(jià)，建立的基礎(chǔ)是通過引用判斷重要性。

因此在web中，PageRank能夠優(yōu)化關(guān)鍵詞查詢的結(jié)果。

對于大多數(shù)的主題，在網(wǎng)頁標(biāo)題查詢中用PageRank優(yōu)化簡單文本匹配，我們得到了令人驚嘆的結(jié)果（從google.stanford.edu可以得到演示）。

對于Google主系統(tǒng)中的全文搜索，PageRank也幫了不少忙。

2.1.1計(jì)算PageRank 文獻(xiàn)檢索中的引用理論用到Web中，引用網(wǎng)頁的鏈接數(shù)，一定程度上反映了該網(wǎng)頁的重要性和質(zhì)量。

PageRank發(fā)展了這種思想，網(wǎng)頁間的鏈接是不平等的。

PageRank定義如下: 我們假設(shè)T1…Tn指向網(wǎng)頁A（例如，被引用）。

參數(shù)d是制動(dòng)因子，使結(jié)果在0，1之間。

通常d等于0.85。

在下一節(jié)將詳細(xì)介紹d。

C（A）定義為網(wǎng)頁A指向其它網(wǎng)頁的鏈接數(shù)，網(wǎng)頁A的PageRank值由下式給出： PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式，分布到各個(gè)網(wǎng)頁中，因此所有網(wǎng)頁的PageRank和是1。

PageRank或PR（A）可以用簡單的迭代算法計(jì)算，相應(yīng)規(guī)格化Web鏈接矩陣的主特征向量。

中等規(guī)模的網(wǎng)站計(jì)算26‘000’000網(wǎng)頁的PageRank值要花費(fèi)幾小時(shí)。

還有一些技術(shù)細(xì)節(jié)超出了本文論述的范圍。

2.1.2直覺判斷 PageRank被看作用戶行為的模型。

我們假設(shè)網(wǎng)上沖浪是隨機(jī)的，不斷點(diǎn)擊鏈接，從不返回，最終煩了，另外隨機(jī)選一個(gè)網(wǎng)頁重新開始沖浪。

隨機(jī)訪問一個(gè)網(wǎng)頁的可能性就是它的PageRank值。

制動(dòng)因子d是隨機(jī)訪問一個(gè)網(wǎng)頁煩了的可能性，隨機(jī)另選一個(gè)網(wǎng)頁。

對單個(gè)網(wǎng)頁或一組網(wǎng)頁，一個(gè)重要的變量加入到制動(dòng)因子d中。

這允許個(gè)人可以故意地誤導(dǎo)系統(tǒng)，以得到較高的PageRank值。

我們還有其它的PageRank算法，見98頁。

另外的直覺判斷是一個(gè)網(wǎng)頁有很多網(wǎng)頁指向它，或者一些PageRank值高的網(wǎng)頁指向它，則這個(gè)網(wǎng)頁很重要。

直覺地，在Web中，一個(gè)網(wǎng)頁被很多網(wǎng)頁引用，那么這個(gè)網(wǎng)頁值得一看。

一個(gè)網(wǎng)頁被象Yahoo這樣重要的主頁引用即使一次，也值得一看。

如果一個(gè)網(wǎng)頁的質(zhì)量不高，或者是死鏈接，象Yahoo這樣的主頁不會(huì)鏈向它。

PageRank處理了這兩方面因素，并通過網(wǎng)絡(luò)鏈接遞歸地傳遞。

& nbsp; 2.2鏈接描述文字（Anchor Text）我們的搜索引擎對鏈接文本進(jìn)行了特殊的處理。

大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁（the page that the link is on）聯(lián)系起來。

另外，把它和鏈接所指向的網(wǎng)頁聯(lián)系起來。

這有幾點(diǎn)好處。

第一，通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。

第二，鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到，例如圖像，程序和數(shù)據(jù)庫。

有可能使返回的網(wǎng)頁不能被抓到。

注意哪些抓不到的網(wǎng)頁將會(huì)帶來一些問題。

在返回給用戶前檢測不了它們的有效性。

這種情況搜索引擎可能返回一個(gè)根本不存在的網(wǎng)頁，但是有超級鏈接指向它。

然而這種結(jié)果可以被挑出來的，所以此類的問題很少發(fā)生。

鏈接描述文字是對被鏈向網(wǎng)頁的宣傳，這個(gè)思想被用在World Wide Web Worm 中，主要因?yàn)樗兄谒阉鞣俏谋拘畔?，能夠用少量的已下載文檔擴(kuò)大搜索范圍。

我們大量應(yīng)用鏈接描述文字，因?yàn)樗兄谔岣咚阉鹘Y(jié)果的質(zhì)量。

有效地利用鏈接描述文字技術(shù)上存在一些困難，因?yàn)楸仨毺幚泶罅康臄?shù)據(jù)。

現(xiàn)在我們能抓到24‘000’000個(gè)網(wǎng)頁，已經(jīng)檢索到259‘000’000多個(gè)鏈接描述文字。

2.3其它特點(diǎn)除了PageRank和應(yīng)用鏈接描述文字外，Google還有一些其它特點(diǎn)。

第一,所有hit都有位置信息，所以它可以在搜索中廣泛應(yīng)用鄰近性（proximity）。

第二，Google跟蹤一些可視化外表細(xì)節(jié)，例如字號。

黑體大號字比其它文字更重要。

第三，知識庫存儲了原始的全文網(wǎng)頁。

3有關(guān)工作 Web檢索研究的歷史簡短。

World Wide Web Worm（）是最早的搜索引擎之一。

后來出現(xiàn)了一些用于學(xué)術(shù)研究的搜索引擎，現(xiàn)在它們中的大多數(shù)被上市公司擁有。

與Web的增長和搜索引擎的重要性相比，有關(guān)當(dāng)今搜索引擎技術(shù)的優(yōu)秀論文相當(dāng)少。

根據(jù)Michael Mauldin（Lycos Inc的首席科學(xué)家）) ，“各種各樣的服務(wù)（包括Lycos）非常關(guān)注這些數(shù)據(jù)庫的細(xì)節(jié)。

”雖然在搜索引擎的某些特點(diǎn)上做了大量工作。

具有代表性的工作有，對現(xiàn)有商業(yè)搜索引擎的結(jié)果進(jìn)行傳遞，或建立小型的個(gè)性化的搜索引擎。

最后有關(guān)信息檢索系統(tǒng)的研究很多，尤其在有組織機(jī)構(gòu) *** （well controlled collections）方面。

在下面兩節(jié)，我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。

3.1信息檢索信息檢索系統(tǒng)誕生在幾年前，并發(fā)展迅速。

然而大多數(shù)信息檢索系統(tǒng)研究的對象是小規(guī)模的單一的有組織結(jié)構(gòu)的 *** ，例如科學(xué)論文集，或相關(guān)主題的新聞故事。

實(shí)際上，信息檢索的主要基準(zhǔn)，the Text Retrieval Conference（），用小規(guī)模的、有組織結(jié)構(gòu)的 *** 作為它們的基準(zhǔn)。

大型文集基準(zhǔn)只有20GB，相比之下，我們抓到的24000000個(gè)網(wǎng)頁占147GB。

在TREC上工作良好的系統(tǒng)，在Web上卻不一定產(chǎn)生好的結(jié)果。

例如，標(biāo)準(zhǔn)向量空間模型企圖返回和查詢請求最相近的文檔，把查詢請求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。

在Web環(huán)境下，這種策略常常返回非常短的文檔，這些文檔往往是查詢詞再加幾個(gè)字。

例如，查詢“Bill Clinton”，返回的網(wǎng)頁只包含“Bill Clinton Sucks”，這是我們從一個(gè)主要搜索引擎中看到的。

網(wǎng)絡(luò)上有些爭議，用戶應(yīng)該更準(zhǔn)確地表達(dá)他們想查詢什么，在他們的查詢請求中用更多的詞。

我們強(qiáng)烈反對這種觀點(diǎn)。

如果用戶提出象“Bill Clinton”這樣的查詢請求，應(yīng)該得到理想的查詢結(jié)果，因?yàn)檫@個(gè)主題有許多高質(zhì)量的信息。

象所給的例子，我們認(rèn)為信息檢索標(biāo)準(zhǔn)需要發(fā)展，以便有效地處理Web數(shù)據(jù)。

3.2有組織結(jié)構(gòu)的 *** （Well Controlled Collections）與Web的不同點(diǎn) Web是完全無組織的異構(gòu)的大量文檔的 *** 。

Web中的文檔無論內(nèi)在信息還是隱含信息都存在大量的異構(gòu)性。

例如，文檔內(nèi)部就用了不同的語言（既有人類語言又有程序），詞匯（[email]地址，鏈接，郵政編碼，電話號碼，產(chǎn)品號），類型（文本，HTML，PDF，圖像，聲音），有些甚至是機(jī)器創(chuàng)建的文件（log文件，或數(shù)據(jù)庫的輸出）。

可以從文檔中推斷出來，但并不包含在文檔中的信息稱為隱含信息。

隱含信息包括來源的信譽(yù)，更新頻率，質(zhì)量，訪問量和引用。

不但隱含信息的可能來源各種各樣，而且被檢測的信息也大不相同，相差可達(dá)好幾個(gè)數(shù)量級。

例如，一個(gè)重要主頁的使用量，象Yahoo 每天瀏覽數(shù)達(dá)到上百萬次，于此相比無名的歷史文章可能十年才被訪問一次。

很明顯，搜索引擎對這兩類信息的處理是不同的。

Web與有組織結(jié)構(gòu) *** 之間的另外一個(gè)明顯區(qū)別是，事實(shí)上，向Web上傳信息沒有任何限制。

靈活利用這點(diǎn)可以發(fā)布任何對搜索引擎影響重大的信息，使路由阻塞，加上為牟利故意操縱搜索引擎，這些已經(jīng)成為一個(gè)嚴(yán)重的問題。

這些問題還沒有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來。

它關(guān)心的是元數(shù)據(jù)的努力，這在Web搜索引擎中卻不適用，因?yàn)榫W(wǎng)頁中的任何文本都不會(huì)向用戶聲稱企圖操縱搜索引擎。

甚至有些公司為牟利專門操縱搜索引擎。

4 系統(tǒng)分析（System Anatomy）首先，我們提供高水平的有關(guān)體系結(jié)構(gòu)的討論。

然后，詳細(xì)描述重要的數(shù)據(jù)結(jié)構(gòu)。

最后，主要應(yīng)用：抓網(wǎng)頁，索引，搜索將被嚴(yán)格地檢查。

Figure 1. High Level Google Architecture 4.1Google體系結(jié)構(gòu)概述這一節(jié)，我們將看看整個(gè)系統(tǒng)是如何工作的（give a high level），見圖1。

本節(jié)不討論應(yīng)用和數(shù)據(jù)結(jié)構(gòu)，在后幾節(jié)中討論。

為了效率大部分Google是用c或c++實(shí)現(xiàn)的，既可以在Solaris也可以在Linux上運(yùn)行。

Google系統(tǒng)中，抓網(wǎng)頁（下載網(wǎng)頁）是由幾個(gè)分布式crawlers完成的。

一個(gè)URL服務(wù)器負(fù)責(zé)向crawlers提供URL列表。

抓來的網(wǎng)頁交給存儲服務(wù)器storeserver。

然后，由存儲服務(wù)器壓縮網(wǎng)頁并把它們存到知識庫repository中。

每個(gè)網(wǎng)頁都有一個(gè)ID，稱作docID，當(dāng)新URL從網(wǎng)頁中分析出時(shí)，就被分配一個(gè)docID。

由索引器和排序器負(fù)責(zé)建立索引index function。

索引器從知識庫中讀取文檔，對其解壓縮和分析。

每個(gè)文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況，稱作命中hits。

Hits紀(jì)錄了詞，詞在文檔中的位置，最接近的字號，大小寫。

索引器把這些hits分配到一組桶barrel中，產(chǎn)生經(jīng)過部分排序后的索引。

索引器的另一個(gè)重要功能是分析網(wǎng)頁中所有的鏈接，將有關(guān)的重要信息存在鏈接描述anchors文件中。

該文件包含了足夠的信息，可以用來判斷每個(gè)鏈接鏈出鏈入節(jié)點(diǎn)的信息，和鏈接文本。

URL分解器resolver閱讀鏈接描述anchors文件，并把相對URL轉(zhuǎn)換成絕對URL，再轉(zhuǎn)換成docID。

為鏈接描述文本編制索引，并與它所指向的docID關(guān)聯(lián)起來。

同時(shí)建立由docID對組成的鏈接數(shù)據(jù)庫。

用于計(jì)算所有文檔的PageRank值。

用docID分類后的barrels，送給排序器sorter，再根據(jù)wordID進(jìn)行分類，建立反向索引inverted index。

這個(gè)操作要恰到好處，以便幾乎不需要暫存空間。

排序器還給出docID和偏移量列表，建立反向索引。

一個(gè)叫DumpLexicon的程序把這個(gè)列表和由索引器產(chǎn)生的字典結(jié)合在一起，建立一個(gè)新的字典，供搜索器使用。

這個(gè)搜索器就是利用一個(gè)Web服務(wù)器，使用由DumpLexicon所生成的字典，利用上述反向索引以及頁面等級PageRank來回答用戶的提問。

4.2主要數(shù)據(jù)結(jié)構(gòu)經(jīng)過優(yōu)化的Google數(shù)據(jù)結(jié)構(gòu)，能夠用較小的代價(jià)抓取大量文檔，建立索引和查詢。

雖然近幾年CPU和輸入輸出速率迅速提高。

磁盤尋道仍然需要10ms。

任何時(shí)候Google系統(tǒng)的設(shè)計(jì)都盡可能地避免磁盤尋道。

這對數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)影響很大。

4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng)，用長度是64位的整型數(shù)據(jù)尋址。

多文件系統(tǒng)之間的空間分配是自動(dòng)完成的。

BigFiles包也處理已分配和未分配文件描述符。

由于操縱系統(tǒng)不能滿足我們的需要，BigFiles也支持基本的壓縮選項(xiàng)。

4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個(gè)網(wǎng)頁的全部HTML。

每個(gè)網(wǎng)頁用zlib（見RFC1950）壓縮。

壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。

我們選擇zlib的速度而不是壓縮率很高的bzip。

知識庫用bzip的壓縮率接近4：1。

而用zlib的壓縮率是3：1。

文檔一個(gè)挨著一個(gè)的存儲在知識庫中，前綴是docID，長度，URL，見圖2。

訪問知識庫不需要其它的數(shù)據(jù)結(jié)構(gòu)。

這有助于數(shù)據(jù)一致性和升級。

用其它數(shù)據(jù)結(jié)構(gòu)重構(gòu)系統(tǒng)，我們只需要修改知識庫和crawler錯(cuò)誤列表文件。

4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。

索引以docID的順序排列，定寬ISAM（Index sequential access mode）。

每條記錄包括當(dāng)前文件狀態(tài)，一個(gè)指向知識庫的指針，文件校驗(yàn)和，各種統(tǒng)計(jì)表。

如果一個(gè)文檔已經(jīng)被抓到，指針指向docinfo文件，該文件的寬度可變，包含了URL和標(biāo)題。

否則指針指向包含這個(gè)URL的URL列表。

這種設(shè)計(jì)考慮到簡潔的數(shù)據(jù)結(jié)構(gòu)，以及在查詢中只需要一個(gè)磁盤尋道時(shí)間就能夠訪問一條記錄。

還有一個(gè)文件用于把URL轉(zhuǎn)換成docID。

它是URL校驗(yàn)和與相應(yīng)docID的列表，按校驗(yàn)和排序。

要想知道某個(gè)URL的docID，需要計(jì)算URL的校驗(yàn)和，然后在校驗(yàn)和文件中執(zhí)行二進(jìn)制查找，找到它的docID。

通過對這個(gè)文件進(jìn)行合并，可以把一批URL轉(zhuǎn)換成對應(yīng)的docID。

URL分析器用這項(xiàng)技術(shù)把URL轉(zhuǎn)換成docID。

這種成批更新的模式是至關(guān)重要的，否則每個(gè)鏈接都需要一次查詢，假如用一塊磁盤，322‘000’000個(gè)鏈接的數(shù)據(jù) *** 將花費(fèi)一個(gè)多月的時(shí)間。

4.2.4詞典詞典有幾種不同的形式。

和以前系統(tǒng)的重要不同是，詞典對內(nèi)存的要求可以在合理的價(jià)格內(nèi)。

現(xiàn)在實(shí)現(xiàn)的系統(tǒng)，一臺256M內(nèi)存的機(jī)器就可以把詞典裝入到內(nèi)存中。

現(xiàn)在的詞典包含14000000詞匯（雖然一些很少用的詞匯沒有加入到詞典中）。

它執(zhí)行分兩部分—詞匯表（用null分隔的連續(xù)串）和指針的哈希表。

不同的函數(shù)，詞匯表有一些輔助信息，這超出了本文論述的范圍。

4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表，包括位置，字號，大小寫。

Hit list占很大空間，用在正向和反向索引中。

因此，它的表示形式越有效越好。

我們考慮了幾種方案來編碼位置，字號，大小寫—簡單編碼（3個(gè)整型數(shù)），緊湊編碼（支持優(yōu)化分配比特位），哈夫曼編碼。

Hit的詳細(xì)信息見圖3。

我們的緊湊編碼每個(gè)hit用2字節(jié)。

有兩種類型hit，特殊hit和普通hit。

特殊hit包含URL，標(biāo)題，鏈接描述文字，meta tag。

普通hit包含其它每件事。

它包括大小寫特征位，字號，12比特用于描述詞在文檔中的位置（所有超過4095的位置標(biāo)記為4096）。

字號采用相對于文檔的其它部分的相對大小表示，占3比特(實(shí)際只用7個(gè)值，因?yàn)?11標(biāo)志是特殊hit)。

特殊hit由大小寫特征位，字號位為7表示它是特殊hit，用4比特表示特殊hit的類型，8比特表示位置。

對于anchor hit八比特位置位分出4比特用來表示在anchor中的位置，4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。

短語查詢是有限的，對某些詞沒有足夠多的anchor。

我們希望更新anchor hit的存儲方式，以便解決地址位和docIDhash域位數(shù)不足的問題。

三、大數(shù)據(jù)概念是在哪一年由誰首次提出的

大數(shù)據(jù)(big data)，或稱巨量資料，指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具，在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法（抽樣調(diào)查）這樣捷徑，而采用所有數(shù)據(jù)進(jìn)行分析處理。

是google提出的用于處理海量數(shù)據(jù)（是google提出的用于處理海量數(shù)據(jù)的方法）

于“大數(shù)據(jù)”（Big data）研究機(jī)構(gòu)Gartner給出了這樣的定義?！按髷?shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。

麥肯錫全球研究所給出的定義是：一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合，具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。

大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息，而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之，如果把大數(shù)據(jù)比作一種產(chǎn)業(yè)，那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵，在于提高對數(shù)據(jù)的“加工能力”，通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

從技術(shù)上看，大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計(jì)算機(jī)進(jìn)行處理，必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。

隨著云時(shí)代的來臨，大數(shù)據(jù)（Big data）也吸引了越來越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為，大數(shù)據(jù)（Big data）通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)，這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。

大數(shù)據(jù)需要特殊的技術(shù)，以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù)，包括大規(guī)模并行處理（MPP）數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。

資料參考百度百科大數(shù)據(jù)

四、介紹一下云計(jì)算的核心技術(shù)

云計(jì)算系統(tǒng)運(yùn)用了許多技術(shù)，其中以編程模型、數(shù)據(jù)管理技術(shù)、數(shù)據(jù)存儲技術(shù)、虛擬化技術(shù)、云計(jì)算平臺管理技術(shù)最為關(guān)鍵。

(1)編程模型

MapReduce是Google開發(fā)的java、Python、C++編程模型，它是一種簡化的分布式編程模型和高效的任務(wù)調(diào)度模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。嚴(yán)格的編程模型使云計(jì)算環(huán)境下的編程十分簡單。MapReduce模式的思想是將要執(zhí)行的問題分解成Map(映射)和Reduce(化簡)的方式，先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊，分配（調(diào)度）給大量計(jì)算機(jī)處理，達(dá)到分布式運(yùn)算的效果，再通過Reduce程序?qū)⒔Y(jié)果匯整輸出。

(2) 海量數(shù)據(jù)分布存儲技術(shù)

云計(jì)算系統(tǒng)由大量服務(wù)器組成，同時(shí)為大量用戶服務(wù)，因此云計(jì)算系統(tǒng)采用分布式存儲的方式存儲數(shù)據(jù)，用冗余存儲的方式保證數(shù)據(jù)的可靠性。云計(jì)算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS。

GFS即Google文件系統(tǒng)（Google File System），是一個(gè)可擴(kuò)展的分布式文件系統(tǒng)，用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。GFS的設(shè)計(jì)思想不同于傳統(tǒng)的文件系統(tǒng)，是針對大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計(jì)的。它運(yùn)行于廉價(jià)的普通硬件上，但可以提供容錯(cuò)功能。它可以給大量的用戶提供總體性能較高的服務(wù)。

一個(gè)GFS集群由一個(gè)主服務(wù)器（master）和大量的塊服務(wù)器(chunkserver)構(gòu)成，并被許多客戶（Client）訪問。主服務(wù)器存儲文件系統(tǒng)所以的元數(shù)據(jù)，包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當(dāng)前位置。它也控制系統(tǒng)范圍的活動(dòng)，如塊租約（lease）管理，孤兒塊的垃圾收集，塊服務(wù)器間的塊遷移。主服務(wù)器定期通過HeartBeat消息與每一個(gè)塊服務(wù)器通信，給塊服務(wù)器傳遞指令并收集它的狀態(tài)。GFS中的文件被切分為64MB的塊并以冗余存儲，每份數(shù)據(jù)在系統(tǒng)中保存3個(gè)以上備份。

客戶與主服務(wù)器的交換只限于對元數(shù)據(jù)的操作，所有數(shù)據(jù)方面的通信都直接和塊服務(wù)器聯(lián)系，這大大提高了系統(tǒng)的效率，防止主服務(wù)器負(fù)載過重。

(3) 海量數(shù)據(jù)管理技術(shù)

云計(jì)算需要對分布的、海量的數(shù)據(jù)進(jìn)行處理、分析，因此，數(shù)據(jù)管理技術(shù)必需能夠高效的管理大量的數(shù)據(jù)。云計(jì)算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是Google的BT(BigTable)數(shù)據(jù)管理技術(shù)和Hadoop團(tuán)隊(duì)開發(fā)的開源數(shù)據(jù)管理模塊HBase。

BT是建立在GFS, Scheduler, Lock Service和MapReduce之上的一個(gè)大型的分布式數(shù)據(jù)庫，與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同，它把所有數(shù)據(jù)都作為對象來處理，形成一個(gè)巨大的表格，用來分布存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。

Google的很多項(xiàng)目使用BT來存儲數(shù)據(jù)，包括網(wǎng)頁查詢，Google earth和Google金融。這些應(yīng)用程序?qū)T的要求各不相同：數(shù)據(jù)大?。◤腢RL到網(wǎng)頁到衛(wèi)星圖象）不同，反應(yīng)速度不同（從后端的大批處理到實(shí)時(shí)數(shù)據(jù)服務(wù)）。對于不同的要求，BT都成功的提供了靈活高效的服務(wù)。

（4）虛擬化技術(shù)

通過虛擬化技術(shù)可實(shí)現(xiàn)軟件應(yīng)用與底層硬件相隔離，它包括將單個(gè)資源劃分成多個(gè)虛擬資源的裂分模式，也包括將多個(gè)資源整合成一個(gè)虛擬資源的聚合模式。虛擬化技術(shù)根據(jù)對象可分成存儲虛擬化、計(jì)算虛擬化、網(wǎng)絡(luò)虛擬化等，計(jì)算虛擬化又分為系統(tǒng)級虛擬化、應(yīng)用級虛擬化和桌面虛擬化。

（5）云計(jì)算平臺管理技術(shù)

云計(jì)算資源規(guī)模龐大，服務(wù)器數(shù)量眾多并分布在不同的地點(diǎn)，同時(shí)運(yùn)行著數(shù)百種應(yīng)用，如何有效的管理這些服務(wù)器，保證整個(gè)系統(tǒng)提供不間斷的服務(wù)是巨大的挑戰(zhàn)。

云計(jì)算系統(tǒng)的平臺管理技術(shù)能夠使大量的服務(wù)器協(xié)同工作，方便的進(jìn)行業(yè)務(wù)部署和開通，快速發(fā)現(xiàn)和恢復(fù)系統(tǒng)故障，通過自動(dòng)化、智能化的手段實(shí)現(xiàn)大規(guī)模系統(tǒng)的可靠運(yùn)營。

我是從IT號外知道的。

以上就是關(guān)于是google提出的用于處理海量數(shù)據(jù)相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識和內(nèi)容。