par PageRank » sam. 31 janv. 2015 18:37
Bonsoir,
J'effectue actuellement des recherches sur l'algorithme de classement des résultats du moteur de recherche Google, le PageRank, mais je me retrouve coincé par mes pauvres connaissances d'élève de première S.
Voici la formule en question, ainsi que l'énoncé de la chose (en anglais malheureusement):
Let u be a web page. Then let \(F_{u}\) be the set of pages u points to and \(B_{u}\) be the set of pages that point to u. Let \(N_{u} = |F_{u}|\) be the number of links from u and let c be a factor used for normalization.
Stated another way. Let A be a square matrix with the rows and column corresponding to web pages. Let \(A_{u,v} = \frac{1}{N_{u}}\) if there is an edge from u to v and \(A_{u,v} = 0\) if not. If we treat R as a vector over web pages, then we have R = cAR. So R is an eigenvector of A with eigenvalue c. In fact, we want the dominant eigenvector of A. It may be computed by repeatedly applying A to any nondegenerate start vector.
There is a small problem with this simplied ranking function. Consider two web pages that point to each other but to no other page. And suppose there is some web page which points to one of them. Then, during iteration, this loop will accumulate rank but never distribute any rank, since there are no outedges. The loop forms a sort of trap which we call a rank sink.
To overcome this problem of rank sinks, we intro duce a rank source:
Let E(u) be some vector over the Web pages that corresponds to a source of rank. Then, the PageRank of a set of Web pages is an assignment, R', to the Web pages which satisfies
\(R'(u) = c * \sum_{v \in B_{u}}^{} {\frac{R'(v)}{N_{v}}} + c * E(u)\)
Such that \(\||R'\||_{1} = 1\).
Je connais le principe des vecteurs propres, mais seulement le principe. Ce que je ne comprends pas, c'est le fonctionnement même de la formule. La somme ne me pose pas de problèmes en soi. En fait, je comprends la formule d'un point de vue purement algébrique, mais j'ai du mal à imaginer ce que peut signifier en soi "R as a vector over web pages", et ce qu'il en découle.
En vous remerciant par avance pour votre aide,
Bonne soirée.
Bonsoir,
J'effectue actuellement des recherches sur l'algorithme de classement des résultats du moteur de recherche Google, le PageRank, mais je me retrouve coincé par mes pauvres connaissances d'élève de première S.
Voici la formule en question, ainsi que l'énoncé de la chose (en anglais malheureusement):
Let u be a web page. Then let [tex]F_{u}[/tex] be the set of pages u points to and [tex]B_{u}[/tex] be the set of pages that point to u. Let [tex]N_{u} = |F_{u}|[/tex] be the number of links from u and let c be a factor used for normalization.
Stated another way. Let A be a square matrix with the rows and column corresponding to web pages. Let [tex]A_{u,v} = \frac{1}{N_{u}}[/tex] if there is an edge from u to v and [tex]A_{u,v} = 0[/tex] if not. If we treat R as a vector over web pages, then we have R = cAR. So R is an eigenvector of A with eigenvalue c. In fact, we want the dominant eigenvector of A. It may be computed by repeatedly applying A to any nondegenerate start vector.
There is a small problem with this simplied ranking function. Consider two web pages that point to each other but to no other page. And suppose there is some web page which points to one of them. Then, during iteration, this loop will accumulate rank but never distribute any rank, since there are no outedges. The loop forms a sort of trap which we call a rank sink.
To overcome this problem of rank sinks, we intro duce a rank source:
Let E(u) be some vector over the Web pages that corresponds to a source of rank. Then, the PageRank of a set of Web pages is an assignment, R', to the Web pages which satisfies
[tex]R'(u) = c * \sum_{v \in B_{u}}^{} {\frac{R'(v)}{N_{v}}} + c * E(u)[/tex]
Such that [tex]\||R'\||_{1} = 1[/tex].
Je connais le principe des vecteurs propres, mais seulement le principe. Ce que je ne comprends pas, c'est le fonctionnement même de la formule. La somme ne me pose pas de problèmes en soi. En fait, je comprends la formule d'un point de vue purement algébrique, mais j'ai du mal à imaginer ce que peut signifier en soi "R as a vector over web pages", et ce qu'il en découle.
En vous remerciant par avance pour votre aide,
Bonne soirée.