{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Get all revisions that are redirects\n",
    "\n",
    "For a given wiki we want to find all revisions that are redirects.\n",
    "We query [wmf.mediawiki_wikitext_history](https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Content/XMLDumps/Mediawiki_wikitext_history).\n",
    "\n",
    "How:\n",
    "- get all redirect-aliases\n",
    "    - for any wiki we can extract all redirect-aliases from '%s-latest-siteinfo-namespaces.json.gz'\n",
    "- query all revision-ids that are redirects\n",
    "    - we look at the column 'revision_text'\n",
    "    - we check whether the it starts with the string '#redirect [[*]]' or any of its aliases using sql's LIKE command\n",
    "    - we only consider lower-case strings (syntax agnostic to capitalization)\n",
    "- regexp-extract to get redirect-page from text-field"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import os\n",
    "from pyspark.sql.functions import  col,regexp_extract ## for extracting redirect-page\n",
    "from redirect import get_redirect_aliases ## for getting redirect-aliases"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "DataFrame[]"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "## select the wmf table\n",
    "sqlContext.sql('USE wmf')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Which wiki"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "wiki_date = '2019-07'\n",
    "wiki_name = 'rowiki'\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Get all redirect - aliases"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['#REDIRECT', '#REDIRECTEAZA']\n"
     ]
    }
   ],
   "source": [
    "## we look up the json of the latest siteinfo-namespaces file\n",
    "filename = os.path.join('/mnt','data','xmldatadumps','public','%s'%wiki_name,'latest','%s-latest-siteinfo-namespaces.json.gz'%wiki_name)\n",
    "list_redirect_aliases = get_redirect_aliases(filename)\n",
    "print(list_redirect_aliases)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Query\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "(LOWER(revision_text) LIKE \"#redirect [[%]]%\" OR LOWER(revision_text) LIKE \"#redirecteaza [[%]]%\")\n"
     ]
    }
   ],
   "source": [
    "## construct the string-matching condition\n",
    "str_revision_redirect_match = '('\n",
    "for i_redirect_alias, redirect_alias in enumerate(list_redirect_aliases):\n",
    "    if i_redirect_alias > 0:\n",
    "        str_revision_redirect_match += ' OR '\n",
    "    str_revision_redirect_match += 'LOWER(revision_text) LIKE \"%s [[%%]]%%\"'%(redirect_alias.lower())\n",
    "str_revision_redirect_match += ')'\n",
    "print(str_revision_redirect_match)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "SELECT page_id, revision_id, page_title, revision_text FROM wmf.mediawiki_wikitext_history WHERE snapshot=\"2019-07\" AND wiki_db=\"rowiki\" AND page_namespace = 0 AND (LOWER(revision_text) LIKE \"#redirect [[%]]%\" OR LOWER(revision_text) LIKE \"#redirecteaza [[%]]%\") ORDER BY page_id, revision_id \n"
     ]
    }
   ],
   "source": [
    "## query all revision which start with '#redirect [[*]]' or one of its redirect-aliases\n",
    "\n",
    "query = 'SELECT page_id, revision_id, page_title, revision_text \\\n",
    "FROM wmf.mediawiki_wikitext_history \\\n",
    "WHERE snapshot=\"%s\" \\\n",
    "AND wiki_db=\"%s\" \\\n",
    "AND page_namespace = 0 \\\n",
    "AND %s \\\n",
    "ORDER BY page_id, revision_id \\\n",
    "'\\\n",
    "%(wiki_date,wiki_name,str_revision_redirect_match)\n",
    "print(query)\n",
    "\n",
    "result = sqlContext.sql(query)\n",
    "\n",
    "## extracting the page [[ ]] where it redirects to\n",
    "## drop the revision-text (too much information)\n",
    "\n",
    "df_final = result.withColumn('revision_redirect_page',regexp_extract(col('revision_text'), '\\[\\[(.*?)\\]\\]',1  ) )\\\n",
    ".drop('revision_text')\\\n",
    ".toPandas()\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "## save result to csv-dataframe\n",
    "df_final.to_csv(df_redirect_revision_%s.csv'%wiki_name)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>page_id</th>\n",
       "      <th>revision_id</th>\n",
       "      <th>page_title</th>\n",
       "      <th>revision_redirect_page</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>9</td>\n",
       "      <td>66798</td>\n",
       "      <td>Fizica</td>\n",
       "      <td>Fizică</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>9</td>\n",
       "      <td>1303010</td>\n",
       "      <td>Fizica</td>\n",
       "      <td>Fizică</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>9</td>\n",
       "      <td>1705699</td>\n",
       "      <td>Fizica</td>\n",
       "      <td>Fizică</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>9</td>\n",
       "      <td>2126089</td>\n",
       "      <td>Fizica</td>\n",
       "      <td>Fizică</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>9</td>\n",
       "      <td>5693014</td>\n",
       "      <td>Fizica</td>\n",
       "      <td>Fizică</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>9</td>\n",
       "      <td>10723388</td>\n",
       "      <td>Fizica</td>\n",
       "      <td>Fizică</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>13</td>\n",
       "      <td>1962</td>\n",
       "      <td>Limbi</td>\n",
       "      <td>Listă de limbi</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>13</td>\n",
       "      <td>66801</td>\n",
       "      <td>Limbi</td>\n",
       "      <td>Limbă</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>13</td>\n",
       "      <td>3020259</td>\n",
       "      <td>Limbi</td>\n",
       "      <td>Limbă (dezambiguizare)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>13</td>\n",
       "      <td>3914562</td>\n",
       "      <td>Limbi</td>\n",
       "      <td>Limbă</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>13</td>\n",
       "      <td>8881133</td>\n",
       "      <td>Limbi</td>\n",
       "      <td>Limbă (dezambiguizare)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>14</td>\n",
       "      <td>66802</td>\n",
       "      <td>Lingvistica</td>\n",
       "      <td>Lingvistică</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>15</td>\n",
       "      <td>66803</td>\n",
       "      <td>Limba romana</td>\n",
       "      <td>Limba română</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>17</td>\n",
       "      <td>66805</td>\n",
       "      <td>Arte martiale</td>\n",
       "      <td>Arte marţiale</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>17</td>\n",
       "      <td>232040</td>\n",
       "      <td>Arte martiale</td>\n",
       "      <td>Artă marţială</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>17</td>\n",
       "      <td>4622678</td>\n",
       "      <td>Arte martiale</td>\n",
       "      <td>Artă marțială</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>17</td>\n",
       "      <td>12196093</td>\n",
       "      <td>Arte martiale</td>\n",
       "      <td>Artele marțiale</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>17</td>\n",
       "      <td>12206268</td>\n",
       "      <td>Arte martiale</td>\n",
       "      <td>Arte marțiale</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>24</td>\n",
       "      <td>66811</td>\n",
       "      <td>Romania (dezambiguizare)</td>\n",
       "      <td>România</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>24</td>\n",
       "      <td>747673</td>\n",
       "      <td>Romania (dezambiguizare)</td>\n",
       "      <td>România (dezambiguizare)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>24</td>\n",
       "      <td>748034</td>\n",
       "      <td>Romania (dezambiguizare)</td>\n",
       "      <td>România</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>49</td>\n",
       "      <td>66833</td>\n",
       "      <td>Religii</td>\n",
       "      <td>Religie</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>71</td>\n",
       "      <td>2461256</td>\n",
       "      <td>GPL (licență)</td>\n",
       "      <td>GPL (licenţă, versiunea 2)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>71</td>\n",
       "      <td>2896707</td>\n",
       "      <td>GPL (licență)</td>\n",
       "      <td>GPL (licenţă, versiunea 2)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>71</td>\n",
       "      <td>2896715</td>\n",
       "      <td>GPL (licență)</td>\n",
       "      <td>GPL (licenţă, versiunea 2)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>71</td>\n",
       "      <td>2986782</td>\n",
       "      <td>GPL (licență)</td>\n",
       "      <td>Licenţa_Publică_Generală_GNU</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>71</td>\n",
       "      <td>4044515</td>\n",
       "      <td>GPL (licență)</td>\n",
       "      <td>Licența Publică Generală GNU</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>71</td>\n",
       "      <td>4184309</td>\n",
       "      <td>GPL (licență)</td>\n",
       "      <td>Licența Publică Generală GNU</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>76</td>\n",
       "      <td>66859</td>\n",
       "      <td>Limba valonă</td>\n",
       "      <td>Limba văleană</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>80</td>\n",
       "      <td>66862</td>\n",
       "      <td>Nazismul</td>\n",
       "      <td>Nazism</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424323</th>\n",
       "      <td>2423632</td>\n",
       "      <td>12985859</td>\n",
       "      <td>Crinul tigru</td>\n",
       "      <td>Lilium lancifolium</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424324</th>\n",
       "      <td>2423754</td>\n",
       "      <td>12986164</td>\n",
       "      <td>Reclamă de Televiziune</td>\n",
       "      <td>Reclamă de televiziune</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424325</th>\n",
       "      <td>2423877</td>\n",
       "      <td>12986435</td>\n",
       "      <td>Nomenclatorul drumurilor naționale din România</td>\n",
       "      <td>Lista drumurilor naționale din România</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424326</th>\n",
       "      <td>2423919</td>\n",
       "      <td>12986606</td>\n",
       "      <td>NGC 242</td>\n",
       "      <td>NGC 241</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424327</th>\n",
       "      <td>2423921</td>\n",
       "      <td>12986619</td>\n",
       "      <td>Iacob I de Aragon</td>\n",
       "      <td>Iacob I al Aragonului</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424328</th>\n",
       "      <td>2423972</td>\n",
       "      <td>12986802</td>\n",
       "      <td>DN 5</td>\n",
       "      <td>DN5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424329</th>\n",
       "      <td>2424061</td>\n",
       "      <td>12987400</td>\n",
       "      <td>After School (grupă)</td>\n",
       "      <td>After School (grup muzical)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424330</th>\n",
       "      <td>2424071</td>\n",
       "      <td>12987453</td>\n",
       "      <td>Lactarius deterrimus</td>\n",
       "      <td>Râșcov de molid</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424331</th>\n",
       "      <td>2424153</td>\n",
       "      <td>12987875</td>\n",
       "      <td>Dumbo (povestiri)</td>\n",
       "      <td>Dumbo (carte)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424332</th>\n",
       "      <td>2424173</td>\n",
       "      <td>12988014</td>\n",
       "      <td>Liudmila Saveleva</td>\n",
       "      <td>Liudmila Savelieva</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424333</th>\n",
       "      <td>2424181</td>\n",
       "      <td>12988040</td>\n",
       "      <td>Reeducarea în România Comunistă</td>\n",
       "      <td>Reeducarea în România comunistă</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424334</th>\n",
       "      <td>2424230</td>\n",
       "      <td>12988331</td>\n",
       "      <td>James B. Conant</td>\n",
       "      <td>James Bryant Conant</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424335</th>\n",
       "      <td>2424236</td>\n",
       "      <td>12988655</td>\n",
       "      <td>Dirijor Mircea Popa</td>\n",
       "      <td>Mircea Popa (dirijor)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424336</th>\n",
       "      <td>2424257</td>\n",
       "      <td>12989799</td>\n",
       "      <td>Nürburg (Gemeinde)</td>\n",
       "      <td>Nürburg (comună)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424337</th>\n",
       "      <td>2424323</td>\n",
       "      <td>12990052</td>\n",
       "      <td>Hachioji</td>\n",
       "      <td>Hachiōji‎</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424338</th>\n",
       "      <td>2424380</td>\n",
       "      <td>12992295</td>\n",
       "      <td>Procedeu Edeleanu</td>\n",
       "      <td>Proces Edeleanu</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424339</th>\n",
       "      <td>2424381</td>\n",
       "      <td>12992303</td>\n",
       "      <td>Procedeu Leblanc</td>\n",
       "      <td>Proces Leblanc</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424340</th>\n",
       "      <td>2424385</td>\n",
       "      <td>12992662</td>\n",
       "      <td>Vasile Șova</td>\n",
       "      <td>Vasilii Șova</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424341</th>\n",
       "      <td>2424387</td>\n",
       "      <td>12992922</td>\n",
       "      <td>Oxid feric</td>\n",
       "      <td>Oxid de fier (III)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424342</th>\n",
       "      <td>2424388</td>\n",
       "      <td>12992942</td>\n",
       "      <td>Oxid feros</td>\n",
       "      <td>Oxid de fier (II)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424343</th>\n",
       "      <td>2424418</td>\n",
       "      <td>12998633</td>\n",
       "      <td>Charles Frederic Gerhardt</td>\n",
       "      <td>Charles Frédéric Gerhardt</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424344</th>\n",
       "      <td>2424477</td>\n",
       "      <td>13004007</td>\n",
       "      <td>WP:PARITY</td>\n",
       "      <td>Wikipedia:Opinii marginale#Paritatea surselor</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424345</th>\n",
       "      <td>2424494</td>\n",
       "      <td>13008956</td>\n",
       "      <td>Mariquina, Chile</td>\n",
       "      <td>Mariquina</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424346</th>\n",
       "      <td>2424546</td>\n",
       "      <td>13012179</td>\n",
       "      <td>ARM</td>\n",
       "      <td>Arm (dezambiguizare)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424347</th>\n",
       "      <td>2424581</td>\n",
       "      <td>13012369</td>\n",
       "      <td>Acid fosfonic</td>\n",
       "      <td>Fosfonat</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424348</th>\n",
       "      <td>2424595</td>\n",
       "      <td>13012445</td>\n",
       "      <td>Polimer de condensare</td>\n",
       "      <td>Policondensare</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424349</th>\n",
       "      <td>2424683</td>\n",
       "      <td>13013136</td>\n",
       "      <td>UEFA Champions League 2018-2019</td>\n",
       "      <td>Liga Campionilor 2018-2019</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424350</th>\n",
       "      <td>2424717</td>\n",
       "      <td>13013430</td>\n",
       "      <td>Galla, soția lui Teodosiu I</td>\n",
       "      <td>Galla (soția lui Teodosiu I)</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424351</th>\n",
       "      <td>2424761</td>\n",
       "      <td>13013681</td>\n",
       "      <td>SSC Farul Constanța</td>\n",
       "      <td>FC Farul Constanța</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>424352</th>\n",
       "      <td>2424870</td>\n",
       "      <td>13014422</td>\n",
       "      <td>Swaziland</td>\n",
       "      <td>Eswatini</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>424353 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "        page_id  revision_id                                      page_title  \\\n",
       "0             9        66798                                          Fizica   \n",
       "1             9      1303010                                          Fizica   \n",
       "2             9      1705699                                          Fizica   \n",
       "3             9      2126089                                          Fizica   \n",
       "4             9      5693014                                          Fizica   \n",
       "5             9     10723388                                          Fizica   \n",
       "6            13         1962                                           Limbi   \n",
       "7            13        66801                                           Limbi   \n",
       "8            13      3020259                                           Limbi   \n",
       "9            13      3914562                                           Limbi   \n",
       "10           13      8881133                                           Limbi   \n",
       "11           14        66802                                     Lingvistica   \n",
       "12           15        66803                                    Limba romana   \n",
       "13           17        66805                                   Arte martiale   \n",
       "14           17       232040                                   Arte martiale   \n",
       "15           17      4622678                                   Arte martiale   \n",
       "16           17     12196093                                   Arte martiale   \n",
       "17           17     12206268                                   Arte martiale   \n",
       "18           24        66811                        Romania (dezambiguizare)   \n",
       "19           24       747673                        Romania (dezambiguizare)   \n",
       "20           24       748034                        Romania (dezambiguizare)   \n",
       "21           49        66833                                         Religii   \n",
       "22           71      2461256                                   GPL (licență)   \n",
       "23           71      2896707                                   GPL (licență)   \n",
       "24           71      2896715                                   GPL (licență)   \n",
       "25           71      2986782                                   GPL (licență)   \n",
       "26           71      4044515                                   GPL (licență)   \n",
       "27           71      4184309                                   GPL (licență)   \n",
       "28           76        66859                                    Limba valonă   \n",
       "29           80        66862                                        Nazismul   \n",
       "...         ...          ...                                             ...   \n",
       "424323  2423632     12985859                                    Crinul tigru   \n",
       "424324  2423754     12986164                          Reclamă de Televiziune   \n",
       "424325  2423877     12986435  Nomenclatorul drumurilor naționale din România   \n",
       "424326  2423919     12986606                                         NGC 242   \n",
       "424327  2423921     12986619                               Iacob I de Aragon   \n",
       "424328  2423972     12986802                                            DN 5   \n",
       "424329  2424061     12987400                            After School (grupă)   \n",
       "424330  2424071     12987453                            Lactarius deterrimus   \n",
       "424331  2424153     12987875                               Dumbo (povestiri)   \n",
       "424332  2424173     12988014                               Liudmila Saveleva   \n",
       "424333  2424181     12988040                 Reeducarea în România Comunistă   \n",
       "424334  2424230     12988331                                 James B. Conant   \n",
       "424335  2424236     12988655                             Dirijor Mircea Popa   \n",
       "424336  2424257     12989799                              Nürburg (Gemeinde)   \n",
       "424337  2424323     12990052                                        Hachioji   \n",
       "424338  2424380     12992295                               Procedeu Edeleanu   \n",
       "424339  2424381     12992303                                Procedeu Leblanc   \n",
       "424340  2424385     12992662                                     Vasile Șova   \n",
       "424341  2424387     12992922                                      Oxid feric   \n",
       "424342  2424388     12992942                                      Oxid feros   \n",
       "424343  2424418     12998633                       Charles Frederic Gerhardt   \n",
       "424344  2424477     13004007                                       WP:PARITY   \n",
       "424345  2424494     13008956                                Mariquina, Chile   \n",
       "424346  2424546     13012179                                             ARM   \n",
       "424347  2424581     13012369                                   Acid fosfonic   \n",
       "424348  2424595     13012445                           Polimer de condensare   \n",
       "424349  2424683     13013136                 UEFA Champions League 2018-2019   \n",
       "424350  2424717     13013430                     Galla, soția lui Teodosiu I   \n",
       "424351  2424761     13013681                             SSC Farul Constanța   \n",
       "424352  2424870     13014422                                       Swaziland   \n",
       "\n",
       "                               revision_redirect_page  \n",
       "0                                              Fizică  \n",
       "1                                              Fizică  \n",
       "2                                              Fizică  \n",
       "3                                              Fizică  \n",
       "4                                              Fizică  \n",
       "5                                              Fizică  \n",
       "6                                      Listă de limbi  \n",
       "7                                               Limbă  \n",
       "8                              Limbă (dezambiguizare)  \n",
       "9                                               Limbă  \n",
       "10                             Limbă (dezambiguizare)  \n",
       "11                                        Lingvistică  \n",
       "12                                       Limba română  \n",
       "13                                      Arte marţiale  \n",
       "14                                      Artă marţială  \n",
       "15                                      Artă marțială  \n",
       "16                                    Artele marțiale  \n",
       "17                                      Arte marțiale  \n",
       "18                                            România  \n",
       "19                           România (dezambiguizare)  \n",
       "20                                            România  \n",
       "21                                            Religie  \n",
       "22                         GPL (licenţă, versiunea 2)  \n",
       "23                         GPL (licenţă, versiunea 2)  \n",
       "24                         GPL (licenţă, versiunea 2)  \n",
       "25                       Licenţa_Publică_Generală_GNU  \n",
       "26                       Licența Publică Generală GNU  \n",
       "27                       Licența Publică Generală GNU  \n",
       "28                                      Limba văleană  \n",
       "29                                             Nazism  \n",
       "...                                               ...  \n",
       "424323                             Lilium lancifolium  \n",
       "424324                         Reclamă de televiziune  \n",
       "424325         Lista drumurilor naționale din România  \n",
       "424326                                        NGC 241  \n",
       "424327                          Iacob I al Aragonului  \n",
       "424328                                            DN5  \n",
       "424329                    After School (grup muzical)  \n",
       "424330                                Râșcov de molid  \n",
       "424331                                  Dumbo (carte)  \n",
       "424332                             Liudmila Savelieva  \n",
       "424333                Reeducarea în România comunistă  \n",
       "424334                            James Bryant Conant  \n",
       "424335                          Mircea Popa (dirijor)  \n",
       "424336                               Nürburg (comună)  \n",
       "424337                                      Hachiōji‎  \n",
       "424338                                Proces Edeleanu  \n",
       "424339                                 Proces Leblanc  \n",
       "424340                                   Vasilii Șova  \n",
       "424341                             Oxid de fier (III)  \n",
       "424342                              Oxid de fier (II)  \n",
       "424343                      Charles Frédéric Gerhardt  \n",
       "424344  Wikipedia:Opinii marginale#Paritatea surselor  \n",
       "424345                                      Mariquina  \n",
       "424346                           Arm (dezambiguizare)  \n",
       "424347                                       Fosfonat  \n",
       "424348                                 Policondensare  \n",
       "424349                     Liga Campionilor 2018-2019  \n",
       "424350                   Galla (soția lui Teodosiu I)  \n",
       "424351                             FC Farul Constanța  \n",
       "424352                                       Eswatini  \n",
       "\n",
       "[424353 rows x 4 columns]"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df_final"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "PySpark - YARN (large)",
   "language": "python",
   "name": "spark_yarn_pyspark_large"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.5.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}