diff --git a/pywikibot/fixes.py b/pywikibot/fixes.py index 5922b06..ffd2ab0 100644 --- a/pywikibot/fixes.py +++ b/pywikibot/fixes.py @@ -28,7 +28,7 @@ parameter_help = """ in German * music - Links auf Begriffsklärungen in German * datum - specific date formats in German - * correct-ar - Corrections for Arabic Wikipedia and any + * correct-ar - Typo corrections for Arabic Wikipedia and any Arabic wiki. * yu-tld - Fix links to .yu domains because it is disabled, see: @@ -440,8 +440,8 @@ fixes = { } }, - # Corrections for Arabic Wikipedia and any Arabic wiki. - # python pwb.py replace -fix:correct-ar -start:! -always + # Typo corrections for Arabic Wikipedia and any Arabic wiki. + # python pwb.py replace -fix:correct-ar -start:! -always 'correct-ar': { 'regex': True, @@ -452,110 +452,138 @@ fixes = { # FIXME: Do not replace comma in non-Arabic text, # interwiki, image links or syntax. # (u' ,', u' ،'), - # TODO: Basic explanation in English what it does - (r'\bإمرأة\b', 'امرأة'), - (r'\bالى\b', 'إلى'), - (r'\bإسم\b', 'اسم'), - (r'\bالأن\b', 'الآن'), - (r'\bالة\b', 'آلة'), - (r'\bفى\b', 'في'), - (r'\bإبن\b', 'ابن'), - (r'\bإبنة\b', 'ابنة'), - (r'\bإقتصاد\b', 'اقتصاد'), - (r'\bإجتماع\b', 'اجتماع'), - (r'\bانجيل\b', 'إنجيل'), - (r'\bاجماع\b', 'إجماع'), - (r'\bاكتوبر\b', 'أكتوبر'), - (r'\bإستخراج\b', 'استخراج'), - (r'\bإستعمال\b', 'استعمال'), - (r'\bإستبدال\b', 'استبدال'), - (r'\bإشتراك\b', 'اشتراك'), - (r'\bإستعادة\b', 'استعادة'), - (r'\bإستقلال\b', 'استقلال'), - (r'\bإنتقال\b', 'انتقال'), - (r'\bإتحاد\b', 'اتحاد'), - (r'\bاملاء\b', 'إملاء'), - (r'\bإستخدام\b', 'استخدام'), - (r'\bأحدى\b', 'إحدى'), - (r'\bلاكن\b', 'لكن'), - (r'\bإثنان\b', 'اثنان'), - (r'\bإحتياط\b', 'احتياط'), - (r'\bإقتباس\b', 'اقتباس'), - (r'\bادارة\b', 'إدارة'), - (r'\bابناء\b', 'أبناء'), - (r'\bالانصار\b', 'الأنصار'), - (r'\bاشارة\b', 'إشارة'), - (r'\bإقرأ\b', 'اقرأ'), - (r'\bإمتياز\b', 'امتياز'), - (r'\bارق\b', 'أرق'), - (r'\bاللة\b', 'الله'), - (r'\bإختبار\b', 'اختبار'), - (r'== ?روابط خارجية ?==', '== وصلات خارجية =='), - (r'\bارسال\b', 'إرسال'), - (r'\bإتصالات\b', 'اتصالات'), - (r'\bابو\b', 'أبو'), - (r'\bابا\b', 'أبا'), - (r'\bاخو\b', 'أخو'), - (r'\bاخا\b', 'أخا'), - (r'\bاخي\b', 'أخي'), - (r'\bاحد\b', 'أحد'), - (r'\bاربعاء\b', 'أربعاء'), - (r'\bاول\b', 'أول'), - (r'\b(ال|)اهم\b', r'\1أهم'), - (r'\b(ال|)اثقل\b', r'\1أثقل'), - (r'\b(ال|)امجد\b', r'\1أمجد'), - (r'\b(ال|)اوسط\b', r'\1أوسط'), - (r'\b(ال|)اشقر\b', r'\1أشقر'), - (r'\b(ال|)انور\b', r'\1أنور'), - (r'\b(ال|)اصعب\b', r'\1أصعب'), - (r'\b(ال|)اسهل\b', r'\1أسهل'), - (r'\b(ال|)اجمل\b', r'\1أجمل'), - (r'\b(ال|)اقبح\b', r'\1أقبح'), - (r'\b(ال|)اطول\b', r'\1أطول'), - (r'\b(ال|)اقصر\b', r'\1أقصر'), - (r'\b(ال|)اسمن\b', r'\1أسمن'), - (r'\b(ال|)اذكى\b', r'\1أذكى'), - (r'\b(ال|)اكثر\b', r'\1أكثر'), - (r'\b(ال|)افضل\b', r'\1أفضل'), - (r'\b(ال|)اكبر\b', r'\1أكبر'), - (r'\b(ال|)اشهر\b', r'\1أشهر'), - (r'\b(ال|)ابطأ\b', r'\1أبطأ'), - (r'\b(ال|)اماني\b', r'\1أماني'), - (r'\b(ال|)احلام\b', r'\1أحلام'), - (r'\b(ال|)اسماء\b', r'\1أسماء'), - (r'\b(ال|)اسامة\b', r'\1أسامة'), - (r'\bابراهيم\b', 'إبراهيم'), - (r'\bاسماعيل\b', 'إسماعيل'), - (r'\bايوب\b', 'أيوب'), - (r'\bايمن\b', 'أيمن'), - (r'\bاوزبكستان\b', 'أوزبكستان'), - (r'\bاذربيجان\b', 'أذربيجان'), - (r'\bافغانستان\b', 'أفغانستان'), - (r'\bانجلترا\b', 'إنجلترا'), - (r'\bايطاليا\b', 'إيطاليا'), - (r'\bاوربا\b', 'أوروبا'), - (r'\bأوربا\b', 'أوروبا'), - (r'\bاوغندة\b', 'أوغندة'), - (r'\b(ال|)ا(لماني|فريقي|سترالي)(ا|ة|تان|ان|ين|ي|ون|و|ات|)\b', - r'\1أ\2\3'), - (r'\b(ال|)ا(وروب|مريك)(ا|ي|ية|يتان|يان|يين|يي|يون|يو|يات|)\b', - r'\1أ\2\3'), - (r'\b(ال|)ا(ردن|رجنتين|وغند|سبان|وكران|فغان)' - r'(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)\b', - r'\1أ\2\3'), - (r'\b(ال|)ا(سرائيل|يران|مارات|نكليز|نجليز)' - r'(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)\b', - r'\1إ\2\3'), - (r'\b(ال|)(ا|أ)(رثوذكس|رثوذوكس)(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)' - r'\b', - r'\1أرثوذكس\4'), - (r'\bإست(عمل|خدم|مر|مد|مال|عاض|قام|حال|جاب|قال|زاد|عان|طال)' - r'(ت|ا|وا|)\b', - r'است\1\2'), - (r'\bإست(حال|قال|طال|زاد|عان|قام|راح|جاب|عاض|مال)ة\b', r'است\1ة'), + (r'(\A|\s)إمرأة(\Z|\s)', '\\1امرأة\\2'), + (r'(\A|\s)الى(\Z|\s)', '\\1إلى\\2'), + (r'(\A|\s)إسم(\Z|\s)', '\\1اسم\\2'), + (r'(\A|\s)الأن(\Z|\s)', '\\1الآن\\2'), + (r'(\A|\s)اول(\Z|\s)', '\\1أول\\2'), + (r'(\A|\s)الة(\Z|\s)', '\\1آلة\\2'), + (r'(\A|\s)فى(\Z|\s)', '\\1في\\2'), + (r'(\A|\s)اثقل(\Z|\s)', '\\1أثقل\\2'), + (r'(\A|\s)إبن(\Z|\s)', '\\1ابن\\2'), + (r'(\A|\s)إبنة(\Z|\s)', '\\1ابنة\\2'), + (r'(\A|\s)إقتصاد(\Z|\s)', '\\1اقتصاد\\2'), + (r'(\A|\s)إجتماع(\Z|\s)', '\\1اجتماع\\2'), + (r'(\A|\s)انجيل(\Z|\s)', '\\1إنجيل\\2'), + (r'(\A|\s)اجماع(\Z|\s)', '\\1إجماع\\2'), + (r'(\A|\s)امريكا(\Z|\s)', '\\1أمريكا\\2'), + (r'(\A|\s)اوروبا(\Z|\s)', '\\1أوروبا\\2'), + (r'(\A|\s)انجلترا(\Z|\s)', '\\1إنجلترا\\2'), + (r'(\A|\s)اكتوبر(\Z|\s)', '\\1أكتوبر\\2'), + (r'(\A|\s)اسرائيل(\Z|\s)', '\\1إسرائيل\\2'), + (r'(\A|\s)المانيا(\Z|\s)', '\\1ألمانيا\\2'), + (r'(\A|\s)ايطاليا(\Z|\s)', '\\1إيطاليا\\2'), + (r'(\A|\s)ايران(\Z|\s)', '\\1إيران\\2'), + (r'(\A|\s)إستخراج(\Z|\s)', '\\1استخراج\\2'), + (r'(\A|\s)إستعمال(\Z|\s)', '\\1استعمال\\2'), + (r'(\A|\s)إستبدال(\Z|\s)', '\\1استبدال\\2'), + (r'(\A|\s)إشتراك(\Z|\s)', '\\1اشتراك\\2'), + (r'(\A|\s)إستعادة(\Z|\s)', '\\1استعادة\\2'), + (r'(\A|\s)إستقلال(\Z|\s)', '\\1استقلال\\2'), + (r'(\A|\s)إنتقال(\Z|\s)', '\\1انتقال\\2'), + (r'(\A|\s)إتحاد(\Z|\s)', '\\1اتحاد\\2'), + (r'(\A|\s)املاء(\Z|\s)', '\\1إملاء\\2'), + (r'(\A|\s)إستخدام(\Z|\s)', '\\1استخدام\\2'), + (r'(\A|\s)أحدى(\Z|\s)', '\\1إحدى\\2'), + (r'(\A|\s)لاكن(\Z|\s)', '\\1لكن\\2'), + (r'(\A|\s)الاردن(\Z|\s)', '\\1الأردن\\2'), + (r'(\A|\s)إثنان(\Z|\s)', '\\1اثنان\\2'), + (r'(\A|\s)شيئ(\Z|\s)', '\\1شيء\\2'), + (r'(\A|\s)إحتياط(\Z|\s)', '\\1احتياط\\2'), + (r'(\A|\s)إقتباس(\Z|\s)', '\\1اقتباس\\2'), + (r'(\A|\s)الامارات(\Z|\s)', '\\1الإمارات\\2'), + (r'(\A|\s)اكثر(\Z|\s)', '\\1أكثر\\2'), + (r'(\A|\s)افضل(\Z|\s)', '\\1أفضل\\2'), + (r'(\A|\s)اكبر(\Z|\s)', '\\1أكبر\\2'), + (r'(\A|\s)اشهر(\Z|\s)', '\\1أشهر\\2'), + (r'(\A|\s)ادارة(\Z|\s)', '\\1إدارة\\2'), + (r'(\A|\s)ابناء(\Z|\s)', '\\1أبناء\\2'), + (r'(\A|\s)الانصار(\Z|\s)', '\\1 الأنصار\\2'), + (r'(\A|\s)اشارة(\Z|\s)', '\\1إشارة\\2'), + (r'(\A|\s)إقرأ(\Z|\s)', '\\1اقرأ\\2'), + (r'(\A|\s)إمتياز(\Z|\s)', '\\1امتياز\\2'), + (r'(\A|\s)ارق(\Z|\s)', '\\1أرق\\2'), + (r'(\A|\s)أرثوذوكس(\Z|\s)', '\\1أرثوذكس\\2'), + (r'(\A|\s)الأرثوذوكس(\Z|\s)', '\\1الأرثوذكس\\2'), + (r'(\A|\s)أرثوذوكسية(\Z|\s)', '\\1أرثوذكسية\\2'), + (r'(\A|\s)الأرثوذوكسية(\Z|\s)', '\\1الأرثوذكسية\\2'), + (r'(\A|\s)الأرثوذوكسي(\Z|\s)', '\\1الأرثوذكسي\\2'), + (r'(\A|\s)ارثوذوكس(\Z|\s)', '\\1أرثوذكس\\2'), + (r'(\A|\s)ارثوذوكسي(\Z|\s)', '\\1أرثوذكسي\\2'), + (r'(\A|\s)ارثوذوكسية(\Z|\s)', '\\1أرثوذكسية\\2'), + (r'(\A|\s)الارثوذوكسية(\Z|\s)', '\\1الأرثوذكسية\\2'), + (r'(\A|\s)اللة(\Z|\s)', '\\1الله\\2'), + (r'(\A|\s)إختبار(\Z|\s)', '\\1اختبار\\2'), + (r'(\A|\s)== روابط خارجية ==(\Z|\s)', '\\1== وصلات خارجية ==\\2'), + (r'(\A|\s)==روابط خارجية==(\Z|\s)', '\\1== وصلات خارجية ==\\2'), + (r'(\A|\s)ارسال(\Z|\s)', '\\1إرسال\\2'), + (r'(\A|\s)إتصالات(\Z|\s)', '\\1اتصالات\\2'), + (r'(\A|\s)اسامة(\Z|\s)', '\\1أسامة\\2'), + (r'(\A|\s)ابراهيم(\Z|\s)', '\\1إبراهيم\\2'), + (r'(\A|\s)اسماعيل(\Z|\s)', '\\1إسماعيل\\2'), + (r'(\A|\s)ايوب(\Z|\s)', '\\1أيوب\\2'), + (r'(\A|\s)ايمن(\Z|\s)', '\\1أيمن\\2'), + (r'(\A|\s)ابو(\Z|\s)', '\\1أبو\\2'), + (r'(\A|\s)ابا(\Z|\s)', '\\1أبا\\2'), + (r'(\A|\s)اخو(\Z|\s)', '\\1أخو\\2'), + (r'(\A|\s)اخا(\Z|\s)', '\\1أخا\\2'), + (r'(\A|\s)اخي(\Z|\s)', '\\1أخي\\2'), + (r'(\A|\s)احد(\Z|\s)', '\\1أحد\\2'), + (r'(\A|\s)اربعاء(\Z|\s)', '\\1أربعاء\\2'), + (r'(\A|\s)اهم(\Z|\s)', '\\1أهم\\2'), + (r'(\A|\s)اوزبكستان(\Z|\s)', '\\1أوزبكستان\\2'), + (r'(\A|\s)اذربيجان(\Z|\s)', '\\1أذربيجان\\2'), + (r'(\A|\s)افغانستان(\Z|\s)', '\\1أفغانستان\\2'), + (r'(\A|\s)امجد(\Z|\s)', '\\1أمجد\\2'), + (r'(\A|\s)اوسط(\Z|\s)', '\\1أوسط\\2'), + (r'(\A|\s)اشقر(\Z|\s)', '\\1أشقر\\2'), + (r'(\A|\s)انور(\Z|\s)', '\\1أنور\\2'), + (r'(\A|\s)اصعب(\Z|\s)', '\\1أصعب\\2'), + (r'(\A|\s)اسهل(\Z|\s)', '\\1أسهل\\2'), + (r'(\A|\s)اجمل(\Z|\s)', '\\1أجمل\\2'), + (r'(\A|\s)اقبح(\Z|\s)', '\\1أقبح\\2'), + (r'(\A|\s)اطول(\Z|\s)', '\\1أطول\\2'), + (r'(\A|\s)اقصر(\Z|\s)', '\\1أقصر\\2'), + (r'(\A|\s)اسمن(\Z|\s)', '\\1أسمن\\2'), + (r'(\A|\s)اذكى(\Z|\s)', '\\1أذكى\\2'), + (r'(\A|\s)اماني(\Z|\s)', '\\1أماني\\2'), + (r'(\A|\s)احلام(\Z|\s)', '\\1أحلام\\2'), + (r'(\A|\s)اسماء(\Z|\s)', '\\1أسماء\\2'), + (r'(\A|\s)ابطأ(\Z|\s)', '\\1أبطأ\\2'), + (r'(\A|\s)اوربا(\Z|\s)', '\\1أوروبا\\2'), + (r'(\A|\s)أوربا(\Z|\s)', '\\1أوروبا\\2'), + (r'(\A|\s)امريكي(\Z|\s)', '\\1أمريكي\\2'), + (r'(\A|\s)امريكية(\Z|\s)', '\\1أمريكية\\2'), + (r'(\A|\s)امريكيان(\Z|\s)', '\\1أمريكيان\\2'), + (r'(\A|\s)امريكيتان(\Z|\s)', '\\1أمريكيتان\\2'), + (r'(\A|\s)امريكيون(\Z|\s)', '\\1أمريكيون\\2'), + (r'(\A|\s)امريكيات(\Z|\s)', '\\1أمريكيات\\2'), + (r'(\A|\s)الامريكي(\Z|\s)', '\\1الأمريكي\\2'), + (r'(\A|\s)الامريكية(\Z|\s)', '\\1الأمريكية\\2'), + (r'(\A|\s)الامريكيان(\Z|\s)', '\\1الأمريكيان\\2'), + (r'(\A|\s)الامريكيتان(\Z|\s)', '\\1الأمريكيتان\\2'), + (r'(\A|\s)الامريكيون(\Z|\s)', '\\1الأمريكيون\\2'), + (r'(\A|\s)الامريكيات(\Z|\s)', '\\1الأمريكيات\\2'), + (r'(\A|\s)اوروبي(\Z|\s)', '\\1أوروبي\\2'), + (r'(\A|\s)اوروبية(\Z|\s)', '\\1أوروبية\\2'), + (r'(\A|\s)اوروبيان(\Z|\s)', '\\1أوروبيان\\2'), + (r'(\A|\s)اوروبيتان(\Z|\s)', '\\1أوروبيتان\\2'), + (r'(\A|\s)اوروبيون(\Z|\s)', '\\1أوروبيون\\2'), + (r'(\A|\s)اوروبيات(\Z|\s)', '\\1أوروبيات\\2'), + (r'(\A|\s)الاوروبي(\Z|\s)', '\\1الأوروبي\\2'), + (r'(\A|\s)الاوروبية(\Z|\s)', '\\1الأوروبية\\2'), + (r'(\A|\s)الاوروبيان(\Z|\s)', '\\1الأوروبيان\\2'), + (r'(\A|\s)الاوروبيتان(\Z|\s)', '\\1الأوروبيتان\\2'), + (r'(\A|\s)الاوروبيون(\Z|\s)', '\\1الأوروبيون\\2'), + (r'(\A|\s)الاوروبيات(\Z|\s)', '\\1الأوروبيات\\2'), + (r'(\A|\s)اسرائيلي(\Z|\s)', '\\1إسرائيلي\\2'), + (r'(\A|\s)اسرائيلية(\Z|\s)', '\\1إسرائيلية\\2'), + (r'(\A|\s)اسرائيليان(\Z|\s)', '\\1إسرائيليان\\2'), + (r'(\A|\s)اسرائيليتان(\Z|\s)', '\\1إسرائيليتان\\2'), ], 'exceptions': { 'inside-tags': [ + 'gallery', # because of filenames 'interwiki', 'math', 'ref', @@ -566,6 +594,7 @@ fixes = { 'specialpages': { 'regex': False, 'msg': { + 'ar': 'روبوت: إصلاح حالة حروف الصفحات الخاصة', 'en': 'Robot: Fixing special page capitalisation', 'fa': 'ربات: تصحیح بزرگی و کوچکی حروف صفحه‌های ویژه', }, @@ -597,6 +626,7 @@ fixes = { 'regex': False, 'nocase': True, 'msg': { + 'ar': 'روبوت: إصلاح الوصلات إلى نطاقات .yu', 'de': 'Bot: Ersetze Links auf .yu-Domains', 'en': 'Robot: Replacing links to .yu domains', 'fa': 'ربات: جایگزینی پیوندها به دامنه‌ها با پسوند yu',