Все,
Я работаю над приложением, которое содержит смесь стандартных latin- 1 символов и других языков. Я хотел бы преобразовать все в один и тот же "формат", чтобы переводчик Bing мог его понять. Есть две статьи, на которые я смотрел.
https://dev.laptop.org/ticket/2327 На самом деле я хочу сделать обратное этому и преобразовать этот http://ar.wikipedia.org/wiki/حاسوب к этому http://ar.wikipedia.org/wiki/%D8%AD%D8%A7%D8%B3%D9%88%D8%A8
Подобная статья, но не совсем то, что я искал. Как исключить строку urlencoded unicode в python?
Мой метод довольно прост...
for w in wiki:
q = (w[0])
u = unicode(q, 'utf=8', errors='ignore')
h = ''
for c in u:
h += do something amazing
doTranslate(h)
Может ли кто-нибудь помочь пролить свет на то, что мне здесь не хватает?
urllib может помочь. По крайней мере, этот фрагмент работает:
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import urllib
w = 'ar.wikipedia.org/wiki/حاسوب'
print urllib.quote (w)
Выход
ar.wikipedia.org/wiki/%D8%AD%D8%A7%D8%B3%D9%88%D8%A8
В зависимости от того, какая кодировка ваших входных строк вам может потребоваться, вызовите encode ('utf- 8') перед тем, как передать его в quote()