SSブログ
プログラミング ブログトップ

グーグル翻訳をPythonでスクレイピング [プログラミング]

英語の勉強にジブリ映画の北米版を観たり聞いたりしてる。
字幕を追いかけるのが面倒なのでネットからスクリプトをゲット。
ただ、ちょっと意訳っぽい感じで日本語版と微妙に異なってる。
英語スクリプトの対訳が欲しい。
で、グーグル翻訳に思い至った。

ネットで調べるといろいろと出てくる。さっそくPythonで動作確認。が、どれもまともに動作しない。
どうやらPythonスクレイピング対策でいろいろとタグが変わってるみたい。まぁ、当然だな。
でも、そうなると出来る方法を模索してしまう。

結果、selenium、chromedriver、BeautifulSoupなどを使って動くようになったのでネットに恩返し。
とりあえずエッセンスコードだけ置いておきますね。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import urllib.parse

options = Options()
options.add_argument('--headless')

browser = webdriver.Chrome(chrome_options=options)
browser.implicitly_wait(3)

english = 'This is a pen.'
url_text = "https://translate.google.co.jp/#en/ja/{0}".format(english)
url = urllib.parse.quote_plus(url_text, "/:?=&#")

browser.get(url)
result = BeautifulSoup(browser.page_source, "html.parser").find(class_ = "tlid-translation translation").text
print(result)

browser.quit()
nice!(0)  コメント(0) 
共通テーマ:パソコン・インターネット
プログラミング ブログトップ

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。