詳しい人求む！

Pythonのre.split()の正規表現の使い方

解決済

質問者：tmiyoshi
質問日時：2023/10/23 11:32
回答数：5件

Pythonのre.split()の正規表現を使って、
text = 'you say goodbye and i say hello.'
を単語単位に
['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']
のように分割したいのですが、
どの様に記述すれば良いのでしょうか？
分かる方、ご教示下さい。

最後のhelloと.(ピリオド)の間には、ブランクはありません。

No.1の回答に寄せられた補足コメントです。補足日時：2023/10/23 14:09
通報する
テキスト（text）は触らないで、
re.split(正規表現, text)
で所望の結果を得る「正規表現」の書き方を知りたいのです。

No.3の回答に寄せられた補足コメントです。補足日時：2023/10/23 16:41
通報する
ひとつ教えてください。
r (raw string) の
re.split(r'\b', text)とre.split('\b', text)ではどんな違いがあるのでしょうか？
ものの本には、rをつけるとバックスラッシュ文字そのものとして扱われと書いてあるようですが？

No.4の回答に寄せられた補足コメントです。補足日時：2023/10/25 19:12
通報する

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (5件)

ベストアンサー優先
最新から表示
回答順に表示

No.4ベストアンサー

回答者： artoo
回答日時：2023/10/23 17:16

re.findall(r'\w+|[^\w\s]+',text)

でしょうか。数字はどうするんだとか記号の連続があったらどうするかとか不明なので、あくまで一例ですが。

どうしてもsplitでやりたければ、re.split(r'\b|\s+') したあとで空の要素を削除する。
[x for x in re.split(r'\b|\s+',text) if x]

> re.split(正規表現, text)で所望の結果を得る「正規表現」の書き方を知りたいのです。
純粋に正規表現の勉強が目的ならともかく、テキストの分解が目的ならこういう考え方は止めた方が良いです。
×「超複雑な正規表現一発で処理する」・・・読解困難・メンテ不可
○「シンプルな正規表現とプログラムロジックで処理する」・・・読解容易・メンテ容易

（純粋に正規表現の勉強が目的なら他人に質問するはずがないので、勉強目的でないと判断しました）