読者です 読者をやめる 読者になる 読者になる

Python3用パッケージってどのぐらい増えただろ?

python

Python3を使ってても、PyPIのパッケージがPython3対応かどうか、あんまり心配しなくなった気がする今日このごろです。

体感的にはPython3であまり不自由はない感じになってきたが、実際問題、どの程度Python3対応が進んでいるのか、気になったので簡単に調べてみた。

PyPIの情報は xmlrpcインターフェース で簡単に取得できる。あまり速くないので、全件取得するとかなり時間がかかるが。。。

最新パッケージの情報を取得し、Programming Language として Python 3 を明記しているパッケージの件数をカウントした。もちろん、メタ情報を記述していないパッケージもあるので誤差はあるが、それほど多くはないだろう。

で、2016年6月18日時点でダウンロード可能なパッケージ数は 70524件。そのうち、Python 3 と明示的に表記しているパッケージは。。。

19182件

だった。

全体の約27%。四分の一といったところだ。まだまだPython2の遺産は大きい。

ここで気になるのは、Python3用にリリースされるパッケージは、現在でもPython2用よりもずっと少ないのだろうか?という点だ。

Python2と3の差はこのまま拡大し続けるのだろうか?それともPython3用パッケージのリリースが順調に増えていくのだろうか?

現在のPythonエコシステムは以前に比べて成熟しており、いわゆる「定番」が決まってきている。昔のように、似たようなライブラリが乱立するということも少なくなっている気もしていて、そうなると、新規に公開されるパッケージの数は減ってくるのかもしれない。単純に数だけの比較にこだわってもしかたがないが、目安の一つにはなるだろう。

というわけで、現在ダウンロード可能な全パッケージの最新更新日と、Python3対応状況をグラフにしてみた。

f:id:atsuoishimoto:20160719152844p:plain

活動が活発なパッケージでは、Python3対応がどんどん増えている様子が見て取れる。

現在の最新版が2016年5月1日以降に更新されているパッケージは 8582件。このうち、Python3対応パッケージは 3868件で、約45%となる。現在では、PyPIにリリースされるパッケージの約半数は Python3対応ということだ。

Python3対応のパッケージが全体の半数を超えるには、まだあと数年は必要だろうか。

にもあるように、今がいろいろな点でPythonPython2と3の切り替えが目に見えていくポイントなのではないかと思う。

emitjson

python emitjson

emitjson というPythonモジュールを公開した。

pypi.python.org

emitjson という名前にしたが、じつはJSONは出力しない。 任意のオブジェクトを、json モジュールがサポートしているオブジェクトに変換するときに使うユーティリティだ。

例えば、日付とバイナリデータが入った辞書のリストからJSONを作成しようと思うと、だいたいこんな感じになる。

values = []
for d in src_vlaues:
   date = d['date'].isoformat()
   bin = base64.b64encode(d['bin'])
   values.append({'date':date, 'bin':bin})

json.dumps(values)

意外とめんどくさい。このぐらいなら「めんどくさい」で済むが、要素の数が多いとめんどくささが半端なくなってくる。 json.JSONEncoder をカスタマイズする手はあるが、それもなかなか面倒だ。

そこで、自前でデータを変換する仕組みを考えてみた。collections.abc と、Python3.4で導入された、functools.singledispatch を使えば、簡単に拡張性の高い変換ユーティリティを作れそうだ。

作ってみると、あっさりといい感じに仕上がった。上の処理は次のように書ける。

import emitjson

myrepo = emitjson.repository()  # emitjson リポジトリを作成

# リポジトリに bytes型の変換関数を登録
@myrepo.register(bytes)
def conv_bytes(obj):
    # bytes型をBase64文字列に変換
    return base64.b64encode(obj).decode('ascii')

json.dumps(myrepo(src_vlaues))

emitjson では、リストの要素や辞書のキー・値を走査し、登録した種類のオブジェクトがあれば、自動的に変換を行う。デフォルトでは シーケンス型・マッピング型の操作をサポートしており、datetime.date, datetime.datetime の要素があれば ISO 8601形式の文字列に変換する。

emitjson.repository() をデコレータとして、独自の変換関数を登録できる。上の例では、conv_bytes() 関数は、bytes型のオブジェクトを文字列に変換する。

また、DjangoやSQLAlchemyのモデルなどを辞書オブジェクトに変換する処理は、次のように定義できる。

class Test:
    def __init__(self):
        self.prop1 = 'spam'
        self.prop2 = 'ham'

# Test1クラスを変換する処理の定義
@myrepo.register(Test1)
class Test1Converter(emitjson.ObjConverter):
    prop1 = attr    # obj.prop1 を取得
    prop_a = attr('prop2')    # obj.prop2 を取得

json.dumps(myrepo([Test()]))

同じように、オブジェクトをJSON化可能な形式に変換するモジュールに、bpmappers がある。

bpmappers では主にクラスインスタンスを辞書に変換する機能が主となっているが、emitjson では簡単に任意のオブジェクトを変換できるようになっている。また、コンテナオブジェクトを変換するとその内容を自動的にスキャンし、再帰的に変換を行う点も大きな違いだ。ただし、 emitjson は Python3.4 以降でなければ動かない。Python3.4より前、とくにPython2.xで利用する場合は bpmappers が必須となる。測定はしていないが、おそらくパフォーマンスもbpmappers の方が優れていると思う。

引っ越しました

http://www.gembook.orgの内容は、すべてこちら に移動しました。

Python文法詳解 正誤表

第1章

P.1

次のようなというカテゴリーになるでしょう

次のようなカテゴリーになるでしょう

第2章

P.18

>>> 10 // 3
3.0
>>> 10.0 // 3.0
3.0

P.21

>>> S[1:4]
'bcd
>>> S[1:4]
'bcd'

第3章

p.48

>>> a = 1
>>> 100 and x == 1 or 200   # x if y else z と同じ式
>>> x = 1
>>> x == 1 and 100 or 200   # x if y else z と同じ式
100

p.52

base - 文字列を整数に変換する際の基数を指定し、省略時は10進数として変換します 0 の場合は、Python の整数リテラルとして変換します。

base - 文字列を整数に変換する際の基数を指定し、省略時は10進数として変換します。0 の場合は、Pythonの整数リテラルとして変換します。

p.53

>> int('0b100', 0) # 2進数
100
>> int('0b100', 0) # 2進数
4

第4章

P.72

>>> L[8:2:-1]    # 9番目から3番目まで取得
['8', '7', '6', '5', '4', '3']
>>> L[10:1:-3]   # 10番目から1番目まで、後ろから2つおきに取得
['9', '6', '3']
>>> L[8:2:-1]    # 9番目から4番目まで取得
['8', '7', '6', '5', '4', '3']
>>> L[10:1:-3]   # 10番目から3番目まで、後ろから2つおきに取得
['9', '6', '3']

P.74

>>> slice(1, 10)    # [1:10] と同じ
slice(None, 10, 3)
>>> slice(1, 10)    # [1:10] と同じ
slice(1, 10, None)

P.75

>>> L[3:7] = ['a', 'b', 'c', 'd']   # 4番目から7番目までの要素を置き換え
>>> L
[0, 1, 2, 'a', 'b', 'c', 'd', 7, 8, 9]
>>> L[1:4] = ['a', 'b', 'c', 'd']   # 2番目から4番目までの要素を置き換え
>>> L
[0, 'a', 'b', 'c', 'd', 4, 5, 6, 7, 8, 9]

P.88

start、endを指定したときは、スライス演算と同じ規則で指定する範囲から、subを検索します。

start、endを指定したときは、スライス演算と同じ規則で指定する範囲から、valueを検索します。

P.92

c = a;
b = a;
a = c;
c = b;
b = a;
a = c;

P.96

>>> hello = '今日は'
>>> hello.decode('utf-8')
b'\xe4\xbb\x8a\xe6\x97\xa5\xe3\x81\xaf'
>>> hello = '今日は'
>>> hello.encode('utf-8')
b'\xe4\xbb\x8a\xe6\x97\xa5\xe3\x81\xaf'

P.97

>>> s = 'とても
... 長くて
... 一行に収まらない
... 文字列'
>>> s = 'とても\
... 長くて\
... 一行に収まらない\
... 文字列'

P.112

>>> 'spam'.isalnum()
True
>>> 'スパムハム卵'.isalnum()    # 日本語の文字もTrue
True
>>> 'spam'.isalpha()
True
>>> 'スパムハム卵'.isalpha()    # 日本語の文字もTrue
True

P.121

>>> 'spam ham egg sausage'.split(maxsplit=2)   # 最大2回分割
['spam, 'ham', 'egg sausage']
>>> 'spam ham egg sausage'.split(maxsplit=2)   # 最大2回分割
['spam', 'ham', 'egg sausage']

P.129

b'\nspam\nham\negg\n\\t'
b'\nspam\nham\negg\n\t'

P.132

>>> bytes.fromhex('73 70 61 6d'')
>>> bytes.fromhex('73 70 61 6d')

P.146

chars を省略した場合、またはNoneを指定した場合は、全ての空白文字を削除します。

bytes を省略した場合、またはNoneを指定した場合は、全ての空白文字を削除します。

P.147

文字列が + か - の符号ではじまる場合、符号をバイト列の先頭に移動します。

バイト列が + か - の符号ではじまる場合、符号をバイト列の先頭に移動します。

P.152

>>> d['spam'] = 'egg' # キー 'ham' の値を `egg` に上書き
>>> d['spam'] = 'egg' # キー 'spam' の値を `egg` に上書き

P.156

逆にnot in 演算子は、左項のキーが、右項の辞書に含まれない場合に、True を返します。not in 演算子は、逆に辞書に左項のオブジェクトと同じ値の要素が含まれない場合に、True を返します。

逆にnot in演算子は、左項のキーが、右項の辞書に含まれない場合に、Trueを返します。

P.158

また、イテレータによるキーの列挙は、列挙中に辞書が変更されると無効になります。

また、イテレータによるキーの列挙は、列挙中に辞書の要素数が変更されると無効になります。

P.159

他の集合やイテラブルオブジェクトと、集合演算も行えます。

>>> d = {'spam':1, 'ham':2, 'egg':3, 'bacon':4}
>>> view = d.keys()
>>> view - ['spam', 'bacon']
{'spam', 'bacon'}

他の集合やイテラブルオブジェクトと、集合演算も行えます。

>>> d = {'spam':1, 'ham':2, 'egg':3, 'bacon':4}
>>> view = d.keys()
>>> view - ['spam', 'bacon']
{'ham', 'egg'}

P.164

集合オブジェクトが返すキーの順番は一定ではなく。

集合オブジェクトが返すキーの順番は一定ではなく、

P.164

要素の列挙は、列挙中に集合が変更されると無効になります。

要素の列挙は、列挙中に集合の要素数が変更されると無効になります。

P.169

>>> s.discad(1)
>>> s.discard(1)

第5章

P.180

start - インデックス値の初期値を指定します。省略時は 1 となります。

step - 数値の増分を指定します。省略時は 1 となります。

start - インデックス値の初期値を指定します。省略時は 0 となります。

P.184

キーボード割り込みを書けられた時に、

キーボード割り込みをかけられた時に、

第6章

P.193

>>> def spam(ham, egg, *args):
...     print('ham={}, egg={}, args={}'.format(ham, egg, args))}
>>> def spam(ham, egg, *args):
...     print('ham={}, egg={}, args={}'.format(ham, egg, args))

P.204

from ..ham.egg import bacon # 親パッケージのham.egg.spam モジュールをインポート
from ..ham.egg import bacon # 親パッケージのham.egg.bacon モジュールをインポート

P.206

$ cat spamp.zip >>spam
$ cat spam.zip >>spam

P.210

from spam import func_spam
import spam
func_ham = spam.func_spam

P.210

# egg モジュールは、ham モジュールをインポートして、func_spam を呼び出す
import ham

ham.func_spam()
# egg モジュールは、ham モジュールをインポートして、func_spam を呼び出す
import ham
ham.func_ham()

P.210

egg モジュールでは、ham モジュールを経由して、ham.func_spam() 関数を呼び出しています。

egg モジュールでは、ham モジュールを経由して、spam.func_spam() 関数を呼び出しています。

P.210

このように、呼び出し方にかかわらず、関数を作成したモジュールが、常にその関数のグローバル名前空間として検索されです。

このように、呼び出し方にかかわらず、関数を作成したモジュールが、常にその関数のグローバル名前空間として検索されます。

P.220

... super().ham() # 基底型の ham() を呼び出す
... super().spam() # 基底型の spam() を呼び出す

P.227

したがって、インスタンスから属性HAMを取得すると、インスタンス名前空間の検索は失敗しますが、失敗しますが、自動的にクラスの名前空間を次に検索し、

したがって、インスタンスから属性HAMを取得すると、インスタンス名前空間の検索は失敗しますが、自動的にクラスの名前空間を次に検索し、

P.229

def ham(self, arg):
    print(arg)
def egg(self, arg):
    print(arg)

P.229

Spam = type('Spam', (), {'ham':method, 'ham':100})
Spam = type('Spam', (), {'ham':100, 'egg':method})

P.230

type.__prepare__(metacls , name , bases , \*\*kwargs)

パラメタ

  metacls - メタクラス名を指定します。
  name - クラス名を指定します。
type.__prepare__(name , bases , \*\*kwargs)

パラメタ

  name - クラス名を指定します。

第7章

P.250

  • 誤 (7.1.6.6項)

raw -読み込みを行う、バッファなしストリームオブジェクトを指定します。

raw -書き込みを行う、バッファなしストリームオブジェクトを指定します。

P.251

raw -読み込みを行う、バッファなしストリームオブジェクトを指定します。

raw -読み書きを行う、バッファなしストリームオブジェクトを指定します。

P.252

line_buffering - True を指定する行バッファリングとなり、改行文字を出力した後に出力バッファをフラッシュします

line_buffering - True を指定すると、行バッファリングとなり、改行文字を出力した後に出力バッファをフラッシュします

P.262

処理を処理を再開します。

処理を再開します。

P.266

>>> list(x+y for x in 'abc'
... for y in '123' if y < '3'} # for のネストと if
>>> list(x+y for x in 'abc'
... for y in '123' if y < '3') # for のネストと if

P.267

print('Spam: {0.spam}, Ham: {0.ham}'.format(self.spam, self.ham))
print('Spam: {0.spam}, Ham: {0.ham}'.format(self))

P.267

... print('Hello {!'.format(', '.join(names))}
... print('Hello {}!'.format(', '.join(names))}

P.271

メソッド呼び出しので第一引数として、インスタンスではなく、常にクラスオブジェクトが渡されるようになります。

メソッド呼び出しの第一引数として、インスタンスではなく、常にクラスオブジェクトが渡されるようになります。

P.273

>>> spam.x
0
>>> spam.__dict__['ham'] = 999  # インスタンスの属性値を変更
>>> spam.x                      # プロパティは影響を受けない
0
>>> spam.ham
0
>>> spam.__dict__['ham'] = 999  # インスタンスの属性値を変更
>>> spam.ham                    # プロパティは影響を受けない
0

P.274

ダック・タイピング(Dock typing)

ダック・タイピング(Duck typing)

P.288

__getattribute__(attr)

__getattribute__(self, attr)

第8章

P.294

object - 参照カウントをオブジェクトを指定します。

object - 参照カウントを取得するオブジェクトを指定します。

P.299

Pythonは動的なプログラミング言語なので、関数を呼び出したり、オブジェクトを属性を参照したとき、

Pythonは動的なプログラミング言語なので、関数を呼び出したり、オブジェクトの属性を参照したとき、

P.299

そのように、オブジェクトを調査することイントロスペクションと呼びます。

そのように、オブジェクトを調査することをイントロスペクションと呼びます。

P.301

>>> type(unknown_obj).__module__.__file__
'/usr/local/lib/python3.4/site-packages/unknown.py
>>> import unknown_module
>>> unknown_module.__file__
'/usr/local/lib/python3.4/site-packages/unknown_module.py

P.302

行番号 バイト ニーモニック 引数 引数が示す値
       コード
       の位置
行番号 バイト 命令コード 引数 引数が示す値
       コード
       の位置

謝辞

本正誤表の作成にあたっては、下記の皆様をはじめ、多くの方々のご協力を頂きました。心よりお礼申し上げます。

(順不同)

tse 0.0.9

tse(Text Stream Editor) 0.0.9 をリリースした。このリリースでは、--begin オプションと、--end オブションを複数指定できるように修正した。

これまでだと、--begin複数行の値を指定するとき、

$ tse --begin 'print(1)' --begin 'print(2)'

複数--begin を記述する必要があったが、0.0.9 以降では

tse --begin 'print(1)' 'print(2)'

のように、--begin オプションに複数行を指定できるようになった。

この修正により、

tse --begin 'print(1)' *.txt

のように、入力ファイル名を --begin/--end の直後に指定していると、ファイル名がPythonスクリプトとして認識され、エラーとなってしまう。

このような場合は、次のようにスクリプトの終わりを -- で明示的に指定する必要がある。

tse --begin 'print(1)' −− *.txt

PyCon JP 2015 発表資料

PyCon JP 2015 で、tse の発表をさせていただき、ありがとうございました。思ったよりたくさんの、ワンライナーを愛する善男善女に聞いていただきました。

sed/awkが必修科目だった昔とは違って、今では知らない人も結構多いんじゃないかと思ってたけど、このセッションの参加者では、7割ぐらいの方がawkの利用経験ありということだった。awkスタイルのテキスト処理への関心も高いようだった。

「tseよりもsed/awk使い続けたほうが楽だなあ」という声もあったようだけど、それはもちろんそうで、sed/awkのような専門ツールを使ったほうが効率が良いケースはたくさんある。しかし、awkを知らない人や、awkでは難しいタスクを実行するときには、tseは非常に優れた選択肢になり得ると思う。機会があったら、ぜひとも一度お試しいただきたい。

tse 0.0.5リリース

久しぶりに tse をリリースした。遅ればせながら Python3で動くように修正し、いくつかオブションを追加した。

tse は sedawk のように Pythonコマンドラインから実行するためのツールで、詳しくは 以前書いた解説 を参照していただきたい。

今回のリリースでは、実行する Python スクリプトを、 {{}} を使ってインデントを記述できるようにしてみた。

tse -p '' -a 'if L1:{{for c in L2:{{print(c)}}else:{{print(L3)}}}}else:{{print(L4)}}'

のようなスクリプトは、

if L1:
    for c in L2:
        print(c)
    else:
        print(L3)
else:
    print(L4)

に変換される。tse のコマンドラインパーサは Pythonの構文を理解しており、文字列定数やコメント中に {{}} があっても無視するようになっている。

また、--inplace 引数に、ファイルの拡張子を指定すると、出力は標準出力ではなく、入力ファイルを上書きするようになった。元の入力ファイルは、--inplace 引数で指定した拡張子をつけたファイル名に保存される。

Python3対応もできたので、ずいぶん出番が増えてきた。最近では以下の様な使い方をしていた。

  • 全角・半角文字列を正規化

    {.sourceCode .sh} $ echo '123アイウエオ' | tse -ms unicodedata -s '.*' 'print(normalize("NFKC", L))'

  • スペース区切りのテキストからcsvに変換

    {.sourceCode .sh} $ tse -m csv -b 'o=csv.writer(sys.stdout)' -s '.*' 'o.writerow((L1,L2,L3))' < ~/C.txt

  • gitのユーザ名をコミット数順に表示

    {.sourceCode .sh} $ git log|tse -ms collections -b 'c=Counter()' -s '^Author: (.*)' 'c[S1] +=1' -e 'for a, n in c.items():print(n, a)'|sort -g

  • ファイルの文字コード変換

    {.sourceCode .sh} $ tse --inplace='.bak' -ie euc-jp -oe shiftjis -s '.*' 'print(L)' -- a.txt

  • 特定の文字列を含むプロセスを kill

    {.sourceCode .sh} $ ps -a|tse -s python 'print(L.split()[0])'|xargs sudo kill