2018年4月24日火曜日

[Python]はてなブックマークAPI メモ


はてなブックマーク件数取得APIを使ってブックマーク数を取得してみます。
import urllib.request
def hatebu(url):
    get_url = "http://api.b.st-hatena.com/entry.count?url="+url
    return urllib.request.urlopen(get_url).read()
print(hatebu(url))
url = http://b.hatena.ne.jp/

だと

b'5833'

が取得できる。他のものでもやってみると、リアルタイムでは反映されていない気がします。
→ キャッシュを使っているようです。

header responseを見てみるとキャッシュは30分のようです。

DateWed, 25 Apr 2018 04:38:50 GMT
ExpiresWed, 25 Apr 2018 05:08:51 GMT


はてなブックマークエントリー情報取得APIを使って情報取得。

関連エントリを出さない高速取得バージョンで。
非公開ブックマークは出てこないので件数とbookmarkの数が異なるようです。


import json

def hatebu_info(url):
    get_url = 'http://b.hatena.ne.jp/entry/jsonlite/?url='+url
    return urllib.request.urlopen(get_url).read()

contents = hatebu_info(url) 
data = json.loads(contents.decode('utf-8')) # デコードして、jsonとして読み込む

[Python] Get title and post date of Blogger

Script used for only Blogger (blogspot, like this blog) . Use Selenium and Python.
 
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
target_url = ''### Blogger only, blogspot.jp or...
num_get = 3 ### how many pages to check
result = []
try:
    b = webdriver.Firefox()
    time.sleep(3)
except:
    quit()
b.get(target_url)
wait = WebDriverWait(b, 30).until(
    EC.element_to_be_clickable((By.CLASS_NAME, 'post-title')))
newest_title = b.find_elements_by_class_name('post-title')[0].text
newest_postlink = b.find_elements_by_partial_link_text(newest_title)[0].get_attribute('href')
b.get(newest_postlink)
# get post date and title, move to older page
cnt = 0
while cnt < num_get:
    wait = WebDriverWait(b, 30).until(
        EC.element_to_be_clickable((By.CLASS_NAME, 'date-header')))
    date = b.find_elements_by_class_name('date-header')[0].text
    
    title = b.find_elements_by_class_name('post-title')[0].text
    
    print(date, title)
    result.append([date, title])
    b.find_elements_by_class_name('blog-pager-older-link')[0].click()
        
    cnt += 1
b.close()
If you want to get result with csv
import pandas as pd
pd.DataFrame(result).to_csv('date_title.csv', header=None, index=None) 

2018年4月23日月曜日

Webの求人ad画像を保存していくメモ

求人広告のWeb広告です。たまに保存しているのでアップしてみます。広告文も少しずつ特徴が出ているんでしょうか。

選ばれた人だけの会員制転職サイト bizreach

forkwell Scout IT・Webエンジニアのためのスカウト 企業による一括送信なし

ヤフージャパン 中途採用大阪オフィスエンジニア

ヤフージャパン 最先端を作るスペシャリスト

年収2,000万円求人特集 BIZREACH

ヒューマンアカデミー 事務職からWebデザイナーへ

VSN 正社員急募 エンジニア限定求人


2018年4月20日金曜日

Jupyterでテーブルの表示が途切れるとき、文字数を増やす

JupyterでPadasを表示すると、文字列が長くなって省略され...となってしまうときがあります。
import pandas as pd # make test dataframe
df = pd.DataFrame(['this is 1st, this is 2nd, this is 3rd, this is 4th, this is 5th, this is 6th'], columns=['test'])
In: df
Out:
test
0 this is 1st, this is 2nd, this is 3rd, this is...

設定を調べます。 # check col width max ... default is 50
pd.get_option("display.max_colwidth")
50
表示されている値を調べると、50未満の最少のwordまでが表示されることが分かります

len('this is 1st, this is 2nd, this is 3rd, this is') 46
設定を変更します。set_optionの第二引数を100にします。
pd.set_option("display.max_colwidth", 100)
In: df
Out:
test
0 this is 1st, this is 2nd, this is 3rd, this is 4th, this is 5th, this is 6th
これで全部出力することができました。あまり大きくしすぎると、逆に表示が崩れてしまうかもしれません。

2018年4月18日水曜日

マザーズ上場会社一覧(2018/04/11時点)

 外国会社除く 248社


コード銘柄名
1401エムビーエス
1436フィット
2121ミクシィ
2122インタースペース
2148アイティメディア
2150ケアネット
2158FRONTEO
2159フルスピード
2160ジーエヌアイグループ
2178トライステージ
2334イオレ
2342トランスジェニック
2351ASJ
2370メディネット
2385総医研ホールディングス
2402アマナ
2438アスカネット
2477手間いらず
2489アドウェイズ
2497ユナイテッド
2586フルッタフルッタ
3063ジェイグループホールディングス
3071ストリーム
3133海帆
3135マーケットエンタープライズ
3137ファンデリー
3138富士山マガジンサービス
3182オイシックスドット大地
3185夢展望
3187サンワカンパニー
3195ジェネレーションパス
3224ゼネラル・オイスター
3237イントランス
3261グランディーズ
3267フィル・カンパニー
3286トラストホールディングス
3300AMBITION
3359タイセイ
3416ピクスタ
3418バルニバービ
3446ジェイテックコーポレーション
3461パルマ
3474G-FACTORY
3477フォーライフ
3479ティーケーピー
3482ロードスターキャピタル
3484テンポイノベーション
3486グローバル・リンク・マネジメント
3489フェイスネットワーク
3541農業総合研究所
3542ベガコーポレーション
3545デファクトスタンダード
3547串カツ田中
3550スタジオアタオ
3556リネットジャパングループ
3557ユナイテッド&コレクティブ
3558ロコンド
3559ピーバンドットコム
3565アセンテック
3566ユニフォームネクスト
3622ネットイヤーグループ
3623ビリングシステム
3624アクセルマーク
3628データホライゾン
3634ソケッツ
3645メディカルネット
3646駅探
3652ディジタルメディアプロフェッショナル
3653モルフォ
3664モブキャストホールディングス
3665エニグモ
3671ソフトマックス
3674オークファン
3679じげん
3680ホットリンク
3682エンカレッジ・テクノロジ
3685みんなのウェディング
3689イグニス
3690ロックオン
3691リアルワールド
3692FFRI
3695GMOリサーチ
3697SHIFT
3698CRI・ミドルウェア
3723日本ファルコム
3727アプリックス
3742ITbook
3773アドバンスト・メディア
3782ディー・ディー・エス
3793ドリコム
3815メディア工房
3850エヌ・ティ・ティ・データ・イントラマート
3856Abalance
3900クラウドワークス
3904カヤック
3905データセクション
3906ALBERT
3907シリコンスタジオ
3908コラボス
3911Aiming
3913sMedio
3914JIG-SAW
3915テラスカイ
3917アイリッジ
3922PRTIMES
3923ラクス
3925ダブルスタンダード
3927アークン
3929ソーシャルワイヤー
3930はてな
3931バリューゴルフ
3935エディア
3936グローバルウェイ
3939カナミックネットワーク
3960バリューデザイン
3961シルバーエッグ・テクノロジー
3962チェンジ
3966ユーザベース
3967エルテス
3969エイトレッド
3970イノベーション
3976シャノン
3979うるる
3984ユーザーローカル
3985テモナ
3986ビーブレイクシステムズ
3989シェアリングテクノロジー
3990UUUM
3991ウォンテッドリー
3993PKSHATechnology
3994マネーフォワード
3995SKIYAKI
3996サインポスト
3998すららネット
3999ナレッジスイート
4308Jストリーム
4380Mマート
4381ビープラッツ
4563アンジェス
4564オンコセラピー・サイエンス
4565そーせいグループ
4571ナノキャリア
4575キャンバス
4583カイオム・バイオサイエンス
4584ジーンテクノサイエンス
4585UMNファーマ
4586メドレックス
4588オンコリスバイオファーマ
4591リボミック
4592サンバイオ
4593ヘリオス
4594ブライトパス・バイオ
4596窪田製薬ホールディングス
4597ソレイジア・ファーマ
4813ACCESS
4824メディアシーク
5704JMC
6026GMOTECH
6027弁護士ドットコム
6030アドベンチャー
6031サイジニア
6033エクストリーム
6034MRT
6038イード
6039日本動物高度医療センター
6040日本スキー場開発
6045レントラックス
6046リンクバル
6049イトクロ
6064アクトコール
6067メディアフラッグ
6069トレンダーズ
6072地盤ネットホールディングス
6079エナリス
6081アライドアーキテクツ
6084オウチーノ
6085アーキテクツ・スタジオ・ジャパン
6086シンメンテホールディングス
6090ヒューマン・メタボローム・テクノロジーズ
6092エンバイオ・ホールディングス
6094フリークアウト・ホールディングス
6095メドピア
6096レアジョブ
6166中村超硬
6172メタップス
6173アクアライン
6176ブランジスタ
6177AppBank
6180GMOメディア
6181パートナーエージェント
6182ロゼッタ
6185ソネット・メディア・ネットワークス
6190フェニックスバイオ
6192ハイアス・アンド・カンパニー
6193バーチャレクス・ホールディングス
6194アトラエ
6195ホープ
6198キャリア
6255エヌ・ピー・シー
6531リファインバース
6532ベイカレント・コンサルティング
6533OrchestraHoldings
6535アイモバイル
6537WASHハウス
6541グレイステクノロジー
6544ジャパンエレベーターサービスホールディングス
6545インターネットインフィニティー
6548旅工房
6550Fringe81
6551ツナグ・ソリューションズ
6552GameWith
6553ソウルドアウト
6554エスユーエス
6555MS&Consulting
6556ウェルビー
6558クックビズ
6560エル・ティー・エス
6561HANATOURJAPAN
6562ジーニー
6563みらいワークス
6567SERIOホールディングス
6568神戸天然物化学
6572RPAホールディングス
6573アジャイルメディア・ネットワーク
6574コンヴァノ
6575ヒューマン・アソシエイツ・ホールディングス
6618大泉製作所
6627テラプローブ
6696トランザス
7157ライフネット生命保険
7172ジャパンインベストメントアドバイザー
7183あんしん保証
7320日本リビング保証
7707プレシジョン・システム・サイエンス
7779CYBERDYNE
7813プラッツ
7829サマンサタバサジャパンリミテッド
8789フィンテックグローバル
8914エリアリンク
8922日本アセットマーケティング
9262シルバーライフ
9266一家ダイニングプロジェクト
9270SOU
9271和心
9272ブティックス
9325ファイズ
9450ファイバーゲート
9467アルファポリス