SlideShare a Scribd company logo
1 of 97
Download to read offline
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
MariaDBとMroongaで作る
全言語対応
超高速全文検索システム
須藤功平 クリアコード
第一回 JPMUG DB勉強会
2018-01-30
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索システム
対象
大量のテキスト
例:Wikiのデータ
例:オフィス文書のテキスト
例:商品説明・口コミ
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索システム
目的
必要な情報を
必要なときに
活用
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
必要な情報を活用
×
探している情報が見つからない
○
探している情報が見つかる
◎
意識していなかったけど
実は欲しかった情報も見つかる!
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
必要なときに活用
×
なかなか見つからない
○
すぐに見つかる
◎
すでに見つかっていた
例:レコメンデーション
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
実装方法
選択肢
全文検索サーバーを使う
MariaDBでLIKEを使う
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索サーバー案
メリット
必要な機能が揃っている
+αの機能もある
速い
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索サーバー案
デメリット
実装コスト大
それぞれ独自の使い方だから
マスターデータの同期はどうする?
メンテナンスコスト大
それぞれ独自の仕組みだから
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
MariaDBでLIKE案
メリット
実装コスト小
新しく覚えることが少ない
データの一元管理
メンテナンスコスト小
既存の運用ノウハウを使える
データ少なら実用的な速度
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
MariaDBでLIKE案
デメリット
機能不足
それっぽい順のソート不可
全文検索ではソート順が重要
ユーザーは先頭n件しか見ない
SQLの表現力不足
nクエリーで実現すると性能に影響
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
実現方法
第3の選択肢
MariaDB経由(SQL)で
全文検索エンジンを使う
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
メリット
高速で豊富な機能
それっぽい順のソート可
実装コスト小
メンテナンスコスト小
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
デメリット
MariaDBに拡張機能が必要
RDS・Azure databaseで使えない
(Azure database for MariaDBはまだリリース前)
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オススメの選択肢
全文検索の知識ナシ
まだ単純な機能で十分
データ少:MariaDB単独でLIKE
(数十万件とか)
データ中以上:
MariaDB経由で全文検索エンジン
いまどきの全文検索機能が必要
MariaDB経由で全文検索エンジン
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オススメの選択肢
全文検索の知識アリ
カリカリにチューニングしたい
MariaDBと全文検索サーバーを併用
それ以外
MariaDB経由で全文検索エンジン
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
説明する選択肢
MariaDB経由で
全文検索
エンジン
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索エンジン
Groonga(ぐるんが)
組込可能な全文検索エンジン
MariaDB・MySQLに組込→Mroonga
PostgreSQLに組込→PGroonga
全文検索サーバーとして
単独でも使用可能
MariaDBと全文検索サーバーを併用
もできる
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
Groongaの得意なこと
データの追加・更新
新鮮な情報をすぐに検索可能に!
更新中も検索性能を落とさない!
日本語
開発者が日本人
便利機能が組み込み
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
GroongaとUnicode
NFKCベースの正規化機能を組込
Unicode 5.1ベースで古い
2008年の仕様
Unicode 10.0(最新)対応中
正規化方式を変えるとインデックスの互換性がなくなる
(=要インデックス再構築)のでデフォルトは変えない
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
Mroonga(むるんが)
MariaDBのストレージエンジン
InnoDB・MyISAMなどと同じレイヤー
MariaDB 10.0.15から標準バンドル
使用方法
CREATE TABLE (...)
ENGINE=Mroonga
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
照合順序:COLLATION
文字の並び順の規則
文字が同一かどうかの判定にも利用
適切な日本語規則なし
いわゆる = 問題
MySQL 8では適切な日本語規則が追加される
utf8mb4_ja_0900_as_csなど
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
Mroongaの照合順序
MariaDB互換のもの
utf8mb4_ja_0900_*互換は対応予定
MariaDB互換を微調整したもの
日本語でもいい感じ
Groonga提供のもの
NFKCベースのもの
日本語でもいい感じ
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
Mroongaで照合順序
MariaDB互換がよい!
互換正規化処理を使用:デフォルト
MariaDB互換は気にしないから
いい感じに!
Groonga提供のものを使用
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索性能
計測データ
対象:Wikipedia日本語版
レコード数:約185万件
データサイズ:約7GB
メモリー4GB・SSD250GB(ConoHa)
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
検索性能1
キーワード:テレビアニメ
(ヒット数:約2万3千件)
InnoDB ngram 3m2s
InnoDB MeCab 6m20s
Mroonga:1 0.11s
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
検索性能2
キーワード:データベース
(ヒット数:約1万7千件)
InnoDB ngram 36s
InnoDB MeCab:1 0.03s
Mroonga:2 0.09s
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
検索性能3
キーワード:PostgreSQL OR MySQL
(ヒット数:約400件)
InnoDB ngram N/A(Error)
InnoDB MeCab:1 0.005s
Mroonga:2 0.028s
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
検索性能4
キーワード:日本
(ヒット数:約63万件)
InnoDB ngram 1.3s
InnoDB MeCab 1.3s
Mroonga:1 0.21s
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索性能まとめ
Mroonga:安定して速い
SQLで使えて機能豊富で速い!
InnoDB FTS MeCab
ハマれば速い
InnoDB FTS ngram
安定して遅い
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
普通の検索も速い
カラムストアを活かした最適化
ポイント1:余計なI/Oを減らす
ポイント2:I/Oを局所化
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
カラムストア
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
Mroonga
カラムごと
InnoDB他
カラム 行
値の管理単位 行ごと
高速なアクセス単位
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
必要なカラムのみアクセス
-- aのみにアクセス
SELECT a
FROM table
-- cのみにアクセス
WHERE c = XXX;
-- bにはアクセスしない
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
減ったI/O
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
Mroonga
カラムごと
InnoDB他
カラム 行
値の管理単位 行ごと
高速なアクセス単位
アクセスしない
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
行カウント
-- カラムの値は必要ない
SELECT COUNT(*)
FROM table
-- cの全文検索インデックスにだけアクセス
WHERE MATCH(c)
AGAINST('+keyword' IN BOOLEAN MODE);
-- a, b, cはアクセスしない
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
減ったI/O
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
Mroonga
カラムごと
InnoDB他
カラム 行
値の管理単位 行ごと
高速なアクセス単位
アクセスしない
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ORDER BY LIMIT
SELECT a
FROM table
WHERE MATCH(c)
AGAINST('+keyword' IN BOOLEAN MODE)
-- MariaDBではなくMroongaがORDER BY LIMITを処理
-- →Mroongaは10レコードだけMariaDBに返す
-- マッチしたレコードすべては返さない
ORDER BY a LIMIT 10;
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ORDER BY LIMITの最適化
Mroongaが検索
カラム毎の処理でI/Oを局所化
(索引非使用時)
Mroongaがソート
カラム毎の処理でI/Oを局所化
MroongaがOFFSET/LIMITを処理
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
カラム毎の処理は速い
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
カラム
行
a b c
1
2
3
値 値 値
値 値 値
値 値 値
Mroonga
カラムごと
InnoDB他
カラム 行
値の管理単位 行ごと
高速なアクセス単位
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
condition push downの最適化
従来はMariaDBが処理していた
検索条件をストレージエンジン
が処理する仕組み
ストレージエンジンでの処理の方が
高速なら全体として高速になる
Mroonga 7.10から実験的に対応
デフォルトオフ
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
condition push downの効果
全文検索インデックスのみ
等価条件:シーケンシャルスキャン
全文検索:インデックススキャン
データ
シカゴの犯罪データ(651万レコード)
詳細:https://github.com/kou/rabbit-slide-kou-jpmug-db-
study-1/blob/master/memo.md
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
等価条件:数値1つ
26万件ヒットするケース
InnoDB 1.3s
Mroonga
(デフォルト)
1.3s
Mroonga
(最適化ON)
0.4s
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
等価条件:数値1つ+真偽値2つ
7000件ヒットするケース
InnoDB 1.6s
Mroonga
(デフォルト)
2.3s
Mroonga
(最適化ON)
0.4s
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索+等価条件
4000件ヒットするケース
InnoDB 18s
Mroonga
(デフォルト)
0.4s
Mroonga
(最適化ON)
0.4s
このパターンはデフォルトで最適化が効く
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
Mroongaの検索性能まとめ
最適化が効くと桁違いに速い
全文検索のときはデフォルトで効く
7.10からさらなる最適化が!
まだ実験的扱いなのでデフォルトオフ
OLAP用途にも使える
MariaDB ColumnStoreを補完する
立ち位置も可
参考:http://mroonga.org/ja/docs/reference/
server_variables.html#mroonga-condition-push-down-type
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索システムの実装
全文検索
キーワードハイライト
周辺テキスト表示
オートコンプリート
同義語展開
関連文書の表示
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
テーブル定義
CREATE TABLE entries (
title text,
content text,
-- 全文検索用インデックス
-- よくわからないならデフォルトのまま使うこと!
FULLTEXT INDEX (title, content)
) ENGINE=Mroonga
DEFAULT CHARSET=utf8mb4;
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
データ挿入
-- 普通に挿入するだけでよい
INSERT INTO entries
VALUES ('タイトル',
'高速に全文検索したいですね!');
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索
SELECT title FROM entries
WHERE -- MATCH AGAINSTで全文検索
MATCH (title, content)
-- デフォルトORがMariaDBの仕様
-- 「検索」または「高速」を含むとマッチ
AGAINST ('検索 高速'
IN BOOLEAN MODE);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
AND全文検索
MATCH (title, content)
-- 各キーワードの前に「+」をつけるとAND
-- 「検索」かつ「高速」を含むとマッチ
AGAINST ('+検索 +高速'
IN BOOLEAN MODE);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
使いやすいAND全文検索
MATCH (title, content)
-- 最初に「*D+」をつけるとデフォルトAND
-- Mroonga独自機能
-- 「検索」かつ「高速」を含むとマッチ
AGAINST ('*D+ 検索 高速'
IN BOOLEAN MODE);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
それっぽい順のソート
SELECT
title,
-- ここのMATCH AGAINSTはスコアーを返す
MATCH (title, content)
AGAINST ('*D+ 検索 高速'
IN BOOLEAN MODE) AS score
FROM entries
WHERE -- ...
-- それっぽさでソート
ORDER BY score DESC LIMIT 10;
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ハイライト
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ハイライト
SELECT mroonga_highlight_html(
title, '*D+ 検索 高速' AS query)
-- クエリーからハイライト対象のキーワードを抽出
FROM entries
WHERE
MATCH (title, content)
AGAINST ('*D+ 検索 高速' IN BOOLEAN MODE);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ハイライト結果例
<Groonga>で高速全文検索!
↓
&lt;Groonga&gt;で ← タグをエスケープ
<span class="keyword">高速</span>
全文 ↑↓キーワードはclass付け
<span class="keyword">検索</span>!
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
周辺テキスト
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
周辺テキスト
SELECT mroonga_snippet_html(
content, '*D+ 検索 高速' AS query)
-- クエリーから対象のキーワードを抽出
FROM entries
WHERE
MATCH (title, content)
AGAINST ('*D+ 検索 高速' IN BOOLEAN MODE);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
周辺テキスト結果例
...<Groonga>で高速全文検索!...
↓
<div class="snippet"> ←1つ目
ga&gt;で ←タグをエスケープ
<span class="keyword">高速</span>
全文 ↑↓キーワードはclass付け
<span class="keyword">検索/span>!
</div>
<div class="snippet">...</div> ←2つ目
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート:必要なもの
マスターテーブル
候補(例:牛乳)
候補のヨミ(カタカナ・複数可)
例1:ギュウニュウ
例2:ミルク
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート:実装方法
以下の検索のOR
ヨミでの前方一致検索
候補を緩い全文検索
候補でソートして提示
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート:テーブル定義
CREATE TABLE terms (
term varchar(256), -- 補完候補
reading varchar(256), -- ヨミガナ
PRIMARY KEY (term, reading),
FULLTEXT INDEX (term) -- 候補全文検索用
-- 緩い全文検索用トークナイザー
COMMENT 'tokenizer "TokenBigramSplitSymbolAlpha"',
FULLTEXT INDEX (reading) -- ヨミガナ前方一致用
COMMENT 'normalizer "NormalizerAuto",
tokenizer "off"' -- トークナイザー不要
) ENGINE=Mroonga DEFAULT CHARSET=utf8mb4;
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート:データ例
INSERT INTO terms VALUES (
'牛乳', -- 補完候補
'ギュウニュウ' --ヨミガナはカタカナで指定
);
INSERT INTO terms VALUES (
'牛乳',
'ミルク' -- 「ミルク」でも補完できるように
);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
データ管理のポイント
普通のテーブルなので管理が楽
追加・削除・更新が楽
ダンプ・リストアもいつも通り
レプリケーションもいつも通り
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
検索方法
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape(${入力} AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape(${入力})))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
検索例:漢字1
-- ユーザーが「牛」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('牛' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索(ヒット)
AGAINST (CONCAT('*D+ ', mroonga_escape('牛')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
検索例:漢字2
-- ユーザーが「乳」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('乳' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索(ヒット)
AGAINST (CONCAT('*D+ ', mroonga_escape('乳')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
検索例:カタカナ
-- ユーザーが「ギュウ」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索(ヒット)
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('ギュウ' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape('ギュウ')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
検索例:ひらがな
-- ユーザーが「ぎゅう」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索(ヒット)
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('ぎゅう' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape('ぎゅう')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
オートコンプリート
検索例:ローマ字
-- ユーザーが「gyu」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索(ヒット)
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('gyu' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape('gyu')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
同義語展開
同義語
同じ意味だが表記が異なる語
例:「刺身」と「お造り」
どの表記でもヒットして欲しい
同義語展開→同義語すべてでOR検索
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
同義語展開
実装方法
同義語管理テーブルを作成
クエリー内の同義語を展開
展開後のクエリーで検索
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
同義語展開:Mroonga
テーブル定義
CREATE TABLE synonyms (
term varchar(255), -- 展開対象の語
synonym varchar(255), -- 同義語
INDEX (term) -- 高速化と精度向上
COMMENT 'normalizer "NormalizerAuto"'
) ENGINE=Mroonga DEFAULT CHARSET=utf8mb4;
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
同義語展開
データ例
INSERT INTO synonyms
-- 「刺身」を「刺身 OR お造り」に展開
VALUES ('刺身', '刺身'),
('刺身', 'お造り'),
-- 「お造り」を「お造り OR 刺身」に展開
('お造り', 'お造り'),
('お造り', '刺身');
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
同義語展開
データ管理のポイント
普通のテーブルなので管理が楽
追加・削除・更新が楽
ダンプ・リストアもいつも通り
レプリケーションもいつも通り
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
同義語展開:Mroonga
確認方法
SELECT mroonga_query_expand(
'synonyms', -- テーブル名
'term', -- 展開対象のカラム名
'synonym', -- 対応する同義語のカラム名
'居酒屋 刺身' -- クエリー
);
-- '居酒屋 ((刺身) OR (お造り))'
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
同義語展開:Mroonga
検索方法
SELECT title FROM entries
WHERE
MATCH (title)
-- '*D+ 居酒屋 OR ((刺身) OR (お造り))'になる
AGAINST (mroonga_query_expand('synonyms',
'term',
'synonym',
'*D+ 居酒屋 刺身')
IN BOOLEAN MODE);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
類似文書検索
検索クエリーは文書そのもの
キーワードではない
関連エントリーの提示に使える
メタデータがあるなら組み合わせる
→精度向上
メタデータ:タグ・行動履歴など
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
類似文書検索:Mroonga
インデックス定義
CREATE TABLE entries (
-- ...
FULLTEXT INDEX (content)
-- TokenMecabを使わないと精度がでない
-- 必要なときだけカスタマイズ!
COMMENT 'tokenizer "TokenMecab"'
) -- ...
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
類似文書検索:Mroonga
検索方法
SELECT title
FROM entries
WHERE
MATCH (content)
-- ↓ 既存文書の内容をそのまま指定
AGAINST ('...Groongaで高速全文検索!...'
IN NATURAL LANGUAGE MODE);
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
類似文書検索:Mroonga
結果例
クエリー:
...Groongaで高速全文検索!...
ヒット例:
...Mroongaで高速全文検索!...
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索システムの実装
まとめ
全文検索
キーワードハイライト
周辺テキスト表示
オートコンプリート
同義語展開
関連文書の表示
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
全文検索システムの実装
次の一歩
構造化データ対応
オフィス文書・HTMLなど
対応に必要な処理
テキスト抽出
メタデータ抽出(例:タイトル・更新日時)
スクリーンショット作成(なおよい)
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
抽出ツール
Apache Tika
Apache Luceneのサブプロジェクト
対応フォーマット数が多い
ChupaText
Groongaのサブプロジェクト
スクリーンショット作成対応
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText
対応フォーマット
Word/Excel/PowerPoint
ODT/ODS/ODP(OpenDocument)
PDF/HTML/XML/CSV/...
インターフェイス
HTTPとコマンドライン
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:インストール
DockerかVagrantを使うのが楽
https://github.com/ranguba/chupa-text-docker
https://github.com/ranguba/chupa-text-vagrant
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:Docker
% GITHUB=https://github.com
% git clone 
${GITHUB}/ranguba/chupa-text-docker.git
% cd chupa-text-docker
% docker-compose up --build
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:使い方
% curl 
--form data=@XXX.pdf 
http://localhost:20080/extraction.json
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:結果例
{
"mime-type": "application/pdf", # 元データのMIMEタイプ
"size": 147159, # メタデータ
...,
"texts": [ # 抽出されたテキスト(N個)
{
"mime-type": "text/plain", # 抽出後のMIMEタイプ
...,
"creator": "Adobe Illustrator CS3", # メタデータ
"body": "This is sample PDF. ...", # 抽出したテキスト
"screenshot": {
"mime-type": "image/png", # スクリーンショットのMIMEタイプ
"data": "iVBORw...", # Base64にした画像データ
"encoding": "base64" # Base64であることを明記
}
}
]
}
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:Web UI
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:Web UI抽出例
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:Web UI抽出例
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:Vagrant
% GITHUB=https://github.com
% git clone 
${GITHUB}/ranguba/chupa-text-vagrant.git
% cd chupa-text-vagrant
% vagrant up
使い方はDocker版と同じ
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
ChupaText:活用例
抽出したテキスト
Mroongaへ挿入
抽出したメタデータ
Mroongaへ挿入
絞り込みに活用
作成したスクリーンショット
検索結果表示時に掲載
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
まとめ
MariaDBの全文検索まわり
全文検索システム実装例を紹介
構造化データの対応方法を紹介
ChupaText
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
扱わなかった話題
運用について
障害対策・レプリケーション
チューニング
Groongaの機能を直接使う方法
MariaDBとMroongaで作る 全言語対応 超高速全文検索システム Powered by Rabbit 2.2.2
サポートサービス紹介
導入支援(設計支援・性能検証・移行支援・…)
開発支援
(サンプルコード提供・問い合わせ対応・…)
運用支援(障害対応・チューニング支援・…)
問い合わせ先:
https://www.clear-code.com/contact/?
type=groonga

More Related Content

What's hot

SQLアンチパターン(インデックスショットガン)
SQLアンチパターン(インデックスショットガン)SQLアンチパターン(インデックスショットガン)
SQLアンチパターン(インデックスショットガン)Tomoaki Uchida
 
Redisの特徴と活用方法について
Redisの特徴と活用方法についてRedisの特徴と活用方法について
Redisの特徴と活用方法についてYuji Otani
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!Tetsutaro Watanabe
 
やってはいけない空振りDelete
やってはいけない空振りDeleteやってはいけない空振りDelete
やってはいけない空振りDeleteYu Yamada
 
MySQL 5.7にやられないためにおぼえておいてほしいこと
MySQL 5.7にやられないためにおぼえておいてほしいことMySQL 5.7にやられないためにおぼえておいてほしいこと
MySQL 5.7にやられないためにおぼえておいてほしいことyoku0825
 
トランザクションをSerializableにする4つの方法
トランザクションをSerializableにする4つの方法トランザクションをSerializableにする4つの方法
トランザクションをSerializableにする4つの方法Kumazaki Hiroki
 
さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)Takanori Sejima
 
並列クエリを実行するPostgreSQLのアーキテクチャ
並列クエリを実行するPostgreSQLのアーキテクチャ並列クエリを実行するPostgreSQLのアーキテクチャ
並列クエリを実行するPostgreSQLのアーキテクチャKohei KaiGai
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門Masaya Dake
 
あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界Yoshinori Nakanishi
 
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編Yuki Morishita
 
PostgreSQLアンチパターン
PostgreSQLアンチパターンPostgreSQLアンチパターン
PostgreSQLアンチパターンSoudai Sone
 
MySQLで論理削除と正しく付き合う方法
MySQLで論理削除と正しく付き合う方法MySQLで論理削除と正しく付き合う方法
MySQLで論理削除と正しく付き合う方法yoku0825
 
MySQL 8.0で憶えておいてほしいこと
MySQL 8.0で憶えておいてほしいことMySQL 8.0で憶えておいてほしいこと
MySQL 8.0で憶えておいてほしいことyoku0825
 
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」Takuto Wada
 
MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話Yoshinori Matsunobu
 
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS   更新系と参照系で異なるORMを併用して上手くいった話DDD x CQRS   更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話Koichiro Matsuoka
 
SQLアンチパターン - ジェイウォーク
SQLアンチパターン - ジェイウォークSQLアンチパターン - ジェイウォーク
SQLアンチパターン - ジェイウォークke-m kamekoopa
 
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところ
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところ
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところY Watanabe
 

What's hot (20)

SQLアンチパターン(インデックスショットガン)
SQLアンチパターン(インデックスショットガン)SQLアンチパターン(インデックスショットガン)
SQLアンチパターン(インデックスショットガン)
 
Redisの特徴と活用方法について
Redisの特徴と活用方法についてRedisの特徴と活用方法について
Redisの特徴と活用方法について
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
 
nginx入門
nginx入門nginx入門
nginx入門
 
やってはいけない空振りDelete
やってはいけない空振りDeleteやってはいけない空振りDelete
やってはいけない空振りDelete
 
MySQL 5.7にやられないためにおぼえておいてほしいこと
MySQL 5.7にやられないためにおぼえておいてほしいことMySQL 5.7にやられないためにおぼえておいてほしいこと
MySQL 5.7にやられないためにおぼえておいてほしいこと
 
トランザクションをSerializableにする4つの方法
トランザクションをSerializableにする4つの方法トランザクションをSerializableにする4つの方法
トランザクションをSerializableにする4つの方法
 
さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)
 
並列クエリを実行するPostgreSQLのアーキテクチャ
並列クエリを実行するPostgreSQLのアーキテクチャ並列クエリを実行するPostgreSQLのアーキテクチャ
並列クエリを実行するPostgreSQLのアーキテクチャ
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門
 
あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界
 
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
 
PostgreSQLアンチパターン
PostgreSQLアンチパターンPostgreSQLアンチパターン
PostgreSQLアンチパターン
 
MySQLで論理削除と正しく付き合う方法
MySQLで論理削除と正しく付き合う方法MySQLで論理削除と正しく付き合う方法
MySQLで論理削除と正しく付き合う方法
 
MySQL 8.0で憶えておいてほしいこと
MySQL 8.0で憶えておいてほしいことMySQL 8.0で憶えておいてほしいこと
MySQL 8.0で憶えておいてほしいこと
 
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
 
MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話
 
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS   更新系と参照系で異なるORMを併用して上手くいった話DDD x CQRS   更新系と参照系で異なるORMを併用して上手くいった話
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
 
SQLアンチパターン - ジェイウォーク
SQLアンチパターン - ジェイウォークSQLアンチパターン - ジェイウォーク
SQLアンチパターン - ジェイウォーク
 
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところ
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところ
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところ
 

Similar to MariaDBとMroongaで作る全言語対応超高速全文検索システム

Mroonga開発者が来たぞ!
Mroonga開発者が来たぞ!Mroonga開発者が来たぞ!
Mroonga開発者が来たぞ!Kouhei Sutou
 
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システム
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システムMySQL・PostgreSQLだけで作る高速でリッチな全文検索システム
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システムKouhei Sutou
 
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナーMySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナーKouhei Sutou
 
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?Kouhei Sutou
 
Mroonga・PGroonga導入方法
Mroonga・PGroonga導入方法Mroonga・PGroonga導入方法
Mroonga・PGroonga導入方法Kouhei Sutou
 
blogサービスの全文検索の話 - #groonga を囲む夕べ
blogサービスの全文検索の話 - #groonga を囲む夕べblogサービスの全文検索の話 - #groonga を囲む夕べ
blogサービスの全文検索の話 - #groonga を囲む夕べMasahiro Nagano
 
MySQL 8.0でMroonga
MySQL 8.0でMroongaMySQL 8.0でMroonga
MySQL 8.0でMroongaKouhei Sutou
 
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
 PHPでPostgreSQLとPGroongaを使って高速日本語全文検索! PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!Kouhei Sutou
 
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システムPostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システムKouhei Sutou
 
いろいろ考えると日本語の全文検索もMySQLがいいね!
いろいろ考えると日本語の全文検索もMySQLがいいね!いろいろ考えると日本語の全文検索もMySQLがいいね!
いろいろ考えると日本語の全文検索もMySQLがいいね!Kouhei Sutou
 
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!Kouhei Sutou
 
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」Kentaro Yoshida
 
2012 keynote-1
2012 keynote-12012 keynote-1
2012 keynote-1kmiyako
 
初心者向けMroonga・PGroonga情報
初心者向けMroonga・PGroonga情報初心者向けMroonga・PGroonga情報
初心者向けMroonga・PGroonga情報Kouhei Sutou
 
GroongaでRedmineを高速全文検索
GroongaでRedmineを高速全文検索GroongaでRedmineを高速全文検索
GroongaでRedmineを高速全文検索Kouhei Sutou
 

Similar to MariaDBとMroongaで作る全言語対応超高速全文検索システム (18)

Mroonga開発者が来たぞ!
Mroonga開発者が来たぞ!Mroonga開発者が来たぞ!
Mroonga開発者が来たぞ!
 
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システム
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システムMySQL・PostgreSQLだけで作る高速でリッチな全文検索システム
MySQL・PostgreSQLだけで作る高速でリッチな全文検索システム
 
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナーMySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
MySQL・PostgreSQL上で動かす全文検索エンジン「Groonga」セミナー
 
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?
 
Mroonga・PGroonga導入方法
Mroonga・PGroonga導入方法Mroonga・PGroonga導入方法
Mroonga・PGroonga導入方法
 
blogサービスの全文検索の話 - #groonga を囲む夕べ
blogサービスの全文検索の話 - #groonga を囲む夕べblogサービスの全文検索の話 - #groonga を囲む夕べ
blogサービスの全文検索の話 - #groonga を囲む夕べ
 
MySQL 8.0でMroonga
MySQL 8.0でMroongaMySQL 8.0でMroonga
MySQL 8.0でMroonga
 
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
 PHPでPostgreSQLとPGroongaを使って高速日本語全文検索! PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
PHPでPostgreSQLとPGroongaを使って高速日本語全文検索!
 
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システムPostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
PostgreSQLとPGroongaで作るPHPマニュアル高速全文検索システム
 
いろいろ考えると日本語の全文検索もMySQLがいいね!
いろいろ考えると日本語の全文検索もMySQLがいいね!いろいろ考えると日本語の全文検索もMySQLがいいね!
いろいろ考えると日本語の全文検索もMySQLがいいね!
 
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!
Mroongaの高速全文検索機能でWordPress内のコンテンツを有効活用!
 
PGroongaの実装
PGroongaの実装PGroongaの実装
PGroongaの実装
 
文字化け
文字化け文字化け
文字化け
 
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
 
2012 keynote-1
2012 keynote-12012 keynote-1
2012 keynote-1
 
初心者向けMroonga・PGroonga情報
初心者向けMroonga・PGroonga情報初心者向けMroonga・PGroonga情報
初心者向けMroonga・PGroonga情報
 
GroongaでRedmineを高速全文検索
GroongaでRedmineを高速全文検索GroongaでRedmineを高速全文検索
GroongaでRedmineを高速全文検索
 
Groonga族2015
Groonga族2015Groonga族2015
Groonga族2015
 

More from Kouhei Sutou

RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow
RubyKaigi 2022 - Fast data processing with Ruby and Apache ArrowRubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow
RubyKaigi 2022 - Fast data processing with Ruby and Apache ArrowKouhei Sutou
 
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021Kouhei Sutou
 
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache ArrowRubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache ArrowKouhei Sutou
 
Rubyと仕事と自由なソフトウェア
Rubyと仕事と自由なソフトウェアRubyと仕事と自由なソフトウェア
Rubyと仕事と自由なソフトウェアKouhei Sutou
 
Apache Arrowフォーマットはなぜ速いのか
Apache Arrowフォーマットはなぜ速いのかApache Arrowフォーマットはなぜ速いのか
Apache Arrowフォーマットはなぜ速いのかKouhei Sutou
 
Apache Arrow 1.0 - A cross-language development platform for in-memory data
Apache Arrow 1.0 - A cross-language development platform for in-memory dataApache Arrow 1.0 - A cross-language development platform for in-memory data
Apache Arrow 1.0 - A cross-language development platform for in-memory dataKouhei Sutou
 
Redmine検索の未来像
Redmine検索の未来像Redmine検索の未来像
Redmine検索の未来像Kouhei Sutou
 
Apache Arrow - A cross-language development platform for in-memory data
Apache Arrow - A cross-language development platform for in-memory dataApache Arrow - A cross-language development platform for in-memory data
Apache Arrow - A cross-language development platform for in-memory dataKouhei Sutou
 
Better CSV processing with Ruby 2.6
Better CSV processing with Ruby 2.6Better CSV processing with Ruby 2.6
Better CSV processing with Ruby 2.6Kouhei Sutou
 
Apache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォームApache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォームKouhei Sutou
 
PGroonga 2 – Make PostgreSQL rich full text search system backend!
PGroonga 2 – Make PostgreSQL rich full text search system backend!PGroonga 2 – Make PostgreSQL rich full text search system backend!
PGroonga 2 – Make PostgreSQL rich full text search system backend!Kouhei Sutou
 
Improve extension API: C++ as better language for extension
Improve extension API: C++ as better language for extensionImprove extension API: C++ as better language for extension
Improve extension API: C++ as better language for extensionKouhei Sutou
 
全文検索でRedmineをさらに活用!
全文検索でRedmineをさらに活用!全文検索でRedmineをさらに活用!
全文検索でRedmineをさらに活用!Kouhei Sutou
 
株式会社クリアコード
株式会社クリアコード株式会社クリアコード
株式会社クリアコードKouhei Sutou
 

More from Kouhei Sutou (20)

RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow
RubyKaigi 2022 - Fast data processing with Ruby and Apache ArrowRubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow
RubyKaigi 2022 - Fast data processing with Ruby and Apache Arrow
 
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
 
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache ArrowRubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow
RubyKaigi Takeout 2021 - Red Arrow - Ruby and Apache Arrow
 
Rubyと仕事と自由なソフトウェア
Rubyと仕事と自由なソフトウェアRubyと仕事と自由なソフトウェア
Rubyと仕事と自由なソフトウェア
 
Apache Arrowフォーマットはなぜ速いのか
Apache Arrowフォーマットはなぜ速いのかApache Arrowフォーマットはなぜ速いのか
Apache Arrowフォーマットはなぜ速いのか
 
Apache Arrow 1.0 - A cross-language development platform for in-memory data
Apache Arrow 1.0 - A cross-language development platform for in-memory dataApache Arrow 1.0 - A cross-language development platform for in-memory data
Apache Arrow 1.0 - A cross-language development platform for in-memory data
 
Apache Arrow 2019
Apache Arrow 2019Apache Arrow 2019
Apache Arrow 2019
 
Redmine検索の未来像
Redmine検索の未来像Redmine検索の未来像
Redmine検索の未来像
 
Apache Arrow - A cross-language development platform for in-memory data
Apache Arrow - A cross-language development platform for in-memory dataApache Arrow - A cross-language development platform for in-memory data
Apache Arrow - A cross-language development platform for in-memory data
 
Better CSV processing with Ruby 2.6
Better CSV processing with Ruby 2.6Better CSV processing with Ruby 2.6
Better CSV processing with Ruby 2.6
 
Apache Arrow
Apache ArrowApache Arrow
Apache Arrow
 
Apache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォームApache Arrow - データ処理ツールの次世代プラットフォーム
Apache Arrow - データ処理ツールの次世代プラットフォーム
 
Apache Arrow
Apache ArrowApache Arrow
Apache Arrow
 
My way with Ruby
My way with RubyMy way with Ruby
My way with Ruby
 
Red Data Tools
Red Data ToolsRed Data Tools
Red Data Tools
 
PGroonga 2 – Make PostgreSQL rich full text search system backend!
PGroonga 2 – Make PostgreSQL rich full text search system backend!PGroonga 2 – Make PostgreSQL rich full text search system backend!
PGroonga 2 – Make PostgreSQL rich full text search system backend!
 
Improve extension API: C++ as better language for extension
Improve extension API: C++ as better language for extensionImprove extension API: C++ as better language for extension
Improve extension API: C++ as better language for extension
 
PGroonga & Zulip
PGroonga & ZulipPGroonga & Zulip
PGroonga & Zulip
 
全文検索でRedmineをさらに活用!
全文検索でRedmineをさらに活用!全文検索でRedmineをさらに活用!
全文検索でRedmineをさらに活用!
 
株式会社クリアコード
株式会社クリアコード株式会社クリアコード
株式会社クリアコード
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

MariaDBとMroongaで作る全言語対応超高速全文検索システム