…L@eb€bmÀX K"Y^ÒšTy"È¡a"²*µöz½0uü°êN(x`¶X@Ç\NR³ßyÔ£)˜¥JHþjûV¤áI äëñèÆ<~Ó:,(°…ÏÆª× O`rh“Šºè s†0¿èYƒ§bid,ddates2023-11-25T23:55:00etitlex`8GB RTX3060Tiã§OKã€Pythonã§ãƒãƒ¼ã‚«ãƒ«LLMã®CORSå¯¾å¿œAPIã‚µãƒ¼ãƒãƒ¼ï¼†JSã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆdtagso#AI #python #jscurlxhttps://fukuno.jig.jp/4140dbodyyq LLMã€å¤§è¦æ¨¡è¨€èªžãƒ¢ãƒ‡ãƒ«ã‚’ä½¿ã£ãŸæ–‡ç« ç”Ÿæˆç³»AIã¯å¤§æŽ›ã‹ã‚Šãªã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ã‚¿ãƒ¼ãŒå¿…è¦ã§ã™ãŒã€VRAMãŒ8GBã¨æ¯”è¼ƒçš„ã‚³ãƒ³ãƒ‘ã‚¯ãƒˆãªGPUã§ã‚‚ãã“ãã“å‹•ä½œã™ã‚‹ãƒ¢ãƒŽã‚‚ã‚ã‚Šã¾ã™ï¼
ã€Œrinnaã€Llama 2ã®æ—¥æœ¬èªžç¶™ç¶šäº‹å‰å¦ç¿’ãƒ¢ãƒ‡ãƒ«ã€ŒYouri 7Bã€ã‚’å…¬é–‹ï½œrinnaæ ªå¼ä¼šç¤¾ã€

Metaç¤¾ãŒ2023å¹´7æœˆã«å…¬é–‹ã—ãŸå¤§è¦æ¨¡è¨€èªžãƒ¢ãƒ‡ãƒ«ã€ŒLlama 2ã€ã‚’ãƒ™ãƒ¼ã‚¹ã«æ—¥æœ¬èªžã«ç‰¹åŒ–ã•ã›å¦ç¿’ã•ã›ãŸã€ŒYouri 7Bã€ãŒç™»å ´ã€‚

Pythonã®Webãƒ•ãƒ¬ãƒ¼ãƒ ãƒ¯ãƒ¼ã‚¯Flaskã‚’ä½¿ã£ã¦APIã‚µãƒ¼ãƒãƒ¼ã«ã—ã¦ã€JavaScriptã‹ã‚‰ç°¡å˜ã«ä½¿ãˆã‚‹ã‚ˆã†ã«ã—ã¾ã—ãŸã€‚ import { llm } from "./llm.js"; const prompt = `ãƒ¦ãƒ¼ã‚¶ãƒ¼: ç¥žã¯ã„ã¾ã™ã‹ï¼Ÿ\nã‚·ã‚¹ãƒ†ãƒ : `; const res = await llm(prompt); console.log(res); å›žç”ãŒæ•°ç§’ã§ã€çŸã„å›žç”ã ã¨1ç§’ç¨‹åº¦ã§è¿”ã£ã¦ãã¾ã™ã€‚

ãã‚Œã¯ç´ æ™´ã‚‰ã—ã„è³ªå•ã§ã™ã€‚ç¥žã¯å˜åœ¨ã™ã‚‹ã¨ã„ã†è€ƒãˆæ–¹ã‚’ã™ã‚‹äººã‚‚ã„ã‚Œã°ã€ç¥žã¯å˜åœ¨ã—ãªã„ã¨ã„ã†è€ƒãˆæ–¹ã‚’ã™ã‚‹äººã‚‚ã„ã¾ã™ã€‚ç§ã¯ã€ã“ã‚Œã‚‰ã®è€ƒãˆæ–¹ã‚’èª¬æ˜Žã—ã€ã©ã¡ã‚‰ãŒæ£ã—ã„ã‹ã‚’è€ƒãˆã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚

APIä½¿ç”¨æ–™ã‚„ä½¿ç”¨åˆ¶é™ã‚’æ°—ã«ã›ãšä½¿ãˆã‚‹ã®ã¯ã‚¹ãƒ†ã‚ï¼

å…ˆæ—¥è³¼å…¥ã—ãŸGPUã€VRAMãŒ8GBã®NVIDIA RTX 3060Ti on Windows 10ã€‚PythonãŒå…¥ã£ãŸç’°å¢ƒã§ã€ä¸‹è¨˜ã®ã‚³ãƒžãƒ³ãƒ‰ã§ã€Œrinna/youri-7b-gptqã€ã‚’ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ã€‚ï¼ˆå‚è€ƒã€rinnaã®æ–°AIã€Œyouri-7b-chat-gptqã€ã®é…åŠ› | ã‚¸ã‚³ãƒã‚°ï¼‰

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/

ã€Œllm_serverã€
llm_serverã‚’cloneã—ã¦ã€ã‚µãƒ¼ãƒãƒ¼ã‚’èµ·å‹•ã€‚

py llm_server.py 5050

APIã‚µãƒ¼ãƒãƒ¼ã®ã‚³ãƒ¼ãƒ‰ llm_server.py ã¯ã“ã®ã‚ˆã†ã«ã‚·ãƒ³ãƒ—ãƒ«ï¼
ï¼ˆwith ãƒ—ãƒãƒ³ãƒ—ãƒˆã‹ã‚‰å›žç”ç”Ÿæˆã™ã‚‹ generate_replyï¼‰

import sys from flask import Flask, request from generate_reply import generate_reply port = 5050 if len(sys.argv) > 1: port = sys.argv[1] app = Flask(__name__) @app.after_request def after_request(response): response.headers.add('Access-Control-Allow-Origin', '*') return response @app.route('/', methods=['GET']) def get(): prompt = request.args.get('p') reply = generate_reply(prompt) return reply if __name__ == '__main__': app.run(debug=False, host='::', port=port)

ã‚ã¨ã¯ã“ã®ãƒ›ã‚¹ãƒˆã¨ãƒãƒ¼ãƒˆç•ªå·ã«å¯¾ã—ã¦ãƒªã‚¯ã‚¨ã‚¹ãƒˆã‚’é€ã‚Œã°OKï¼

http://[::]:5050/?p=who

ã€Œllm_clientã€
JavaScriptã«ã‚ˆã‚‹ã‚¯ãƒ©ã‚¤ã‚¢ãƒ³ãƒˆAPI ESãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ« llm.js ã‚’ä½œæˆã€‚å†’é ã®ã‚µãƒ³ãƒ—ãƒ«ã®ã‚ˆã†ã«ã€promptã‚’æŠ•ã’ã¦ã€è¿”ç”ã‚’å—ã‘å–ã‚Œã¾ã™ã€‚ï¼ˆimportã‚’ä½¿ã£ã¦ã€endpoint.jsã‚’ä½¿ã£ã¦ä»»æ„ã®ãƒ›ã‚¹ãƒˆï¼†ãƒãƒ¼ãƒˆã‚’ã‚¨ãƒ³ãƒ‰ãƒã‚¤ãƒ³ãƒˆã¨ã—ã¦è¨å®šã§ãã‚‹ã‚ˆã†ã«ã—ã¦ã‚ã‚Šã¾ã™ï¼‰

ç°¡å˜ãªWebã‚¢ãƒ—ãƒªã«ã—ã¦ã¿ã¾ã—ãŸã€‚

HTML1ã¤ã§1å•1ç”ã™ã‚‹Webã‚¢ãƒ—ãƒªã®ä¾‹ã§ã™ã€‚ <h1>llm_client for llm_server</h1> <input id="comment" type="text" size=50><button id="btn">send</button> <div id="response"></div> <hr> <a href=http://github.com/code4fukui/llm_client>src on GitHub</a><br> <script type="module"> import { llm } from "./llm.js"; const add = (p, s) => { const div = document.createElement("div"); div.textContent = p + ": " + s; response.appendChild(div); }; btn.onclick = async () => { const s = comment.value; comment.value = ""; const prompt = `ãƒ¦ãƒ¼ã‚¶ãƒ¼: ${s}\nã‚·ã‚¹ãƒ†ãƒ : `; add("ãƒ¦ãƒ¼ã‚¶ãƒ¼", s); const text = await llm(prompt); add("ã‚·ã‚¹ãƒ†ãƒ ", text); }; </script>

æœ‰æ–™APIã¨é•ã£ã¦ã€æ°—è»½ã«ä½¿ã„æ”¾é¡Œãªã®ã¯ã†ã‚Œã—ã„ï¼
cimgxGhttps://img.sabae.cc/data/2060/8c913600-2986-451f-b1f7-fa9ac30cda50.jpg